Глава 3. ЦИФРОВАЯ ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ
Э. Оппенгейм
3.1. Введение
Методы обработки речевых сигналов активно развивались в течение нескольких десятилетий применительно к широкому кругу задач — от техники связи до читающих автоматов [4]. Вплоть до середины 60-х годов почти все системы, предназначенные для обработки речевых сигналов, строились в виде аналоговых устройств. Вместе с тем в этот же период было создано несколько систем на базе универсальных цифровых вычислительных машин. Однако такие системы обычно моделировали работу аналоговых устройств в произвольном масштабе времени и основывались на алгоритмах, приспособленных к существующей аналоговой аппаратуре [41].
Гибкость, присущая цифровым вычислительным машинам, естественным образом привела к постановке экспериментов с более сложными алгоритмами, хотя заранее было ясно, что на практике такие алгоритмы невозможно реализовать в виде аналоговых устройств. По мере развития методов цифровой обработки сигналов как за счет расширения возможностей цифровой аппаратуры, так и за счет создания новых алгоритмов становилось все более очевидным, что цифровые методы и аппаратура должны существенно повлиять на процессы обработки речевых сигналов. Многие усовершенствования техники цифровой обработки сигналов были внедрены в системы обработки речевых сигналов отчасти потому, что полосы частот, характерные для речевых сигналов, хорошо согласовывались с быстродействием имевшихся машин. В последнее время наблюдается тенденция к внедрению цифровой обработки сигналов в системы обработки речевых сигналов; почти все современные системы обработки речи хотя бы частично основаны на цифровых алгоритмах обработки сигналов.
Задачи, связанные с обработкой речевых сигналов, можно разделить на три класса. К первому классу относятся задачи,
связанные с анализом речи. Например, в автоматических системах распознавания речевых сигналов исходным является речевое колебание, на основе которого принимается решение. Другими примерами, в которых требуется только анализ речи, служат опознание и подтверждение личности по голосу. Задачи, входящие во второй класс, связаны только с синтезом речи, когда, например, на вход читающей машины подается печатный текст, а с выхода снимается речевой сигнал. Задачи такого типа встречаются в информационных системах. Иногда желательно получить информацию из машины в словесной форме, например обращаясь к машине по обычному телефону. Подобная система позволяет врачу с большого расстояния иметь доступ к историям болезней, хранящимся в центральной вычислительной машине.
В задачах третьего класса сначала выполняется анализ речевого сигнала, а затем следует его синтез. Примерами могут служить системы передачи речевых сигналов с засекречиванием и системы сжатия полосы речевого сигнала. Если речь передается с применением дискретизации сигнала во времени и квантования, то требуется скорость передачи информации порядка 90 000 бит/с. Применяя анализ речи с последующим кодированием, передачей и синтезом в приемнике, эту величину (в зависимости от вида системы и требуемого качества синтезированной речи) можно уменьшить в 10—50 раз. Еще одним примером систем анализа — синтеза являются системы накопления — выдачи речевых сообщений, такие, как автоматический секретарь в телефонной линии. В системе накопления — выдачи речи анализ сообщения может выполняться в произвольном масштабе времени, а результаты анализа запоминаются в памяти вычислительной машины. При формировании требуемого словесного ответа эти результаты используются для управления синтезатором речи. Другими примерами задач третьего класса являются растяжение и сжатие речевых сигналов во времени и улучшение низкокачественных записей речи.
Методы цифровой обработки речевых сигналов в общем можно разделить на два больших класса [10]. В одном из них используются такие же способы кодирования колебаний, как и для произвольных звуковых сигналов. К ним относятся импульсно-кодовая модуляция (ИКМ), дельта-модуляция (ДМ), дифференциальная импульсно-кодовая модуляция (ДКИМ) и другие. Во всех перечисленных способах предполагается, что ширина спектра сигнала ограничена и никаких других предположений о сигнале не делается. Методы обработки, относящиеся к другому классу, в большей мере связаны со структурой речевых сигналов. Они основываются на моделировании органов речи линейной системой с медленно изменяющимися параметрами, возбуждаемой соответствующим сигналом.
В гл. 2, где рассматривались акустические сигналы общего вида, были описаны некоторые методы цифровой обработки сигналов, не связанные с речью. Данная глава посвящена методам обработки, применяемым к речевым сигналам. В разд. 3.2 рассмотрена упрощенная модель образования речевого сигнала. Хотя такая модель и является в некотором смысле чрезмерно упрощенной, она послужила основой для многих систем обработки речи и в общем полезна для изучения многих важных свойств речевых сигналов.