Главная > Разное > Теория и применение цифровой обработки сигналов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.13. Гомоморфная обработка речи

Термин гомоморфная обработка обычно применяют к классу систем, подчиняющихся обобщенному принципу суперпозиции, определяемому следующим образом. Если  и  — входные последовательности, а  и — соответствующие выходные последовательности системы, т. е.

                                            (12.32)

а  — произвольный скаляр, то система является гомоморфной, если справедливы   соотношения

             (12.33)

                                     (12.34)

Здесь  обозначают некоторые неконкретизированные математические операции типа умножения, сложения и  свертки.

Фиг. 12.30. Система гомоморфной обработки.

Важность рассматриваемого способа обработки определяется тем, что операция , выполняемая гомоморфной системой, может быть реализована в виде последовательности операций (фиг. 12.30). Системы  и  взаимно обратны. Система  является линейной системой с постоянными параметрами, т. е. это просто фильтр. Таким образом, используя разложение, показанное на фиг.12.30, можно обрабатывать последовательность на выходе системы  стандартными методами, т. е. сравнительно просто. Вид систем  и  легко определяется из , как это будет видно на примере анализа речи.

Как обсуждалось ранее, речевой сигнал моделируется путем свертки трех компонент: последовательности импульсов, представляющих основной тон, импульса возбуждения и импульсной характеристики голосового тракта. (В модели следует также учесть и характеристики излучения рта, но их обычно рассматривают вместе с импульсом возбуждения.) Обозначая через  последовательность импульсов основного тона, через  — импульс возбуждения, через  — импульсную характеристику голосового тракта и, наконец, через  — весовую функцию («окно») конечной длительности, служащую для выделения участков речевого сигнала, получим

.                     (12.35)

Поскольку  обычно меняется медленно, то соотношение (12.35) можно приближенно записать как

,      (12.36)

,                   (12.37)

т.е. выразить  в виде свертки трех последовательностей. Свертка легко приводится к суммированию, если воспользоваться преобразованием Фурье от (12.37) (что дает произведение) в прологарифмировать результат. Полученное колебание можно пропустить через ЛПП-систему и обработать каждую составляющую  некоторым желаемым образом. Для восстановления обработанного колебания обратная система  должна выполнить потенцирование (т.е. операцию, обратную логарифмированию) и обратное преобразование Фурье. Гомоморфная система обработки речи изображена на фиг. 12.31.

Фиг. 12.31. Система гомоморфной обработки речи (по Оппенгейму, Шаферу и Стокхэму).

Для обработки речи применительно к конкретным задачам использовалось несколько вариантов рассматриваемой системы. Один из них (фиг. 12.32) применялся, например, для оценки параметров передаточной функции голосового тракта и функции возбуждения. При этом сигналом возбуждения считалась свертка , а импульсной характеристикой голосового тракта . Таким образом,  является просто дискретной сверткой

,                             (12.38)

где  — сигнал возбуждения. Здесь  — сигнал в точке  (фиг. 12.32). Дискретное преобразование Фурье от  дает сигнал в точке , равный произведению ДПФ от  и . В следующем блоке определяется логарифм модуля полученной последовательности, причем сигнал в точке  равен сумме логарифмов модулей ДПФ от  и . Нетрудно видеть, что в последующих блоках (обратное ДПФ, взвешивание и еще одно ДПФ) выполняется линейная фильтрация сигнала в точке . По причинам, которые станут ясны ниже, фильтрация выполняется в области преобразований Фурье как мультипликативная операция. Поскольку обратное ДПФ линейно, сигнал в точке  (называемый кепстром сигнала в точке ) равен сумме кепстров функции возбуждения и импульсной характеристики  голосового тракта.

Можно показать, что кепстр в точке  позволяет разделить эффекты возбуждения и характеристики голосового тракта. Действительно, сигнал возбуждения можно рассматривать как квазипериодическую импульсную последовательность с преобразованием Фурье, близким к линейчатому, причем спектральные линии рас положены на гармониках частоты основного тона.

Фиг. 12.32. Гомоморфная обработка речи (по Оппенгейму, Шаферу и Стокхэму).

 

Фиг. 12.33. Гомоморфный анализ тоновой и шумовой речи.

Вычисление логарифма модуля не меняет линейчатого характера спектра функции возбуждения. Обратное ДПФ дает новую квазипериодическую последовательность импульсов с интервалами между импульсами, равными периоду основной частоты. Таким образом, кепстр сигнала возбуждения должен состоять из импульсов, расположенных вблизи , где — период основного тона. Импульсная характеристика голосового тракта обычно представляет собой последовательность, отличную от нуля на интервале 2030 мс. Как было показано выше, ее преобразование Фурье является медленно изменяющейся функцией частоты. После вычисления логарифма модуля и обратного ДПФ получается последовательность из небольшого числа ненулевых отсчетов, которое обычно меньше, чем число отсчетов на периоде основного тона. Можно показать, что кепстр последовательности, убывающей по закону , убывает как . Таким образом, с помощью кепстра можно отделить информацию о функции возбуждения от информации об импульсной характеристике голосового тракта.

Рассмотренный способ обработки был опробован на звонких и глухих звуках (фиг. 12.33). На верхних графиках показаны типичные колебания в точках  для тоновой речи, а на нижних — для шумовой.  Кривая на верхнем левом графике соответствует последовательности, содержащей звонкие звуки и взвешенной с помощью окна Хэмминга. Анализируемый отрезок содержал примерно три периода основного тона. Волнистая кривая на правом верхнем графике представляет логарифм модуля преобразования последовательности и состоит из быстроизменяющейся периодической компоненты (соответствующей возбуждению) и медленно изменяющейся составляющей, отражающей характеристики голосового тракта. На верхнем среднем графике приведен соответствующий кепстр. Высокий пик на 9 мс отражает период основного тона. Начальный участок представляет собой кепстр импульсной характеристики голосового тракта. Устраняя информацию о возбуждении путем умножения кепстра на весовую функцию с максимумом в начале координат в выполняя дискретное преобразование Фурье, получим плавную кривую (фиг. 12.33, справа вверху). Для определения частот основных формант, характерных для данного состояния голосового тракта, можно использовать эффективный алгоритм, основанный на анализе максимумов спектра в точке .

Колебание, возбуждающее глухие звуки, ближе к случайному процессу, чем к квазипериодической импульсной последовательности. График колебания в точке  изображен слева внизу (фиг. 12.33), где отчетливо виден случайный характер колебания. График логарифма модуля ДПФ (быстро изменяющаяся кривая) приведен справа внизу, и его также можно представить линейной комбинацией случайной компоненты, связанной с источником возбуждения, и медленно изменяющейся компоненты, характеризующей голосовой тракт. Кепстр рассматриваемого колебания приведен на среднем графике. Он не содержит высоких пиков, что указывает на глухой характер звука. Взвешивание кепстра и ДПФ дают медленно изменяющуюся кривую на правом нижнем графике. Она представляет собой частотную характеристику голосового тракта. Обычно спектр глухого звука описывают нулями и полюсами. Дальнейшее обсуждение этого вопроса содержится в разд. 12.15.

Таким образом, рассмотренная система (фиг. 12.32) позволяет разделить компоненты, образующие речевой сигнал, даже если они объединены сверткой.

 

<< Предыдущий параграф Следующий параграф >>
Оглавление