Главная > Цифровая обработка сигналов (Оппенгейм А. В.)
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

10.7. ПРИМЕНЕНИЕ ГОМОМОРФНОЙ РАЗВЕРТКИ

Понятия, рассмотренные в § 10.4-10.6, характерны для ряда задач обработки! сигналов, в частности при оценке параметров речи, а также при дереверберации, т. е. развертке двух или более сигналов, один из которых является последовательностью импульсов.

10.7.1. ОЦЕНКА ПАРАМЕТРОВ РЕЧИ

Звук формируется в результате возбуждения акустической камеры, называемой голосовым трактом, который оканчивается с одной стороны губами, а с другой — голосовой щелью [10]. До тех пор пока голосовой тракт имеет постоянную форму, его можно представить линейной инвариантной во времени системой, выходной сигнал которой является сверткой импульсной характеристики голосового тракта с возбуждающим колебанием. Звуки образуются тремя основными способами. Звонкие звуки образуются путем возбуждения голосового тракта квазипериодическими импульсами потока воздуха, создаваемыми голосовыми связками. При прохождении воздуха через суженный голосовой тракт создаются завихрения и в результате образуются фрикативные звуки. Взрывные звуки образуются путем полного закрывания голосовой щели, а затем ее резкого открывания. Образование звуков можно рассматривать как широкополосное возбуждение голосового тракта и смоделировать в виде фильтра с медленно меняющимися во времени параметрами, который своими частотными свойствами влияет на спектр возбуждения. Голосовой тракт характеризуется своими собственными частотами (называемыми формантами), которые соответствуют резонансам передаточной характеристики голосового тракта.

Если предположить, что источники возбуждения и форма голосового тракта относительно независимы, то приемлемой моделью формирования речевого сигнала будет схема, показанная на рис.

10.15. В этой модели с дискретным временем выборки звуковой

Рис. 10.15. Модель формирования речевого сигнала: 1 — генератор импульсной последовательности; 2 — генератор случайных чисел; 3 — коэффициенты цифрового фильтра (параметры голосового тракта); 4 — нестационарный цифровой фильтр

волны появляются на выходе цифрового фильтра изменяющимися во времени характеристиками. Так как голосовой тракт при непрерывной речи меняет свою форму сравнительно медленно, то разумно предположить, что этот цифровой имеет постоянные характеристики на временном интервале иорядка . Поэтому этот фильтр можно характеризовать на каждом таком интервале импульсной или частотной характеристикой или набором коэффициентов, если фильтр имеет импульсную характеристику бесконечной длины. В частности, для звонких звуков (за исключением носовых) передаточная функция цифрового фильтра состоит из компоненты голосового тракта

где соответствуют собственным частотам голосового тракта, и добавочной компоненты

которая появляется вследствие того, что импульсы голосовой щели имеют конечную длительность и не являются дельта-функциями. Таким образом, передаточная характеристика цифрового фильтра на рис. 10.17 имеет вид Этот фильтр возбуждается последовательностью импульсов в которой расстояние между импульсами соответствует высоте голоса.

Для глухих звуков согласно теории распространения звуковых волн передаточная функция голосового тракта имеет как нули, так и полюса. В этом случае подходящей моделью будет

где В этом случае система возбуждается шумоподобной последовательностью Как в случае звонких, так и в случае глухих звуков с помощью регулировки амплитуды изменяется интенсивность сигнала на входе цифрового фильтра.

При оценке параметров модели речи можно применить гомоморфную развертку, если предположить, что эта модель справедлива на коротком временном интервале [11]. Таким образом, короткий отрезок речи можно считать сверткой

Чтобы уменьшить эффекты из-за разрывов на концах интервала, умножается на функцию окна, так что на вход гомоморфной системы подается Если меняется медленно по сравнению с членом то можно записать приближенное равенство

Рассмотрим вклад каждой компоненты выражения (10.74а) в комплексный кепстр. Можно предположить, что на коротком временном интервале является последовательностью равноудаленных импульсов так что

где мы предполагаем, что М импульсов перекрываются функцией окна. Если определить последовательность

то преобразование Фурье от будет равно

Следовательно, а также являются периодическими функциями с периодом Комплексный кепстр равен

Таким образом, периодичность комплексного логарифма проявляется в комплексном кепстре в виде импульсов, расположенных на расстоянии выборок друг от друга. Если последовательность является минимально-фазовой, то будет равно нулю при 0. В противном случае будет иметь импульсы на расстоянии по выборок как при положительных, так и при отрицательных . В любом случае вклад определяется в области

Комплексный кепстр можно получить из комплексного логарифма

Из этого выражения нетрудно видеть, что

или если

Импульс голосовой щели имеет конечную длительность и в общем случае предполагается, что последовательность не является минимально-фазовой. Поэтому можно представить в виде свертки минимально-фазовой и максимально-фазовой последовательностей

Вклад в комплексный кепстр определяется выражением

где согласно нашим предыдущим рассуждениям можно ожидать, что основной вклад будет в области около

В общем случае компоненты комплексного кепстра спадают довольно быстро, так что для достаточно больших по вклады голосового тракта и импульсов голосовой щели не перекрываются с Другими словами, комплексные логарифмы компонент голосового тракта и голосовой щели являются медленно меняющимися функциями, а компонента основного тона — быстро меняющейся функцией. На рис. 10.16 а показан отрезок речи, полученный путем взвешивания с помощью окна Хэмминга, а на 10.166 показан комплексный логарифм дискретного преобразования Фурье от функции на рис. 10.16 а. Отметим быстро меняющуюся (почти периодически) компоненту, вызванную и медленно меняющиеся компоненты, вызванные Эти свойства проявляются в комплексном кепстре, изображенном на рис. 10.16 в в виде импульсов, расположенных на расстоянии приблизительно (период речи на входе) и появившихся благодаря компоненте и выборок в районе которые мы относим к

Если требуется разделить эти компоненты речи, то из предыдущего ясно, что следует пропустить комплексный логарифм через фильтр нижних частот для получения и фильтр высоких частот для получения На рис. 10.17 а показан пример, представляющий отрезок, соответствующий гласному звуку. После взвешивания посредством окна Хэмминга комплексный кепстр имеет вид, изображенный на рис. 10.17 б. После умножения комплексного кепстра на последовательность

Рис. 10.16. (см. скан) Отрезок речевого сигнала, взвешенный с помощью окна Хэмминга (а), комплексный логарифм преобразования а) и комплексный кепстр а) (в)

Рис. 10.17. Часть гласного звука (а), комплексный кепстр гласного звука б), восстановленная последовательность взвешенных импульсов основного тона восстановленная импульсная характеристика голосового тракта синтезированная речь с учетом импульсной характеристики г) и основного тона в)

и обработки результата обратной характеристической системой

результат будет иметь вид, показанный на рис. 10.17 в. С другой стороны, для восстановления комплексный кепстр умножается на

В этом случае выход системы показан на рис. 10.17 г. На рис. 10.17 д показан результат свертки колебания, изображенного на рис. 10.17 г с импульсной последовательностью, состоящей из единичных импульсов одинаковой амплитуды, появляющихся на месте пиков на рис. 10.17 в.

Мы показали, что гомоморфная развертка может быть успешно применена для разделения компонент речи. Однако во многих приложениях анализа речи нас интересует скорее оценка параметров речи, а не восстановление вида ее компонент. Например, может быть достаточно решить, является тот или иной отрезок речевого сигнала звонким или глухим звуком, и если это звонкий звук, то достаточно оценить его основной период или огибающую спектра если же это глухой звук, то достаточно оценить спектр . В таких случаях мы используем кепстр, а не комплексный кепстр. Вспомним, что кепстром является обратное преобразование Фурье от , следовательно,

Таким образом, можно ожидать, что близкая к нулевому моменту времени часть соответствует медленно меняющимся компонентам в определяемым формой голосового тракта, и в случае преобладания звонких звуков четная компонента будет содержать импульсы в тех же местах, что и Рисунок 10.18а показывает вычисления, связанные с оценкой параметров речи. На рис. 10.186 показаны типичные результата для звонких звуков. Взвешенный речевой сигнал обозначается буквой — буквой С, а кепстр — буквой Пик в кепстре при показывает основной период этого отрезка речи. Огибающая спектра, полученная путем умножения на «кепстральное» окно, которое пропускает только выборки с и вычисления ДПФ, обозначена буквой Е и наложена на график Случай с преобладанием глухих звуков, показанный на рис. 10.18 в, аналогичен во многом только что рассмотренному, за исключением случайного характера компоненты возбуждения, которая вызывает появление быстро меняющейся компоненты в Таким образом, близкие к началу отсчета времени компоненты в кепстре соответствуют передаточной функции голосового тракта; однако вследствие того что быстрые изменения в не являются периодическими, отсутствуют ярко выраженные пики в противоположность ситуации со звонкими звуками. Следовательно, кепстр является отличным методом для

различения звонких и глухих звуков и оценки основного периода звонкой речи [12].

Методы, изображенные на рис. 10.18, использовались при анализе речи и синтезе систем. При одном подходе импульсная характеристика вычислялась непосредственно из близкой к нулю части кепстра [13].

Рис. 10.18. Система для гомоморфного анализа речи (а), анализ звонких звуков (б), анализ глухих звуков (в)

С помощью кепстра находился также основной период и решался вопрос о преобладании звонких звуков. По этой информации синтезировалась речь путем реализации системы, изображенной на рис. 10.15, с помощью свертки импульсной характеристики с соответствующей возбуждающей последовательностью. При другом подходе с помощью кепстра оценивались нули и полюсы выражений (10.71) и (10.73) [14]. В этом случае речь синтезировалась путем реализации системы, изображенной на рис. 10.15 в виде каскадного соединения цифровых резонаторов второго порядка с меняющимися во времени характеристиками. В обоих случаях неявно предполагалось, что объединенная импульсная характеристика голосового тракта является минимальнофазовой. То, что при этом сохраняется только кратковременный амплитудный спектр, не является существенным ограничением, так как известно, что ухо почти нечувствительно к изменениям фазы звукового сигнала.

Categories

1
Оглавление
email@scask.ru