Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
10.7. ПРИМЕНЕНИЕ ГОМОМОРФНОЙ РАЗВЕРТКИПонятия, рассмотренные в § 10.4-10.6, характерны для ряда задач обработки! сигналов, в частности при оценке параметров речи, а также при дереверберации, т. е. развертке двух или более сигналов, один из которых является последовательностью импульсов. 10.7.1. ОЦЕНКА ПАРАМЕТРОВ РЕЧИЗвук формируется в результате возбуждения акустической камеры, называемой голосовым трактом, который оканчивается с одной стороны губами, а с другой — голосовой щелью [10]. До тех пор пока голосовой тракт имеет постоянную форму, его можно представить линейной инвариантной во времени системой, выходной сигнал которой является сверткой импульсной характеристики голосового тракта с возбуждающим колебанием. Звуки образуются тремя основными способами. Звонкие звуки образуются путем возбуждения голосового тракта квазипериодическими импульсами потока воздуха, создаваемыми голосовыми связками. При прохождении воздуха через суженный голосовой тракт создаются завихрения и в результате образуются фрикативные звуки. Взрывные звуки образуются путем полного закрывания голосовой щели, а затем ее резкого открывания. Образование звуков можно рассматривать как широкополосное возбуждение голосового тракта и смоделировать в виде фильтра с медленно меняющимися во времени параметрами, который своими частотными свойствами влияет на спектр возбуждения. Голосовой тракт характеризуется своими собственными частотами (называемыми формантами), которые соответствуют резонансам передаточной характеристики голосового тракта. Если предположить, что источники возбуждения и форма голосового тракта относительно независимы, то приемлемой моделью формирования речевого сигнала будет схема, показанная на рис. 10.15. В этой модели с дискретным временем выборки звуковой
Рис. 10.15. Модель формирования речевого сигнала: 1 — генератор импульсной последовательности; 2 — генератор случайных чисел; 3 — коэффициенты цифрового фильтра (параметры голосового тракта); 4 — нестационарный цифровой фильтр волны появляются на выходе цифрового фильтра
где
которая появляется вследствие того, что импульсы голосовой щели имеют конечную длительность и не являются дельта-функциями. Таким образом, передаточная характеристика цифрового фильтра на рис. 10.17 имеет вид Для глухих звуков согласно теории распространения звуковых волн передаточная функция голосового тракта имеет как нули, так и полюса. В этом случае подходящей моделью будет
где При оценке параметров модели речи можно применить гомоморфную развертку, если предположить, что эта модель справедлива на коротком временном интервале [11]. Таким образом, короткий отрезок речи можно считать сверткой Чтобы уменьшить эффекты из-за разрывов на концах интервала,
Рассмотрим вклад каждой компоненты выражения (10.74а) в комплексный кепстр. Можно предположить, что на коротком временном интервале
где мы предполагаем, что М импульсов перекрываются функцией окна. Если определить последовательность
то преобразование Фурье от
Следовательно,
Таким образом, периодичность комплексного логарифма проявляется в комплексном кепстре в виде импульсов, расположенных на расстоянии Комплексный кепстр
Из этого выражения нетрудно видеть, что
или если
Импульс голосовой щели
Вклад
где согласно нашим предыдущим рассуждениям можно ожидать, что основной вклад В общем случае компоненты комплексного кепстра Если требуется разделить эти компоненты речи, то из предыдущего ясно, что следует пропустить комплексный логарифм через фильтр нижних частот для получения Рис. 10.16. (см. скан) Отрезок речевого сигнала, взвешенный с помощью окна Хэмминга (а), комплексный логарифм преобразования а)
Рис. 10.17. Часть гласного звука (а), комплексный кепстр гласного звука б), восстановленная последовательность взвешенных импульсов основного тона
и обработки результата обратной характеристической системой результат будет иметь вид, показанный на рис. 10.17 в. С другой стороны, для восстановления
В этом случае выход системы Мы показали, что гомоморфная развертка может быть успешно применена для разделения компонент речи. Однако во многих приложениях анализа речи нас интересует скорее оценка параметров речи, а не восстановление вида ее компонент. Например, может быть достаточно решить, является тот или иной отрезок речевого сигнала звонким или глухим звуком, и если это звонкий звук, то достаточно оценить его основной период или огибающую спектра Таким образом, можно ожидать, что близкая к нулевому моменту времени часть различения звонких и глухих звуков и оценки основного периода звонкой речи [12]. Методы, изображенные на рис. 10.18, использовались при анализе речи и синтезе систем. При одном подходе импульсная характеристика вычислялась непосредственно из близкой к нулю части кепстра [13].
Рис. 10.18. Система для гомоморфного анализа речи (а), анализ звонких звуков (б), анализ глухих звуков (в) С помощью кепстра находился также основной период и решался вопрос о преобладании звонких звуков. По этой информации синтезировалась речь путем реализации системы, изображенной на рис. 10.15, с помощью свертки импульсной характеристики с соответствующей возбуждающей последовательностью. При другом подходе с помощью кепстра оценивались нули и полюсы выражений (10.71) и (10.73) [14]. В этом случае речь синтезировалась путем реализации системы, изображенной на рис. 10.15 в виде каскадного соединения цифровых резонаторов второго порядка с меняющимися во времени характеристиками. В обоих случаях неявно предполагалось, что объединенная импульсная характеристика голосового тракта является минимальнофазовой. То, что при этом сохраняется только кратковременный амплитудный спектр, не является существенным ограничением, так как известно, что ухо почти нечувствительно к изменениям фазы звукового сигнала.
|
1 |
Оглавление
|