Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.5. Гомоморфный анализ и синтез речевых сигналовКак было отмечено в разд. 3.2, речевое колебание является Сверткой возбуждающей функции с импульсным откликом голосового тракта. Общий метод нелинейной фильтрации, называемый гомоморфной фильтрацией [60, 59, 8], оказался особенно пригодным для задач инверсной фильтрации речевого сигнала. Общая структура гомоморфных систем, применяемых для инверсной фильтрации сообщений, показана на рис. 3.19. Свойства системы
где
Рис. 3.19. Каноническое представление гомоморфных систем для фильтрации последовательностей с помощью инверсной свертки. Если последовательность
то из определения системы
Следовательно,
Таким образом, система Ряд свойств комплексного кепстра делает рассматриваемый способ анализа особенно удобным для анализа и синтеза речевых сигналов. Эти свойства перечислены ниже. 1. Рассмотрим последовательность
где вне единичного круга. Тогда в общем случае комплексный кепстр
Отсюда можно сделать вывод, что комплексный кепстр убывает не медленнее по крайней мере, чем 2. Комплексный кепстр последовательности
имеет вид
Другими словами, последовательность, состоящая из равноотстоящих (но не обязательно одинаковых по величине) импульсов, имеет комплексный кепстр того же вида. 3. Пусть
Из определения (3.28) следует, что
Основным следствием данного свойства является то, что для вычисления комплексного кепстра последовательности с минимальной ной фазой можно обойтись логарифмом действительной, а не комплексной функции. 4. Пусть
Тогда
В силу этих четырех свойств приемы гомоморфной обработки оказываются весьма удобными для анализа и синтеза речевых сигналов. Как указывалось в разд. 3.2, короткие отрезки речевых колебаний можно промоделировать откликом линейной системы, возбуждаемой сигналом в виде последовательности импульсов, если звук звонкий, или в виде шума, если звук глухой. Обычна полагают, что передаточная функция линейной системы, представляющей голосовой тракт, является рациональной функцией Пример такого восстановления показан на рис. 3.20. На рис. 3.20, а изображен речевой сигнал в виде отрезка гласного
Рис. 3.20. Восстановление речевого сигнала с помощью гомоморфной фильтрации. а — отрезок гласной; б - комплексный кеистр сигнала а; в — выделенная взвешенная последовательность импульсов основного тона: г - восстановленный импульсный отклик голосового тракта; д - речевой сигнал, синтезированный по импульсному отклику г и возбуждающему сигналу, оцененному из кепстра б (по Оппенгейму и Шаферу). звука, а на рис. 3.20, б — его комплексный кепстр, полученный после умножения сигнала рис. 3.20, а на весовую функцию Хемминга. В комплексном кепстре хорошо виден максимум в точке, соответствующей периоду основного тона. Сигнал возбуждения (рис. 3.20, б) был получен таким подбором линейного фильтра в схеме рис. 3.19, что сохранялись только составляющие кепстра, соответствующие большим значениям времени. С помощью фильтра, сохранявшего кепстр только при начальных значениях времени, был получен восстановленный импульсный отклик речевого тракта (рис. 3.20, г). На рис. 3.20, б хорошо просматривается влияние взвешивания сигнала, выполненного перед вычислением комплексного кепстра. Для проверки того, что импульс, приведенный на рис. 3.20, г, действительно является хорошей оценкой импульсного отклика голосового тракта, была вычислена свертка этого импульса с идеальным возбуждающим сигналом. Таким сигналом служила последовательность импульсов с тем же периодом, какой был у основного тона исходной речи (рис. 3.20, б). Полученное искусственное речевое колебание показано на рис. 3.20, д, где хорошо видно его близкое сходство с исходным колебанием. До сих пор в ходе обсуждения предполагалось, что кепстр вычисляется по формуле (3.20), когда сохраняется как амплитудная, так и фазовая информация. Но широко известно, что человеческое ухо нечувствительно к фазе. Пользуясь свойствами 3 и 4 и предполагая, что речевой сигнал на входе является минимальнофазовым, можно вычислить обратное преобразование от логарифма модуля преобразования сигнала. Если же входной речевой сигнал фактически не является минимально-фазовым (что почти наверняка и должно быть), то полученные значения кепстра будут содержать информацию только о величине спектральных составляющих, но не об их фазах. Более популярно можно пояснить механизм восстановления речевого сигнала с помощью кепстров следующим образом. Как уже отмечалось, спектр звонкого звука образуется умножением огибающей, представляющей состояние голосового тракта, на функцию, определяющую тонкую структуру спектра и описывающую возбуждающий сигнал. Тогда логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сигнала. Логарифм огибающей спектра с ростом частоты изменяется медленно, а логарифм спектра возбуждающего сигнала изменяется быстрее и периодичен. Тогда обратное преобразование Фурье от логарифма огибающей спектра сконцентрировано вблизи начальных значений времени, а обратное преобразование от логарифма спектра возбуждающего сигнала состоит из набора линий, что отражает периодичность его в частотной области. Чтобы выделить логарифм огибающей спектра из полного спектра логарифма, необходимо сгладить спектр логарифма. Для этого кепстр взвешивают «окном», «открытым» только в начальные моменты времени, т. е. выделяют начальный участок кепстра [59]. Эту процедуру сглаживания полного спектра логарифма, предназначенную для получения логарифма огибающей спектра речевого сигнала, называют сглаживанием кепстра. Эффект сглаживания кепстра показан на рис. 3.21. Рис. 3.21, а содержит кепстры, полученпые для последовательных отрезков речевого сигнала. На рис. 3.21, б изображены соответствующие графики логарифмов спектра с наложенными на них графиками логарифмов огибающей спектра, полученными методом сглаживания кепстра. Измерение огибающей спектра методом сглаживания кепстра оказалось полезным для широкого круга приложений. Оппенгейм [61] использовал его как основу системы анализа — синтеза речи, а Шафер и Рабинер [62] — для автоматического измерения параметров формант. В системе анализа — синтеза, основанной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состояние голосового тракта или огибающую спектра речевого сигнала. Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала. Блок-схема гомоморфной системы анализа изображена на рис. 3.22, а. Параметры возбуждающего сигнала определяются по концевой части кепстра. В частности, в кепстре звонкой речи наблюдаются пики в точках, кратных периоду основного тона. Такие пики хорошо видны на рис. 3.21. В спектре глухой речи эти пики отсутствуют. Следовательно, основными операциями анализатора Рис. 3.21. (см. скан) Оценка огибающей спектра методом сглаживания кепстра. а — кепстры для последовательных отрезков речевого сигнала; б - графики логарифмов спектра и графики логарифмов огибающей, полученные методом сглаживания кепстра (по Шаферу и Рабинеру). возбуждающего сигнала являются: 1) определение наличия (или отсутствия) пиков в концевой части кепстра, что является признаком звонкой или глухой речи; 2) при наличии импульсов — определение местоположения пиков в кепстре с целью измерения периода основного тона [51]. На вход гомоморфного синтезатора поступают начальная часть кепстра и параметры возбуждающего сигнала. В синтезаторе из начального участка кепстра формируется аппроксимация импульсного отклика голосового тракта. На основе параметров возбуждающего сигнала генерируется функция, которая после свертки с (кликните для просмотра скана) импульсным откликом (полученным из начального участка кепстра) и дает синтезированный речевой сигнал на выходе. В анализаторе речевого сигнала кепстр вычисляется по логарифму модуля спектра, в силу чего он является четной функцией. Если в синтезаторе для расчета импульсного отклика голосового тракта берется симметричный набор значений кепстра, то и получающийся отклик будет симметричен, т. е. будет иметь нулевую (или линейную) фазу. Импульсный отклик можно вычислить и по-другому, пользуясь формулой (3.30), что дает функцию с минимальной фазой. Блок-схема синтезатора изображена на рис. 3.22, б. Прослушивания, проведенные в рабочем порядке, подтвердили, что при синтезе с минимальной и нулевой фазами получаются практически неразличимые результаты. В целом же синтез с нулевой фазой выполнить проще, так как преобразование Фурье от четной последовательности является действительной функцией. Очевидно, что вид аппаратурной реализации гомоморфной системы анализа — синтеза во многом определяется устройством вычисления кратковременного преобразования Фурье. В настоящее время в наиболее перспективных типах такой системы для выполнения спектрального анализа применяют устройства с зарядовой связью [39]. Некоторые модификации анализаторов и синтезаторов, построенные на базе таких приборов, обладают дополнительными возможностями. В одной из модификаций, например, вместо сглаживания логарифма преобразования Фурье путем сглаживания кепстра можно использовать фильтрацию этого логарифма с помощью фильтра нижних частот, имеющего конечную импульсную характеристику. Тогда при анализе и синтезе речи требуется выполнять только по одному преобразованию Фурье.
|
1 |
Оглавление
|