Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.6. Анализ — синтез методом линейного предсказанияКак альтернативу способа получения информации о голосовом тракте с помощью сглаживания спектров, проиллюстрированного на примере процедуры анализа в гомоморфной системе или в системе с гребенкой фильтров, можно рассмотреть подход, основанный на оценке параметров модели голосового тракта. В качестве такой модели можно взять модель, в которой характеристики голосового тракта описываются с помощью передаточной функции в виде рациональной дроби
При этом параметрами, описывающими голосовой тракт, являются коэффициенты числителя и знаменателя и масштабный множитель G. В общем случае импульсный отклик (или частотная характеристика), соответствующий передаточной функции (3.32), является нелинейной функцией коэффициентов числителя и знаменателя. Следовательно, при оценке этих параметров для отрезка речевого сигнала в общем случае необходимо решать систему нелинейных уравнений. В частном случае, когда порядок многочлена в знаменателе равен нулю, определение параметров по критерию минимальной средней квадратической ошибки сводится к решению системы линейных уравнений. В случае, когда правая часть формулы (3.32) является дробной функцией, т. е. порядок числителя равен нулю (что соответствует модели, имеющей только полюсы), определение параметров модели также сводится к решению системы линейных уравнений, получаемых из условия минимизации средней квадратической ошибки, возникающей в процессе обратной фильтрации. Отрезки речевых сигналов, конечно, имеют достаточно сложный вид, и не следует ожидать, что их можно точно описать моделью, такой, например, как (3.32), и тем более упрощенными моделями, имеющими только нули или полюсы. Однако, как было указано в разд. 3.2, важной особенностью передаточной функции голосового тракта является то, что она в основном характеризуется резонансами, которые в свою очередь хорошо представляются с помощью полюсов. Поэтому логично ожидать, что многие важные характеристики передаточной функции голосового тракта сохранятся при использовании модели только с полюсами. Данный раздел будет полностью посвящен методике моделирования голосового тракта с помощью дробной передаточной функции (содержащей только полюсы). Такой метод расчета обычно называют линейным предсказанием [68, 70, 82, 83]. В разд. 3.7 положения данного и предшествующего разделов будут распространены на случай моделировавния речи с применением передаточной функции, имеющей как полюсы, так и нули. Сначала рассмотрим задачу оценки параметров модели только с полюсами, если импульсная характеристика известна. Пусть H{z) - дробная передаточная функция (только с полюсами), имеющая вид
Импульсная характеристика
или при
Таким образом, при
а получающаяся при этом ошибка
Если прогнозируемые коэффициенты
где верхний предел
что дает систему уравнений
где
Подставляя в уравнение (3.38) выражение (3.40), получим формулу для средней квадратической ошибки
В дополнение к прогнозируемым коэффициентам в формуле (3.34) необходимо задать масштабный множитель Если характеристика
Поскольку В приведенных рассуждениях предполагалось, что имеется конечный отрезок импульсной характеристики чаще. Одним из главных его преимуществ является то, что матрица коэффициентов является теплицевой, т. е. все элементы матрицы, расположенные на одной диагонали, равны между собой (65]. Таким образом, при вычислении элементов матрицы достаточно найти одну ее строку. Кроме того, как будет показано ниже, существуют эффективные методы для решения получающейся системы уравнений (т. е. для обращения матрицы Теплица). Дополнительно отметим, что матрицы Теплица никогда не являются сингулярными и при отсутствии ошибок вычисления искомое решение для фильтра только с полюсами оказывается устойчивым. Автоковариациопный метод таких гарантий не дает. Главное достоинство автоковариационного метода состоит в том, что он в некотором смысле более точен. В частности, если последовательность можно точно промоделировать импульсной характеристикой фильтра, имеющего только полюсы, и имеется лишь конечный отрезок последовательности, то при использовании автоковариационного метода выходной сигнал фильтра только с полюсами полностью совпадет с исходной последовательностью, а при использовании автокорреляционного метода этого не произойдет. Однако такое различие при анализе речи методом линейного предсказания, по-видимому, можно отнести на второй план, потому что практически никогда сигнал точно не совпадает с колебанием на выходе фильтра только с полюсами. С другой стороны, очевидны практические достоинства метода, при использовании которого не появляются сингулярные системы и неустойчивые решения. В оставшейся части раздела будет применяться только автокорреляционный метод. Обозначим коэффициенты автокорреляции последовательности
Общепринято и вполне логично определять масштабный множитель уравнений (3.43). Тогда
Умножив обе части уравнения (3.45) на
Поскольку
[т. е. так, что
Таким образом, при моделировании методом линейного предсказания с моделью в виде фильтра только с полюсами первые Умножив обе части уравнения (3.45) на
Наконец, преобразуя (3.48) с применением равенства (3.47), будем иметь
Итак, если прогнозирующие коэффициенты
Важным достоинством метода линейного предсказания является наличие эффективных приемов решения системы уравнений (3.43). В автоковариадионном методе матрица коэффициентов не является теплицевой, однако ее можно обратить с помощью одного из нескольких сравнительно эффективных методов [81, 82]. При автокорреляционном методе можно воспользоваться очень эффективными итеративными алгоритмами, первоначально предложенными Левинсоном [64] и усовершенствованными Дэрбином [66, 67]. По методу Дэрбина, коэффициенты, получаемые при решении разностного уравнения
где Система уравнений решается последовательно для
Поскольку при каждой итерации вычисляется Линейное предсказание при анализе речевых сигналов обычно используется в двух основных направлениях. Одно из них проведение кратковременного спектрального анализа речи в спектрографах и спектроанализаторах. Второе направление — построение систем анализа — синтеза. Спектральный анализ речевых сигналов при использовании параметров, вычисляемых в процессе линейного предсказания, выполняется довольно эффективно. Если параметры найдены, то значения спектра точек единичной окружности отсчеты полинома, стоящего в знаменателе дроби (3.33), можно получить, если применить алгоритм БПФ к конечной последовательности
Эта последовательность фактически является импульсной характеристикой фильтра, обратного к фильтру только с полюсами, т. е.
где В силу тесной связи со спектральным анализом [74, 83] линейное предсказание позволяет получать хорошие аппроксимации огибающих спектров. На рис. 3.23 изображены спектр импульсной характеристики фильтра только с полюсами, полученный методом линейного предсказания, и преобразование Фурье соответствующего взвешенного речевого сигнала. На рис. 3.24 сравниваются результаты спектрального анализа речевого сигнала, полученные с помощью кратковременного преобразования Фурье, гомоморфного анализа и линейного предсказания. Исследовался отрезок синтезированного гласного звука с известными частотами формант. Первые два спектра соответствуют преобразованию Фурье от речевого сигнала, взвешенного по Хеммингу при длине «окна» 51,2 и 12,8 мс соответственно. Как было показано в разд. 3.4, такая операция по существу является анализом сигнала с помощью гребенки фильтров. На рис. 3.24, а приведены результаты анализа сигнала с высоким разрешением по частоте, что подтверждается наличием отчетливо видной тонкой структуры спектра, связанной с возбуждающим сигналом. На рис. 3.24, б эффективная ширина полосы фильтров больше, о чем свидетельствует форма спектра, в котором отсутствует хорошо разрешенная тонкая структура сигнала. Максимумы огибающей спектра сигнала, соответствующие формантам, в общем заметны, но несколько расширены за счет взвешивания сигнала. На рис. 3.24,6 представлена огибающая спектра, полученная гомоморфной фильтрацией речевого сигнала. Хорошо видны форманты и отсутствие тонкой структуры спектра. Наконец, на рис. 3.24, г приведен спектр, полученный при анализе сигнала методом линейного предсказания с 12 коэффициентами. Этот спектр имеет наиболее ровный характер с отчетливо выделяющимися формантами. Плавный характер спектра при линейном предсказании объясняется тем, что при моделировании спектра применялся (кликните для просмотра скана) полином 12-го порядка, в силу чего в спектре не может быть более шести максимумов. Приведенные рассуждения, конечно, не гарантируют, что максимумы спектра получатся на частотах формант. Однако в данном примере эти частоты совпали, и опыт показывает, что чаще всего так и бывает. Линейное предсказание применяют не только для спектрального анализа речевых сигналов. Оно играет важную роль и в системах анализа-—синтеза. Параметры, входящие в функцию предсказания, через формулу (3.33) определяют параметры передаточной функции голосового тракта. При заданных параметрах речь можно синтезировать любым из способов, рассмотренных в разд. 3.3. Предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (3.33) можно преобразовать в произведение и получить структуру последовательной (каскадной) формы. Оба варианта соответствуют синтезатору, воспроизводящему передаточную функцию голосового тракта. Во всех случаях, однако, выявляются трудности одного порядка. Параметры синтезатора непрерывно обновляются при смене анализируемых участков (кадров) речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтезатора, однако, набор интерполированных значений параметров может соответствовать неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В последовательной (каскадной) структуре устойчивость обеспечивается проще. Здесь, однако, появляется трудность, связанная с тем, что порядок, в котором расставлены элементарные блоки, должен сохраняться в интервалах между последовательными моментами изменения параметров, что является результатом влияния начальных условий непосредственно перед сменой параметров. Эти трудности не встречаются при использовании синтезированных структур, моделирующих голосовой тракт акустической трубкой. Такие структуры особенно хорошо соответствуют анализу речи методом линейного предсказания. Существует ряд таких структур, тесно связанных между собой. Несколько неожиданным оказывается, что параметры таких структур получаются в процессе решения по алгоритму Левинсона уравнений, фигурирующих в автокорреляционном методе. В частности, коэффициенты Определение параметров возбуждающего сигнала в системе анализа — синтеза с линейным предсказанием обычно основывается на исследовании сигнала ошибки, получаемого пропусканием исходного речевого сигнала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функцию голосового тракта. Полученный сигнал ошибки является аппроксимацией сигнала, возбуждающего речевое колебание. Для определения параметров, возбуждающего сигнала можно применить любой из множества алгоритмов различения звонкой и глухой речи (а также оценки периода основного тона), основанных на анализе сигналов во временной области, например автокорреляционный анализ [56, 83]. Итак, линейное предсказание представляет собой мощное средство для цифрового анализа речевых сигналов. Его возможности очень удачно согласуются с характеристиками речевых сигналов. Кроме того, алгоритмы, основанные на этом методе, являются изящными и эффективными и хорошо соответствуют современному уровню техники в области микропроцессоров и других цифровых устройств. В данной главе были затронуты лишь некоторые из многих аспектов этого метода. Подробнее эти вопросы изложены в превосходной книге Маркела и Грея [83].
|
1 |
Оглавление
|