3.6. Анализ — синтез методом линейного предсказания

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

3.6. Анализ — синтез методом линейного предсказания

Как альтернативу способа получения информации о голосовом тракте с помощью сглаживания спектров, проиллюстрированного на примере процедуры анализа в гомоморфной системе или в системе с гребенкой фильтров, можно рассмотреть подход, основанный на оценке параметров модели голосового тракта. В качестве такой модели можно взять модель, в которой характеристики голосового тракта описываются с помощью передаточной функции в виде рациональной дроби

При этом параметрами, описывающими голосовой тракт, являются коэффициенты числителя и знаменателя и масштабный множитель G. В общем случае импульсный отклик (или частотная характеристика), соответствующий передаточной функции (3.32), является нелинейной функцией коэффициентов числителя и знаменателя. Следовательно, при оценке этих параметров для отрезка речевого сигнала в общем случае необходимо решать систему нелинейных уравнений. В частном случае, когда порядок многочлена в знаменателе равен нулю, определение параметров по критерию минимальной средней квадратической ошибки сводится к решению системы линейных уравнений. В случае, когда правая часть формулы (3.32) является дробной функцией, т. е. порядок числителя равен нулю (что соответствует модели, имеющей только полюсы), определение параметров модели также сводится к решению системы линейных уравнений, получаемых из условия минимизации средней квадратической ошибки, возникающей в процессе обратной фильтрации.

Отрезки речевых сигналов, конечно, имеют достаточно сложный вид, и не следует ожидать, что их можно точно описать моделью, такой, например, как (3.32), и тем более упрощенными моделями, имеющими только нули или полюсы. Однако, как было указано в разд. 3.2, важной особенностью передаточной функции голосового тракта является то, что она в основном характеризуется резонансами, которые в свою очередь хорошо представляются с помощью полюсов. Поэтому логично ожидать, что многие важные характеристики передаточной функции голосового тракта сохранятся при использовании модели только с полюсами. Данный раздел будет полностью посвящен методике моделирования голосового тракта с помощью дробной передаточной функции (содержащей только полюсы). Такой метод расчета обычно называют линейным предсказанием [68, 70, 82, 83]. В разд. 3.7 положения данного и предшествующего разделов будут распространены на случай моделировавния речи с применением передаточной функции, имеющей как полюсы, так и нули.

Сначала рассмотрим задачу оценки параметров модели только с полюсами, если импульсная характеристика известна. Пусть H{z) - дробная передаточная функция (только с полюсами), имеющая вид

Импульсная характеристика соответствующая , удовлетворяет разностному уравнению

или при

Таким образом, при характеристика представляет собой линейную комбинацию своих предыдущих значений (т. е. может быть линейно предсказана по ним). Если моделируемые данные точно соответствуют импульсному отклику фильтра только с полюсами, то соотношение (3.35) будет удовлетворяться точно, В противном случае линейная комбинация предыдущих значений будет давать только некоторое приближение к Обозначим это приближение через причем

а получающаяся при этом ошибка называемая иногда остатком, равна

Если прогнозируемые коэффициенты выбираются из условия минимума среднего квадратического значения ошибки, то их можно определить путем решения системы линейных уравнений. В частности, рассмотрим полную среднюю квадратическую ошибку, задаваемую в виде

где верхний предел определяется длиной имеющегося отрезка сигнала. Параметры можно найти, положив

что дает систему уравнений

где

Подставляя в уравнение (3.38) выражение (3.40), получим формулу для средней квадратической ошибки

В дополнение к прогнозируемым коэффициентам в формуле (3.34) необходимо задать масштабный множитель Ниже схематично описан один из возможных способов его выбора.

Если характеристика известна при любых , то в сумме (3.38) верхний предел, равный можно положить равным бесконечности, и соотношение (3.406) будет тогда иметь вид

Поскольку при коэффициенты определяемые формулой (3.42), являются коэффициентами автокорреляции последовательности Если имеется только конечный отрезок импульсной характеристики то верхний предел в сумме (3.40 6) следует выбирать так, чтобы в сумму входили только известные значения . В этом случае коэффициенты уже не являются коэффициентами автокорреляции.

В приведенных рассуждениях предполагалось, что имеется конечный отрезок импульсной характеристики . При моделировании речевых сигналов с помощью модели, имеющей только полюсы, исходными данными являются речевые колебания, соответствующие свертке импульсного отклика голосового тракта с возбуждающим сигналом. Из этих данных нужно найти коэффициенты уравнений (3.40). Обычно применяются две процедуры. В одной из них, называемой автоковариационным методом, в качестве аппроксимации конечного отрезка берут отрезок длиной в период основного тона (или другой конечной длины) и находят коэффициенты а с помощью системы уравнений (3.40) [70]. Во втором методе отрезок длиной в несколько периодов основного тона взвешивают с помощью гладкой функции [73]. Поскольку требуются небольшие значения аргумента, то автокорреляционная функция взвешенного отрезка речи может служить аппроксимацией автокорреляционной функции импульсной характеристики голосового тракта. Таким образом, коэффициенты автокорреляции взвешенного отрезка речи непосредственно применяются в качестве коэффициентов в системе (3.40). По вполне очевидным причинам этот метод обычно называется автокорреляционным методом. В любом из двух методов процедура анализа применяется к последовательным отрезкам речевого сигнала, так что коэффициенты модели непрерывно обновляются, что отражает изменение характеристик голосового тракта с течением времени. Автокорреляционный и автоковариационный методы применяются для анализа речи, однако первый метод используется

чаще. Одним из главных его преимуществ является то, что матрица коэффициентов является теплицевой, т. е. все элементы матрицы, расположенные на одной диагонали, равны между собой (65]. Таким образом, при вычислении элементов матрицы достаточно найти одну ее строку. Кроме того, как будет показано ниже, существуют эффективные методы для решения получающейся системы уравнений (т. е. для обращения матрицы Теплица). Дополнительно отметим, что матрицы Теплица никогда не являются сингулярными и при отсутствии ошибок вычисления искомое решение для фильтра только с полюсами оказывается устойчивым. Автоковариациопный метод таких гарантий не дает. Главное достоинство автоковариационного метода состоит в том, что он в некотором смысле более точен. В частности, если последовательность можно точно промоделировать импульсной характеристикой фильтра, имеющего только полюсы, и имеется лишь конечный отрезок последовательности, то при использовании автоковариационного метода выходной сигнал фильтра только с полюсами полностью совпадет с исходной последовательностью, а при использовании автокорреляционного метода этого не произойдет. Однако такое различие при анализе речи методом линейного предсказания, по-видимому, можно отнести на второй план, потому что практически никогда сигнал точно не совпадает с колебанием на выходе фильтра только с полюсами. С другой стороны, очевидны практические достоинства метода, при использовании которого не появляются сингулярные системы и неустойчивые решения. В оставшейся части раздела будет применяться только автокорреляционный метод.

Обозначим коэффициенты автокорреляции последовательности через и выразим соотношения (3.40) и (3.41) через

Общепринято и вполне логично определять масштабный множитель в формуле (3.34) так, чтобы полные энергии сигналов, прошедших через фильтр с характерисикой и фильтр с импульсной характеристикой, имеющей только полюсы, были равны. Пусть -импульсная характеристика фильтра, соответствующего формуле (3.34), корреляционная функция, причем коэффициенты в формуле (3.34) найдены решением системы

уравнений (3.43). Тогда удовлетворяет разностному уравнению

Умножив обе части уравнения (3.45) на и просуммировав по получим

Поскольку выбрано так, что

[т. е. так, что ], то из сравнения формул (3.46) и (3.43) следует, что

Таким образом, при моделировании методом линейного предсказания с моделью в виде фильтра только с полюсами первые коэффициентов автокорреляции импульсной характеристики фильтра приравниваются к соответствующим коэффициентам автокорреляции исходных данных.

Умножив обе части уравнения (3.45) на просуммировав по и учитывая, что получим

Наконец, преобразуя (3.48) с применением равенства (3.47), будем иметь

Итак, если прогнозирующие коэффициенты найдены, то масштабный множитель очевидным образом определяется по формуле (3.49). Сравнивая, наконец, соотношения (3.44) и (3.49), можно заметить, что полная средняя квадратическая ошибка и масштабный коэффициент связаны соотношением

Важным достоинством метода линейного предсказания является наличие эффективных приемов решения системы уравнений (3.43).

В автоковариадионном методе матрица коэффициентов не является теплицевой, однако ее можно обратить с помощью одного из нескольких сравнительно эффективных методов [81, 82]. При автокорреляционном методе можно воспользоваться очень эффективными итеративными алгоритмами, первоначально предложенными Левинсоном [64] и усовершенствованными Дэрбином [66, 67]. По методу Дэрбина, коэффициенты, получаемые при решении разностного уравнения порядка вида (3.43), рекуррентно выражаются через решения разностного уравнения вида (3.43) порядка Эти соотношения имеют вид

где , являются коэффициентами предсказывающего устройства порядка. Коэффициент связан соотношением с полной средней квадратической ошибкой получающейся в предсказывающем устройстве порядка.

Система уравнений решается последовательно для исходя первоначально из соотношения Окончательное решение получается при условии

Поскольку при каждой итерации вычисляется имеется возможность исследовать поведение ошибки с увеличением порядка предсказывающего устройства. Вспомогательные параметры называемые коэффициентами отражения, фактически являются коэффициентами отражения на границах соседних отрезков акустической трубки, когда отрезки имеют одинаковую длину и различные сечения.

Линейное предсказание при анализе речевых сигналов обычно используется в двух основных направлениях. Одно из них проведение кратковременного спектрального анализа речи в спектрографах и спектроанализаторах. Второе направление — построение систем анализа — синтеза. Спектральный анализ речевых сигналов при использовании параметров, вычисляемых в процессе линейного предсказания, выполняется довольно эффективно. Если параметры найдены, то значения спектра на дискретном множестве частот можно вычислить с помощью соотношения (3.33). Дополнительно можно заметить, что для равноотстоящих

точек единичной окружности отсчеты полинома, стоящего в знаменателе дроби (3.33), можно получить, если применить алгоритм БПФ к конечной последовательности имеющей вид

Эта последовательность фактически является импульсной характеристикой фильтра, обратного к фильтру только с полюсами, т. е.

где — единичный импульс. Если требуется получить отсчетов в равноотстоящих точках единичной окружности, то последовательность содержащую отсчетов, следует дополнить отсчетами, равными нулю.

В силу тесной связи со спектральным анализом [74, 83] линейное предсказание позволяет получать хорошие аппроксимации огибающих спектров. На рис. 3.23 изображены спектр импульсной характеристики фильтра только с полюсами, полученный методом линейного предсказания, и преобразование Фурье соответствующего взвешенного речевого сигнала.

На рис. 3.24 сравниваются результаты спектрального анализа речевого сигнала, полученные с помощью кратковременного преобразования Фурье, гомоморфного анализа и линейного предсказания. Исследовался отрезок синтезированного гласного звука с известными частотами формант. Первые два спектра соответствуют преобразованию Фурье от речевого сигнала, взвешенного по Хеммингу при длине «окна» 51,2 и 12,8 мс соответственно. Как было показано в разд. 3.4, такая операция по существу является анализом сигнала с помощью гребенки фильтров. На рис. 3.24, а приведены результаты анализа сигнала с высоким разрешением по частоте, что подтверждается наличием отчетливо видной тонкой структуры спектра, связанной с возбуждающим сигналом. На рис. 3.24, б эффективная ширина полосы фильтров больше, о чем свидетельствует форма спектра, в котором отсутствует хорошо разрешенная тонкая структура сигнала. Максимумы огибающей спектра сигнала, соответствующие формантам, в общем заметны, но несколько расширены за счет взвешивания сигнала.

На рис. 3.24,6 представлена огибающая спектра, полученная гомоморфной фильтрацией речевого сигнала. Хорошо видны форманты и отсутствие тонкой структуры спектра. Наконец, на рис. 3.24, г приведен спектр, полученный при анализе сигнала методом линейного предсказания с 12 коэффициентами. Этот спектр имеет наиболее ровный характер с отчетливо выделяющимися формантами. Плавный характер спектра при линейном предсказании объясняется тем, что при моделировании спектра применялся

(кликните для просмотра скана)

полином 12-го порядка, в силу чего в спектре не может быть более шести максимумов. Приведенные рассуждения, конечно, не гарантируют, что максимумы спектра получатся на частотах формант. Однако в данном примере эти частоты совпали, и опыт показывает, что чаще всего так и бывает.

Линейное предсказание применяют не только для спектрального анализа речевых сигналов. Оно играет важную роль и в системах анализа-—синтеза. Параметры, входящие в функцию предсказания, через формулу (3.33) определяют параметры передаточной функции голосового тракта. При заданных параметрах речь можно синтезировать любым из способов, рассмотренных в разд. 3.3. Предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (3.33) можно преобразовать в произведение и получить структуру последовательной (каскадной) формы. Оба варианта соответствуют синтезатору, воспроизводящему передаточную функцию голосового тракта.

Во всех случаях, однако, выявляются трудности одного порядка. Параметры синтезатора непрерывно обновляются при смене анализируемых участков (кадров) речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтезатора, однако, набор интерполированных значений параметров может соответствовать неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В последовательной (каскадной) структуре устойчивость обеспечивается проще. Здесь, однако, появляется трудность, связанная с тем, что порядок, в котором расставлены элементарные блоки, должен сохраняться в интервалах между последовательными моментами изменения параметров, что является результатом влияния начальных условий непосредственно перед сменой параметров.

Эти трудности не встречаются при использовании синтезированных структур, моделирующих голосовой тракт акустической трубкой. Такие структуры особенно хорошо соответствуют анализу речи методом линейного предсказания. Существует ряд таких структур, тесно связанных между собой. Несколько неожиданным оказывается, что параметры таких структур получаются в процессе решения по алгоритму Левинсона уравнений, фигурирующих в автокорреляционном методе. В частности, коэффициенты уравнения (3.51), названные коэффициентами отражения, соответствуют коэффициентам отражения на границах соседних отрезков акустической трубки, имеющих одинаковую длину и неравное сечение, и непосредственно соответствуют коэффициентам отражения в структурах рис. 3.8 и 3.9.

Определение параметров возбуждающего сигнала в системе анализа — синтеза с линейным предсказанием обычно основывается на исследовании сигнала ошибки, получаемого пропусканием исходного речевого сигнала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функцию голосового тракта. Полученный сигнал ошибки является аппроксимацией сигнала, возбуждающего речевое колебание. Для определения параметров, возбуждающего сигнала можно применить любой из множества алгоритмов различения звонкой и глухой речи (а также оценки периода основного тона), основанных на анализе сигналов во временной области, например автокорреляционный анализ [56, 83].

Итак, линейное предсказание представляет собой мощное средство для цифрового анализа речевых сигналов. Его возможности очень удачно согласуются с характеристиками речевых сигналов. Кроме того, алгоритмы, основанные на этом методе, являются изящными и эффективными и хорошо соответствуют современному уровню техники в области микропроцессоров и других цифровых устройств. В данной главе были затронуты лишь некоторые из многих аспектов этого метода. Подробнее эти вопросы изложены в превосходной книге Маркела и Грея [83].

<< Предыдущий параграф

Следующий параграф >>

Оглавление