Главная > Разное > Теория и применение цифровой обработки сигналов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.19. Линейное прогнозирование речи

Формантные анализ и синтез основаны на том, что получение речи хорошо моделируется возбуждением цепочки цифровых линейных фильтров второго порядка с переменными параметрами (формантных резонаторов) с помощью квазипериодической последовательности импульсов или шумового сигнала. При этом основная трудность заключается во введении найденных формант в соответствующие блоки второго порядка. При синтезе одних звуков форманты, по-видимому, исчезают. При синтезе других звуков, наоборот, могут возникать дополнительные форманты. При большом количестве перечисленных ошибок синтезированная речь быстро становится неразборчивой или, в лучшем случае, имеет недопустимо низкое качество. В длинных фразах такие ошибки нередки.

Чтобы устранить эти трудности, основную модель образования речи следует несколько изменить (фиг. 12.44). L отдельных систем второго порядка формантной модели объединяют в одну линейную систему порядка (где ). В ней задаются одновременно передаточная функция голосового тракта, форма возбуждающих импульсов и характеристики излучения звуков. На вход системы поступает или последовательность единичных отсчетов, или квазислучайная последовательность Передаточная функция фильтра имеет вид

Фиг. 12.44. Модель формирования речи с помощью линейного прогнозирования (по Аталу и Ханауэру).

Выделение периода основного тона и обнаружение тон—шум осуществляются, как в любой другой системе, с помощью рассмотренного выше измерителя основного тона или каким-либо другим методом. Коэффициенты прогнозирующего фильтра определяются методом наименьших квадратов.

Разностное уравнение, описывающее систему, имеет вид

(12.44)

Для звонких звуков все отсчеты за исключением тех, с которых начинаются периоды основного тона, равны нулю. Поэтому везде, кроме этих ненулевых точек,

(12.45)

Итак, в принципе, если модель является верной, отсчеты речи можно в точности предсказать, используя равенство (12.45). Однако модель описывает речь не полностью, поэтому можно определить ошибку между истинным значением отсчета, и его значением, предсказанным с помощью равенства (12.45). Пусть — ошибка, т. е.

(12.46)

Коэффициенты прогнозирующего фильтра выбирают так, чтобы обеспечить минимум среднеквадратической ошибки предсказания , усредненной по всем .

Выражение для среднеквадратической ошибки можно записать в виде

Чтобы определить коэффициенты прогнозирующего фильтра, продифференцируем правую часть суммы (12.47) по , и, приравняв производные нулю, получим систему уравнений

(12.48)

В матричной форме она записывается следующим образом:

(12.49)

где

(12.50)

причем

(12.51)

Фиг. 12.45. Синтезатор речи с линейным прогнозированием (по Аталу и и Ханауэру).

Таким образом, Ф является автокорреляционной матрицей, а — вектором автокорреляции. Поскольку матрица Ф симметричная и положительно определенная, то для решения системы (12.48) можно применить известные эффективные методы. Поэтому анализ при линейном прогнозировании достаточно прост.

Для высококачественного представления естественного речевого сигнала используют систему синтеза, схема которой изображена на фиг. 12.45. Рассмотрим ее отличия от схемы формантного синтезатора, описанного в предыдущем разделе. Наиболее важное из них состоит в использовании единственного рекурсивного фильтра порядка вместо цепочки фильтров второго порядка. При стационарном речевом сигнале, например при продолжительном звучании гласной, обе схемы полностью эквивалентны. В случае нестационарного сигнала (т. е. в большей части речи) они не эквивалентны. Для формантного синтезатора важно, чтобы каждый из резонаторов соответствовал своей форманте, так как иначе синтезатор сбивается.

(см. скан)

Фиг. 12.46. Сравнение спектрограмм естественного и синтезированного высказываний (по Аталу и Ханауэру).

Этого не требуется при линейном прогнозировании, так как все форманты синтезируются одним рекурсивным фильтром. Другое важное отличие состоит в том, что амплитуда импульсов основного тона, как и амплитуда белого шума, подстраивается с помощью усилителя G таким образом, чтобы получить нужное среднеквадратическое значение отсчетов синтезированной речи. Обычно такой подстройки при синтезе речи не производят.

Спектрограммы на фиг. 12.46 показывают, насколько хорошо действует система с линейным прогнозированием. Вверху приведена спектрограмма синтезированной речи, а внизу — естественной. Различить их весьма трудно.

<< Предыдущий параграф Следующий параграф >>
Оглавление