Главная > Разное > Теория и применение цифровой обработки сигналов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

12.15. Формантный синтез

В исследованиях речи одной из наиболее важных задач является синтез речевого сигнала на основе некоторых параметров сигнала возбуждения. Синтез речи применяется в нескольких видах систем речевого общения ЭВМ с человеком, и знакомство с ними существенно проясняет основные механизмы образования и восприятия речи. Одним из основных наборов упомянутых выше параметров является набор значений частот основных формант, заданных в функции времени. Ниже будет показано, каким образом такое представление речи обеспечивает значительную гибкость и эффективность в разнообразных применениях искусственной речи. В настоящем разделе рассмотрены некоторые задачи обработки сигналов, связанные с синтезом речи по данным о ее формантах. Предполагается, что для получения этих данных из реализаций естественной речи используется система анализа, подобная, например, рассмотренной в разд. 12.14.

Блок-схема универсального формантного синтезатора (фиг. 12.36), аналогичного применяемому в нескольких системах речевого общения ЭВМ с человеком, содержит два источника возбуждения: генератор импульсов с внешней синхронизацией (источник звонких звуков), вырабатывающий единичные импульсы с частотой основного тона (т.е. через каждые  отсчетов), и генератор псевдослучайных чисел с равномерным распределением (источник глухих звуков), играющий роль генератора белого шума.

В синтезаторе имеются две основные ветви обработки сигналов. Верхняя состоит из амплитудного модулятора () и цифрового фильтра с переменными параметрами, образованного цепочкой из  перестраиваемых   резонаторов     (полюсов).   Передаточная где  и — ширина полосы и центральная частота -го резонатора в радианах, а   — период дискретизации. Типичная схема расположения полюсов в -плоскости для гласной () изображена на фиг. 12.37. Хотя управлять можно и шириной полосы, и центральными частотами всех полюсов, обычно подстраивают только три нижние центральные частоты. Поэтому блок перестраиваемых резонаторов (фиг. 12.36) имеет три управляющих . функция этого фильтра (в стационарном режиме) равна

,        (12.39)

Эта управляемая резонансная система позволяет учесть влияние временного изменения формы голосового тракта на спектр речевого сигнала.

Фиг. 12.36. Упрощенная блок-схема  формантного  синтезатора.

Фиг. 12.37. Расположение полюсов для типичной гласной

Фиг. 12.38. Расположение полюсов, описывающих функцию возбуждения.

Фиг. 12.39. Расположение нулей и полюсов для типичного шумового звука.

Следует также учесть форму импульсов возбуждения и характеристики излучения звука изо рта (или носа) в воздух. Для этого предназначена неперестраиваемая схема компенсации с передаточной  функцией  вида

.                        (12.40)

Схема реализует два полюса, расположенных на действительной оси (один в правой, а другой в левой половине -плоскости), и аппроксимирует выбранную передаточную функцию. Положение полюсов в -плоскости показано на фиг. 12.38.

Нижняя ветвь схемы синтезатора (фиг. 12.36) состоит из модулятора , регулирующего дисперсию шума, и второго цифрового фильтра с переменными параметрами, образованного последовательно соединенными блоками с нулем и полюсом. Передаточная функция фильтра равна

,                                   (12.41)

где

и

Здесь  — значения ширины полосы и центральных частот блоков с перестраиваемыми полюсом и нулем, измеренные в радианах. Ширину полос обычно не изменяют, а регулируют только центральные частоты, поэтому фильтр (фиг. 12.36) имеет два управляющих входа  и .

1.jpg

Фиг. 12.40. Блок-схема аппаратурной части синтезатора.

Типичное для глухого звука расположение нулей и полюсов показано на фиг. 12.39. Выходное колебание проходит через фильтр компенсации спектра и создает на выходе всей системы глухой звук.

Следует отметить, что передаточные функции (12.39)—(12.41) всех фильтров синтезатора на нулевой частоте равны единице независимо от значений ширины полосы и центральной частоты управляемых блоков. Это необходимо для того, чтобы коэффициент передачи голосового тракта на нулевой частоте равнялся единице, что достигается за счет использования отдельно откалиброванных резонаторов.

Рассмотренная схема синтезатора не позволяет получить некоторые звуки, желательные в многоцелевом синтезаторе. Например, в нем нет средств для получения носовых согласных звуков  и , звонких фрикативных звуков (как в слове zoo), (azure), (very) и (there). При синтезе носовых согласных последовательно с перестраиваемым резонатором (фиг. 12.36) следует включить цепь с управляемыми нулем и полюсом. Для качественного синтеза звонких фрикативных звуков необходимо ввести цепь, модулирующую выход генератора шума сигналом из канала тоновых (звонких) звуков. Кроме того, для расширения возможностей синтезатора следует ввести цепи, позволяющие для имитации шепота возбуждать канал тоновых звуков шумовым сигналом.

Существует более гибкая схема синтезатора (фиг. 12.40), решающая эти задачи. Она была промоделирована на ЦВМ, а также построена в виде специализированного устройства. Синтезатор получает переменные управляющие параметры (обозначенные как внешние входы в каждый из блоков обработки сигнала) синхронно, т. е. изменяет сразу все параметры в начале каждого периода основного тона. В этот момент энергия, запасенная в каждом из фильтров, минимальна, что уменьшает нежелательные эффекты, вызываемые резкими изменениями управляющих параметров. Управляющие параметры поступают в синтезатор из управляющей ЦВМ типа Honeywell DDP-516.

Рассматриваемый синтезатор в сущности аналогичен рассмотренному выше, хотя и отличается от него в деталях. В частности, верхний канал обработки сигналов содержит шесть цифровых фильтров с двумя полюсами каждый [в формуле (12.39) ] и один фильтр с двумя нулями, причем полосы и центральные частоты каждого фильтра перестраиваются. Шестой двухполюсный фильтр и фильтр с двумя нулями введены для образования носовых звуков. При синтезе неносовых звуков они компенсируют друг друга (в цифровых системах легко достичь точной компенсации полюса нулем). Четыре двухполюсных фильтра (или пять при неносовых звуках) формируют изменяющуюся во времени передаточную функцию голосового тракта , а последний фильтр с двумя полюсами обеспечивает желаемую функцию компенсации спектра

Канал глухих звуков состоит из двух двухполюсных фильтров и одного фильтра с двумя нулями. Полосы и центральные частоты каждого из них также устанавливаются извне. Два разнотипных фильтра формируют , а второй двухполюсный фильтр задает  и используется для компенсации спектра. Гибкость синтезатора увеличивается также за счет того, что функции компенсации спектра при синтезе звонких и глухих звуков могут отличаться, так как соответствующие цепи включены в разные каналы синтезатора независимо.

 

<< Предыдущий параграф Следующий параграф >>
Оглавление