Б. Использование цифровых фильтров при формантном анализе — синтезе. Система речевого ответа.
При формантной обработке речи на основе кратковременного спектрального анализа с помощью гребенки цифровых фильтров исходный сигнал обрабатывается следующим образом. Если назначением системы является сжатие полосы речевого сигнала, то выполняются следующие операции: анализ исходногэ речевого сигналах
сокращение объема информации, синтез получаемого речевого сигнала
. Обработка производится при этом одновременно рядом параллельно включенных цифровых фильтров. На рис. 5.3,в показаны к параллельно включенных каналов. На рис. 5.3,г представлена схема одного из каналов полной системы анализа — синтеза, используемой при оперировании с вещественными числами. Эта система выполняет также функции дискретизации и квантования сигналов (о последнем см. § 2 гл. VI). На рисунке 1 и 2 — фильтры нижних частот. На участке канала от входа до точек 3 и 4 производится анализ речевого сигнала. На участке, показанном пунктирными линиями (линии 3-3 и 4-4), производятся сокращение объема информации и интерполяция с помощью не показанных на рисунке интерполирующих нижних частот к периоду дискретизации, отличающемуся от периода дискретизации при анализе (сигналы ,
для сжатия в дальнейшем информации дискретизируются с пониженной частотой по сравнению с частотой передачи речевого сигнала).
Систему анализа — синтеза речи, при построении которой принимаются во внимание особенности ее формирования и восприятия, называют полосовым вокодером. При анализе речи полосовым вокодером выясняется для каждого звука, является ли он звонким или глухим, а для звонких звуков определяется высота основного тона. В некоторых случаях вокодеры используются для обеспечения передачи речи с малой скоростью.
Разработаны теоретические основы построения синтезаторов речи и вокодеров, в которых используются цифровые фильтры. Так, для схемы формантного синтезатора, показанной на рис. 5.2,в, система перестраиваемых резонаторов представляет собой цифровой фильтр с переменными параметрами, передаточная функция которого в стационарном режиме согласно [100] для
резонаторов равна
В этой формуле
ширина полосы и центральная часть
резонатора в радианах,
период дискретизации.
На рис. 5.3,с) показано расположение полюсов в z-плоскости дня гласного звука при
Предусмотрена здесь подстройка только трех полюсов (входы 7, 8 и 9 на схеме, представленной на рис. 5.2,в). С помощью рассматриваемой управляемой резонансной системы учитывается влияние изменения во времени формы голосового тракта на спектр речи. Для того чтобы были также учтены форма импульсов возбуждения и выходные характеристики формирования звуков (для рта или носа), используется показанный на рис. 5.2, в неперестраиваемый компенсирующий фильтр 15,
передаточная функция которого рассчитывается по формуле
Эта передаточная функция реализуется при расположении полюсов, показанном на рис. 5.3,е. Передаточной функцией фильтра 10 на рис. 5.2,в является
где
значения ширины полосы и центральных частот. Регулируются в рассматриваемом формантном синтезаторе только центральные частоты. Входы 11 и 12 служат, как было уже указано при описании показанной на рис. 5.2,в схемы, для управления расположением полюсов и нулей. Характерное для глухого звука расположение, нулей и полюсов изображено на рис. 5.3,ж.
При воспроизведении по представленной на рис. 5.2,г схеме процесса образования глухой составляющей звонких фрикативных звуков резонатор 7, настроенный на частоту первой форманты звонкой составляющей фрикативного звука, возбуждается импульсами основного тона. Из сигнала, получаемого на выходе резонатора, вычитается заданный пороговый уровень (обозначение 8 на рис. 5.2,г), после чего производится выпрямление сигнала однополупериодным выпрямителем 9. Получаемым при этом колебанием модулируется шум, производимый генератором шума 3. Так осуществляется синхронизация глухой составляющей фрикативного звука с основным тоном. При прохождении полученного сигнала через фрикативную цепь 6 формируется глухая составляющая звука. Звонкая же составляющая получается при обычном возбуждении формантной цепи 5- Данной схемой представлен лишь один из многих разработанных до настоящего времени вариантов выполнения синтезаторов речи.
Формирование речевого ответа вычислительной машины чаще всего осуществляется в системе анализа — синтеза речи путем параметрического ее представления: связная речь получается на выходе машины при использовании списка слов, закодированных соответствующими им формантами, и с учетом основного тона формируемых звуков. Обработка речевых сигналов производится так, чтобы от ЭВМ были получены ответы на вопросы, которые ей задаются. Ниже рассматривается один из вариантов системы ответа [100].
Слова или фразы, произнесенные человеком, подвергаются формантному анализу. Каждые 0,01 с определяются: частоты трех формант, амплитуды звонкой и глухой составляющих, период основного тона, расположение нулей и полюсов при имитации соответствующего звука. Вслед за аналого-цифровым преобразованием каждого произнесенного слова или предложения производится обработка данных по программе формантного анализа, программе оценки основного тона, программе анализа громкости, программе определения нуля и полюса для звонких звуков. Полученные в результате такой обработки данные передаются в библиотеку хранения
формантных параметров слов. Дальнейшая обработка этих данных производится вместе с последовательностью слов, задаваемой программой-ответчиком, по программе объединения слов согласно запомненным правилам. Последняя программа корректируется с учетом того, что определяется внешней синхронизацией, и при внешнем управлении периодом основного тона. Эти внешние воздействия тоже могут изменяться при выполнении операций по программе объединения слов, так что в этой части схемы машинного ответчика имеется двусторонняя связь.
При выполнении программы объединения слов непрерывно вычисляются значения параметров формантного ситезатора. Выходные сигналы цифрового синтезатора преобразуются цифро-аналоговым преобразователем, и выходом схемы преобразований является синтезированная речь. Когда производятся указанные выше действия, нужные сочетания слов и фраз из справочной библиотеки отбираются следующим образом:
-ответчик для составления каждого конкретного ответа запрашивает последовательность слов. С помощью программы составления речи получаются (с использованием вспомогательной программы) данные о распределении времени в ответной фразе в виде значений продолжительности каждого слова, а затем последовательно извлекаются параметры слов. Слова корректируются так, чтобы их длина соответствовала выбранной длине слов. После этого осуществляются сглаживание и интерполяция значений форматных параметров, если конец некоторого слова и начало следующего содержат звонкие звуки. Для этого используется алгоритм интерполяции, имитирующий переход формант от слова к слову в естественной речи. Наконец, для всего ответа получается закон изменения частоты основного тона". После этого, как уже было сказано, вычисленные параметры передаются в цифровой синтезатор речи и с помощью цифро-аналогового преобразователя формируется непрерывный речевой сигнал.
В книге [100] формантный метод синтеза речи характеризуется так: "Слова и фразы, представленные формантами, легко приспособить для использования в программе синтеза речи. Слова можно удлинить или укоротить; форманты легко изменить; можно ввести закон изменения основного тона, отличающийся от исходного. Таким образом, характеристики речевого тракта представлены в форме, достаточно гибкой для согласования с временной синхронизацией и высотой основного тона, задаваемыми программой составления речи".
Иногда, однако, отдается предпочтение фонетическому подходу к синтезу речи [103]. При этом используются фонемы, являющиеся элементами языка, соответствующими минимальным речевым сегментам. Для каждого языка характерны лишь несколько десятков фонем и при использовании фонетического кода он несет как статистическую, так и фонетическую информацию.