3.3. Речевые синтезаторы, воспроизводящие передаточную функцию голосового тракта, и синтезаторы

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

3.3. Речевые синтезаторы, воспроизводящие передаточную функцию голосового тракта, и синтезаторы — аналоги акустической трубки

Для синтеза речи обычно применяются два класса синтезаторов: 1) синтезаторы, воспроизводящие передаточную функцию голосового тракта, и 2) синтезаторы — аналоги акустической трубки. Синтезаторы первого класса представляют собой систему, передаточная функция которой аппроксимирует передаточную функцию голосового тракта без учета особенностей строения голосового тракта. Таким образом, в этом случае учитывается влияние голосового тракта на конечные результаты речеобразования. В аналогах акустической трубки моделируются давление или поток воздуха как функция времени и расстояния вдоль акустической трубки, поперечное сечение которой изменяется по ее длине. Таким образом, в синтезаторах — аналогах акустической трубки в некотором смысле сделана попытка более естественно отразить физические изменения, происходящие в голосовом тракте в процессе речеобразования.

Общая структура синтезатора, воспроизводящего передаточную функцию голосового тракта, который называется также формантным синтезатором, изображена на рис. 3.5. В основе синте заторов этого класса лежит следующее наблюдение: поскольку голосовой тракт является акустической трубкой, то он характеризуется набором мод или резонансных частот.

Рис. 3.5. Общая структура синтезатора речевого сигнала, воспроизводящего передаточную функцию голосового тракта.

Поэтому его передаточную функцию можно аппроксимировать последовательным соединением резонансных цепей, каждая из которых представляет одну моду или резонанс голосового тракта [17, 19, 20]. При изменении формы голосового тракта изменяются резонансные частоты. В силу этого в резонансных цепях должна быть предусмотрена возможность изменения параметров, определяющих центральные частоты и ширину полос резонаторов. Если на синтезатор поступает последовательность импульсов (при звонком

звуке) или белый шум (при глухом звуке), то необходим фильтр — формирователь возбуждающего сигнала, чтобы обеспечить благоприятное «окрашивание» спектра. Этот фильтр обычно имеет постоянные параметры. Кроме того, необходим фильтр, обеспечивающий эффект согласования акустической трубки со свободным пространством (т. е. с акустической трубкой бесконечного сечения). Это тоже фильтр с постоянными параметрами, который по своим характеристикам приближенно соответствует дифференциатору.

Если формантный синтезатор выполняется в виде аналогового устройства на элементах с сосредоточенными параметрами и работает в реальном масштабе времени, то необходим еще один фильтр, называемый корректором высокочастотных полюсов. Введение этого фильтра обусловлено тем обстоятельством, что акустическая трубка представляет собой систему с распределенными параметрами, имеющую бесконечное число резонансов, т. е. ее передаточная функция имеет бесконечное число полюсов. Хотя в полосу синтезатора попадает лишь конечное число полюсов (четыре или пять), остальные полюсы также влияют на общую форму спектра в полосе синтезатора. Таким образом, для цепочки аналоговых резонаторов с сосредоточенными параметрами необходима дополнительная частотная коррекция. Как было впервые отмечено Голдом и Рабинером [23], этого не требуется в цифровом синтезаторе речи, так как его частотная характеристика периодична и, следовательно, фактически он имеет высокочастотные полюсы. Это же можно увидеть на примере простой акустической трубки, закрытой на одном конце и открытой на другом. Ее импульсным откликом является последовательность импульсов, которую легче получить в цифровом, чем в аналоговом фильтре, имеющем рациональную передаточную функцию. На рис. 3.6 сравниваются частотные характеристики простой акустической трубки, цифрового и аналогового фильтров с пятью полюсами; из приведенных кривых очевидна необходимость коррекции высокочастотных полюсов в аналоговом фильтре.

В формантном синтезаторе, изображенном на рис. 3.5, предполагается, что передаточная функция голосового тракта описывается только полюсами, т. е. она не имеет нулей-антирезонансов. На самом же деле в спектрах звуков появляются нули. Это обусловлено влиянием носовой полости, когда мягкое небо открыто Для носовых звуков типа или же когда язык делит голосовую шолость на две слабо связанные полости, как для звука некоторых формантных синтезаторах имеется цепь для создания нулей частотной характеристики, но часто эффекты, связанные с влиянием этих нулей, могут имитироваться подстройкой ширины полосы первой форманты.

Речевые синтезаторы — аналоги акустической трубки основаны на аппроксимации голосового тракта набором соединенных

отрезков акустических трубок, имеющих одинаковую длину (рис. 3.7) [4, 21, 83]. Обычно предполагается, что звук, распространяющийся в каждом из отрезков, можно рассматривать как плоскую волну и можно пренебречь потерями в отрезке, влиянием носового тракта и связью голосовой щели и голосового тракта. При таких предположениях анализ модели акустической трубки становится сравнительно несложным и приводит к структуре фильтра, параметры которого меняются в соответствии с изменениями параметров акустической трубки.

Рис. 3.6. Сравнение частотных характеристик аналогового и цифрового фильтров с пятью полюсами и простой акустической трубки (по Гоулду и Рабинеру). А — акустическая трубка; Б — цифровой фильтр, 5 полюсов, 10 кГц; В — аналоговый фильтр, 5 полюсов.

В частности, согласно работе Маркела и Грея [83], состояние акустической полости можно описать с помощью давления или объемной скорости воздушной струи как функций времени и расстояния вдоль трубки. Внутри каждого отрезка эти величины можно представить в виде комбинации прямой и обратной бегущих волн, причем прямая волна соответствует прохождению звука от голосовой щели к губам, а обратная — от губ к голосовой щели. Если обозначить через объемную скорость в отрезке соответствует середине отрезка), то можно представить как

где обозначают соответственно прямую и обратную бегущие волны, — скорость звука в воздухе.

Рис. 3.7. Представление голосового тракта набором соединенных трубок одинаковой длины, но различного сечения.

Давление отрезке также выражается через объемные скорости прямой и обратной бегущих волн:

где — плотность воздуха.

Прямая и обратная волны в каждом отрезке должны быть взаимосвязаны так, чтобы объемные скорости и давления на границах между отрезками были непрерывными. В силу этого на границах часть прямой волны излучается в следующий отрезок, а часть отражается назад в виде обратной волны. В каждом отрезке аналогичное утверждение справедливо и для обратной волны. Коэффициент отражения волн на границе между отрезками с номерами равен

где — площади поперечного сечения отрезков соответственно. Обозначив длину отрезка через I и наложив условие, что объемные скорости и давления на границах отрезков непрерывны, получим

где равное соответствует половине времени пробега волны от одного конца отрезка до другого.

Основываясь на соотношениях (3.4а) и (3.46), связь между прямыми и обратными волнами потока можно выразить с помощью

Рис. 3.8. а — два отрезка акустической трубки из модели рис. 3.7, на которых показаны прямые и обратные волны; б - направленный граф, описывающий соотношение между прямыми и обратными волнами (по Маркелу и Грею).

линейного направленного графа. На рис. 3.8, а показаны два соседних отрезка модели акустической трубки, а на рис. 3.8, б — соответствующий линейный направленный граф, связывающий прямую и обратную волны. Линейный направленный граф, описывающий соотношение между прямыми и обратными волнами модели акустической трубки, изображен на рис. 3.9. Предполагается, что на конце трубки, моделирующем губы, давление равно нулю, а также что со стороны голосовых связок отрезок соединен с источником воздушного потока, обладающим некоторым сопротивлением, которое может быть описано коэффициентом отражения на этом конце Данный граф можно интерпретировать как схему цифрового фильтра, если считать, что время задержки в каждом отрезке, равное соответствует единичной задержке в цифровом фильтре.

Келли и Лохбаум [21] первыми рассмотрели применение модели, подобной приведенной на рис. 3.9, для синтеза речевых сигналов. Ряд вариантов этой структуры, дающих выигрыш в числе умножений, длине слов (разрядности чисел) и т. п., предложен Маркелом и Греем [83].

Вышеприведенный материал представляет собой введение в синтез речевых колебаний. В нескольких последующих разделах

в рамках систем анализа — синтеза рассматриваются другие схемы синтезаторов. Как будет показано в разд. 3.6, синтезатор — аналог акустической трубки хорошо согласуется с определенной процедурой анализа — синтеза, называемой обработкой методом линейного предсказания.

Рис. 3.9. Линейный направленный граф, описывающий соотношения между прямой и обратной волнами в модели акустической трубки, приведенной на рис. 3.7 (по Маркелу и Грею).

<< Предыдущий параграф

Следующий параграф >>

Оглавление