3.4. Спектральный анализ на коротких интервалах времени и синтез речи

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

3.4. Спектральный анализ на коротких интервалах времени и синтез речи

В разд. 3.2 было показано, что в частотной области спектр коротких отрезков речевого сигнала можно представить в виде произведения огибающей, характеризующей состояние голосового тракта, и функции, описывающей тонкую структуру, которая характеризует возбуждающий сигнал. Поскольку основным параметром сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта с достаточной полнотой определяются частотами формант, то при анализе весьма удобно исходить из представления речи в частотной области. При создании разных звуков форма голосового тракта и возбуждающий сигнал изменяются. При этом изменяется и спектр речевого сигнала. Следовательно, спектральное представление речи должно основываться на кратковременном спектре, получаемом из преобразования Фурье.

Рассмотрим дискретизованный речевой сигнал, представленный последовательностью Его кратковременное преобразование Фурье определяется как

Таким образом, оно описывает преобразование Фурье взвешенного отрезка речевого колебания, причем весовая функция сдвигается во времени, как показано на рис. 3.10. Есть два распространенных способа выполнения кратковременного спектрального анализа согласно соотношению (3.5). Первый способ

осуществляется с помощью набора фильтров, что является типичным приемом реализации анализатора, если спектральный анализ должен производиться с помощью аналоговой системы. При вычислении кратковременного преобразования Фурье цифровыми методами может быть применен алгоритм быстрого преобразования Фурье (БПФ) или же гребенка цифровых фильтров.

Рис. 3.10. К выполнению кратковременного фурье-анализа.

Чтобы пояснить, как выражение (3.5) связано с характеристикой гребенки цифровых фильтров, заметим, что оно соответствует свертке весовой функции с сигналом промодулированным колебанием т. е.

где знак обозначает свертку. Таким образом, может быть получено с помощью системы, изображенной на рис. 3.11. Другой вариант построения гребенки фильтров получается, если формулу (3.5) переписать в виде

или

Фильтр с импульсной характеристикой является полосовым с центральной частотой . Система, описываемая равенством (3.8), изображена на рис. 3.12. Выбор между системами, представленными на рис. 3.11 и 3.12, в основном определяется соображениями удобства. В шервом случае используется цифровой фильтр нижних частот с импульсной характеристикой а входной сигнал модулируется с частотой, зависящей от значения , при котором нужно измерить Система рис. 3.12 более удобна для параллельного измерения на нескольких частотах .

Оценку кратковременного преобразования Фурье на равноотстоящих частотах можно получить с помощью алгоритма БПФ. В частности, обозначая отсчеты через так что

получим

Рис. 3.11. Система для определения кратковременного преобразования Фурье.

С помощью замены переменных соотношение (3.10) можно переписать в виде

Суммирование в (3.11) можно сначала провести на интервалах длиной а затем просуммировать частичные суммы, так что

Рис. 3.12. Другая система для нахождения кратковременного преобразования Фурье.

Заменив переменные во внутренней сумме и используя периодичность комплексной экспоненты равенство (3.12) можно привести к виду

Рис. 3.13. (см. скан) Оценка кратковременного преобразования Фурье с помощью алгоритма БПФ.

где

Можно заметить, что при любом фиксированном сумма (по стоящая в правой части выражения (3.13а), яйляется -точечным дискретным преобразованием Фурье (ДПФ) для последовательности , и, следовательно, ее можно вычислить по алгоритму БПФ. Процесс вычисления из согласно равенствам (3.13), поясняется на рис. 3.13.

Другой важный метод вычисления кратковременного преобразования Фурье для набора равностоящих частот вкючает подстановку величины

в уравнение (3.10), что дает

При любом фиксированном это можно представить как

где

Таким образом, вычисление кратковременного преобразования для каждого сведено к вычислению свертки. Важно отметить, что формулы (3.6) — (3.8) и (3.16) выражают кратковременное преобразование в виде свертки, но между ними имеется существенное отличие: в противоположность формулам (3.6) и (3.8) свертка (3.16) дает набор отсчетов спектра при фиксированном значении

Методика спектрального анализа с помощью формул (3.16) впервые была предложена Блюстейном [31] и развита затем Рабинером, Шафером и Рейдером [30]; в доработанной форме она получила название алгоритма -преобразования с ЛЧМ-фильтрацией. Хотя этот алгоритм более сложен для вычислений, в некоторых случаях он обладает важными преимуществами. В частности, если весовая функция имеет конечную длительность, то свертку (3.16 а) можно получить, пропуская последовательность через фильтр с конечной импульсной характеристикой, являющейся отрезком комплексной последовательности Поскольку фильтры с конечной импульсной характеристикой особенно просто реализуются на основе полупроводниковых устройств с зарядовой связью или других полупроводниковых приборов с переносом заряда, то и устройства для спектрального анализа на основе формулы (3.16) реализуются на базе такой же микроэлектронной техники [36, 38, 39].

Как было указано в разд. 3.2, представление амплитуд спектральных составляющих кратковременного преобразования Фурье речевого сигнала в координатах время — частота — яркость

Рис. 3.14. (см. скан) Спектрограмма высказывания «Two churches in Honolulu...». a - широкополосный анализ; б - узкополосный анализ. Полная шкала по оси времени соответствует 2,2 с, по оси частот

является спектрограммой речи. Примеры, приведенные на рис. получены с помощью аналогового спектрографа речевых сигналов. Ясно, что аналогичные спектрограммы можно получить цифровыми методами с использованием БПФ [32, 33, 35]. На рис. 3.14 приведены примеры широкополосной и узкополосной спектрограмм, вычисленных согласно формуле (3.13) и схеме, приведенной на рис. 3,13. Если проанализировать различия узкополосной и широкополосной спектрограмм (как на рис. 3.14, так и на рис. 3.4), то можно увидеть, что существует компромисс между разрешением спектральных составляющих по частоте и разрешением их по времени. В частности, чтобы кратковременное преобразование Фурье речевого сигнала могло успевать отслеживать изменения в голосовом тракте и возбуждающем сигнале, необходимо, чтобы весовая функция или импульсная характеристика фильтров анализаторов была короткой. Так, чтобы обеспечить хорошее разрешение по времени, длина весовой функции для широкополосной спектрограммы выбрана порядка одного периода основного тона. Полученное при этом разрешение по частоте не позволяет разделить отдельные гармоники основного тона, однако форманты в общем различаются. При узкополосном спектральном анализе эквивалентный фильтр (рис. 3.11 или 3.12) выбран узкополосным, но для этого требуется, чтобы длительность составляла несколько периодов основного тона. В таком случае отдельные гармоники возбуждающего сигнала разделяются, но разрешение по времени при этом ухудшается.

Важной областью применения кратковременного преобразования Фурье является графическое изображение речи с помощью спектрограмм. Другие его применения встречаются при анализе — синтезе речи. Одна из таких систем была воплощена в фазовом вокодере, разработанном Фланаганом и Голденом [42], который был затем преобразован в цифровое устройство и усовершенствован Шафером и Рабинером [47] и Портновым [48].

Рис. 3.15. Набор фильтров для кратковременного спектрального анализа.

В основе системы лежит равенство (3.10), которое можно преобразовать, как было сделано с формулой (3.5), к виду

где

Последовательность можно рассматривать как характеристику комплексного полосового фильтра с центральной частотой Тогда формулы (3.17) описывают процедуру проведения спектрального анализа последовательности с помощью гребенки комплексных полосовых фильтров, как показано на рис. 3.15. Если частотная характеристика низкочастотного фильтра выбрана так, что суммарная частотная характеристика всех фильтров гребенки (рис. 3.15) на всех частотах равномерна, то можно восстановить, сложив сигналы на всех выходах гребенки. В частности, можно показать [47, 48], что

если выбрано так, что

Формула (3.17а) является основным уравнением анализатора с кратковременным преобразованием Фурье, а формула (3.18) - основным уравнением для соответствующего синтезатора. Из равенства (3.13) видно, каким образом можно выполнить анализ с применением БПФ. Из этого равенства следует, что для каждого необходимо вычислять свое БПФ. Однако рис. 3.11 подсказывает, что для любого сигнал наблюдается на выходе фильтра нижних частот. Следовательно, из можно взять отсчеты по переменной и затем восстановить его интерполяцией, применив любую из множества существующих конструкций интерполирующих фильтров.

При выполнении синтеза важно иметь в виду, что соотношение (3.18) не является дискретным преобразованием Фурье и, следовательно, его нельзя получить с помощью БПФ. Однако Портнов [48] разработал весьма эффективную процедуру, позволяющую воспользоваться преимуществами алгоритма БПФ при построении системы, реализующей уравнение синтеза (3.18).

Анализ и синтез речи с использованием кратковременного преобразования Фурье не слишком тесно связаны с основной моделью образования речевого сигнала (рис. 3.3). Сигнал на выходе всей системы получается очень высококачественным и не имеет искажений, характерных для многих систем анализа — синтеза, которые будут рассмотрены ниже. С другой стороны, поскольку данный метод слабо связан с моделью речеобразования, он малопригоден для систем сжатия полосы речи. Имеется еще одна область применения данного метода, а именно он оказался весьма полезным при изменении темпа речи. Здесь метод пригоден для такого изменения речевого сигнала, что преобразованная речь будет соответствовать ускоренному или замедленному темпу разговора.

Чтобы более полно воспользоваться основной моделью образования речи (рис. 3.3), в большинстве систем анализа — синтеза делается попытка каким-то образом «восстановить» речевой сигнал, т. е. отделить функцию возбуждения от характеристик голосового тракта. Такие системы в общем дают довольно значительное снижение скорости создания информации, используемой для дальнейшего хранения или передачи речи, хотя обычно это приводит к некоторому ухудшению качества, поскольку инверсную фильтрацию невозможно выполнить с абсолютной точностью, а модель рис. 3.3 является лишь приближенным описанием процесса речеобразования.

Один из стандартных подходов к аппроксимации передаточной функции голосового тракта основан на применении кратковременного

преобразования Фурье. При рассмотрении спектрограмм речевого сигнала отмечалось, что на широкополосных спектрограммах разрешение по частоте слишком мало для разделения отдельных гармоник возбуждающего сигнала. Поэтому кратковременный спектр с достаточно низким разрешением по частоте может послужить аппроксимацией огибающей спектра или передаточной функции голосового тракта. Иначе говоря, в этом случае речь анализируется с помощью гребенки широкополосных фильтров. Тогда огибающая колебания на выходе каждого фильтра представляет собой оценку амплитуды огибающей спектра речевого колебания на центральной частоте данного полосового фильтра. Огибающую выходного сигнала полосового фильтра получают путем детектирования и последующей низкочастотной фильтрации. Полученные сигналы — огибающие соответствуют выходным сигналам анализатора. Как будет указано в конце данного раздела, для определения параметров возбуждающего сигнала дополнительно проводится самостоятельный анализ речи. Аппроксимация спектра исходной речи в соответствующем синтезаторе получается возбуждением гребенки полосовых фильтров с помощью возбуждающего сигнала, сформированного на основе этих параметров. Коэффициенты усиления выбираются в соответствии с уровнями сигналов в каналах анализатора. Для получения речевого колебания выходные сигналы полосовых фильтров синтезатора затем суммируются. Основные элементы всей системы, называемой полосным вокодером, изображены на рис. 3.16 [40, 43, 44].

Полосной вокодер — один из самых распространенных типов аналоговых систем для сжатия полосы речевого сигнала. При выборе характеристик полосовых и низкочастотных фильтров, применяемых в анализаторе и синтезаторе, и детализации блок-схемы рис. 3.16 следует учесть ряд факторов [45]. Цифровой вариант полосного вокодера может быть построен на основе полосовых и низкочастотных фильтров, выполненных в цифровом виде [41]. Но спектральный анализ, выполняемый набором фильтров, можно выполнить с помощью дискретного преобразования Фурье. В одном из таких полосных вокодеров, разработанных Байэли и Андерсоном [46], воздействие гребенки фильтров анализатора на речевой сигнал заменено вычислением кратковременного преобразования Фурье; операции, выполняемые детекторами и фильтрами нижних частот, формировавшими в аналоговом полосном вокодере огибающие канальных сигналов, заменены вычислением модуля кратковременного преобразования Фурье. Преобразование Фурье может быть вычислено либо непосредственно, либо по алгоритму БПФ. В упомянутом выше вокодере применялось непосредственное вычисление преобразования Фурье. Структура отдельного канала вокодера показана на рис. 3.17.

Сигналы, полученные в каналах анализатора, используются в синтезаторе для задания амплитуд отрезков синусоид с частотами,

Рис. 3.16. (см. скан) Блок-схема полосного вокодера. а — анализатор; б - синтезатор.

равными центральным частотам каналов анализатора, а полученные взвешенные синусоиды складываются. Если все отрезки синусоид приведены к одинаковой фазе, то получающийся импульсный отклик синтезатора симметричен (т. е. имеет нулевую или линейную фазу). Параметры возбуждающего сигнала, полученные в

Рис. 3.17. Структура одного из каналов анализатора полосного вокодера (по Байэли и Андерсону).

анализаторе, используются для генерации возбуждающего сигнала, представляющего собой или последовательность импульсов, разнесенных на период основного тона (для звонкой речи), или шумоподобную последовательность (для глухого речевого сигнала). Структура синтезатора показана на рис. 3.18, а. На рис. 3.18, б поясняется фактическая процедура формирования импульсного отклика.

Схема цифрового аналога обычного полосного вокодера показана на рис. 3.17 и 3.18; существует ряд ее разновидностей, в том числе использующие умножение входного сигнала на весовую функцию, что позволяет улучшить эффективные частотные характеристики фильтров в каналах. В разд. 3.5 и 3.6 будут рассмотрены другие виды цифровых систем анализа — синтеза, не имеющие соответствующих аналоговых эквивалентов.

До сих пор определение параметров возбуждающего сигнала особо не обсуждалось. Как будет показано в следующих разделах, некоторые системы анализа — синтеза предназначены для получения параметров возбуждающего сигнала. Для полосных вокодеров это не так. Поэтому в полосных вокодерах чаще применяется класс алгоритмов анализа возбуждающего сигнала во временной области, который не является специфическим для какой-либо одной системы анализа — синтеза речи.

На коротких интервалах времени звонкий речевой сигнал близок к периодическому колебанию. В этом случае задача анализатора возбуждающего сигнала заключается в измерении частоты, или, что то же самое, периода основного тона. Если сигнал строго периодичен, определить его частоту можно с помощью ряда простых измерений во временной области. Например, если периодический сигнал пропустить через фильтр нижних частот, так что в нем сохранится лишь несколько гармоник, то вполне пригоден простой алгоритм, такой, как измерение интервала между максимумами сигнала или моментами пересечения сигналом нулевого уровня. Однако если колебание не совсем периодично, простые процедуры такого типа часто будут давать неопределенные или

Рис. 3.18. (см. скан) а — структура синтезатора цифрового полосного вокодера; б — алгоритм генерации импульсного отклика (по Байэли и Андерсону).

неправильные результаты. Поэтому необходимо применять более тонкие методы. Один из наиболее удачных подходов, первоначально предложенный Голдом [49] и усовершенствованный Голдом и Рабинером [54], заключается в выполнении не одного, а нескольких параллельных элементарных измерений и определении основной частоты сигнала с помощью счетного алгоритма. Если различные измерения дают противоречивые результаты, речь считается глухой.

Весьма успешным для анализа речи оказалось применение кратковременной автокорреляционной функции речевого колебания. Если временной интервал, на котором вычисляется автокорреляционная функция, составляет несколько периодов основного тона, то функция будет иметь максимумы, отстоящие друг от друга на период основного тона. Следовательно, частоту основного тона можно определить, выделив эти максимумы. Аналогично отсутствие этих максимумов свидетельствует о глухом характере речи. Одна из проблем, характерная для автокорреляционных анализаторов возбуждающего сигнала, обусловлена большой шириной главного лепестка автокорреляционной функции. Чтобы сузить автокорреляционную функцию в области малых аргументов, Сонджи [53] предложил отбрасывать значения сигнала вблизи нулевого уровня и ограничивать максимальные значения сигнала, а только потом вычислять автокорреляционную функцию. Введение такой нелинейности обычно позволяет получить в автокорреляционной функции узкие, хорошо заметные максимумы в точках, кратных периоду основного тона.

Хотя оба класса алгоритмов позволяют решить, глухой или звонкий характер имеет речь, обычно дополнительно вводят предварительную операцию различения звонкой и глухой речи, основанную на измерении энергии сигнала за короткий промежуток времени. Для глухой речи эта энергия обычно значительно меньше, чем для звонкой. Сравнивая энергию, накопленную за короткий промежуток времени, с некоторой пороговой энергией, можно вынести предварительное решение, является ли речь звонкой или глухой. Затем этот результат вместе с измерениями высоты основного тона используется для принятия окончательного решения о характере речевого сигнала.

<< Предыдущий параграф

Следующий параграф >>

Оглавление