Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.4. Спектральный анализ на коротких интервалах времени и синтез речиВ разд. 3.2 было показано, что в частотной области спектр коротких отрезков речевого сигнала можно представить в виде произведения огибающей, характеризующей состояние голосового тракта, и функции, описывающей тонкую структуру, которая характеризует возбуждающий сигнал. Поскольку основным параметром сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта с достаточной полнотой определяются частотами формант, то при анализе весьма удобно исходить из представления речи в частотной области. При создании разных звуков форма голосового тракта и возбуждающий сигнал изменяются. При этом изменяется и спектр речевого сигнала. Следовательно, спектральное представление речи должно основываться на кратковременном спектре, получаемом из преобразования Фурье. Рассмотрим дискретизованный речевой сигнал, представленный последовательностью
Таким образом, оно описывает преобразование Фурье взвешенного отрезка речевого колебания, причем весовая функция осуществляется с помощью набора фильтров, что является типичным приемом реализации анализатора, если спектральный анализ должен производиться с помощью аналоговой системы. При вычислении кратковременного преобразования Фурье цифровыми методами может быть применен алгоритм быстрого преобразования Фурье (БПФ) или же гребенка цифровых фильтров.
Рис. 3.10. К выполнению кратковременного фурье-анализа. Чтобы пояснить, как выражение (3.5) связано с характеристикой гребенки цифровых фильтров, заметим, что оно соответствует свертке весовой функции
где знак обозначает свертку. Таким образом,
или
Фильтр с импульсной характеристикой Оценку кратковременного преобразования Фурье на равноотстоящих частотах
получим
Рис. 3.11. Система для определения кратковременного преобразования Фурье. С помощью замены переменных
Суммирование в (3.11) можно сначала провести на интервалах длиной
Рис. 3.12. Другая система для нахождения кратковременного преобразования Фурье. Заменив переменные во внутренней сумме и используя периодичность комплексной экспоненты
Рис. 3.13. (см. скан) Оценка кратковременного преобразования Фурье с помощью алгоритма БПФ. где
Можно заметить, что при любом фиксированном Другой важный метод вычисления кратковременного преобразования Фурье для набора равностоящих частот вкючает подстановку величины
в уравнение (3.10), что дает
При любом фиксированном
где
Таким образом, вычисление кратковременного преобразования для каждого Методика спектрального анализа с помощью формул (3.16) впервые была предложена Блюстейном [31] и развита затем Рабинером, Шафером и Рейдером [30]; в доработанной форме она получила название алгоритма Как было указано в разд. 3.2, представление амплитуд спектральных составляющих кратковременного преобразования Фурье речевого сигнала в координатах время — частота — яркость Рис. 3.14. (см. скан) Спектрограмма высказывания «Two churches in Honolulu...». a - широкополосный анализ; б - узкополосный анализ. Полная шкала по оси времени соответствует 2,2 с, по оси частот является спектрограммой речи. Примеры, приведенные на рис. Важной областью применения кратковременного преобразования Фурье является графическое изображение речи с помощью спектрограмм. Другие его применения встречаются при анализе — синтезе речи. Одна из таких систем была воплощена в фазовом вокодере, разработанном Фланаганом и Голденом [42], который был затем преобразован в цифровое устройство и усовершенствован Шафером и Рабинером [47] и Портновым [48].
Рис. 3.15. Набор фильтров для кратковременного спектрального анализа. В основе системы лежит равенство (3.10), которое можно преобразовать, как было сделано с формулой (3.5), к виду
где
Последовательность
если
Формула (3.17а) является основным уравнением анализатора с кратковременным преобразованием Фурье, а формула (3.18) - основным уравнением для соответствующего синтезатора. Из равенства (3.13) видно, каким образом можно выполнить анализ с применением БПФ. Из этого равенства следует, что для каждого При выполнении синтеза важно иметь в виду, что соотношение (3.18) не является дискретным преобразованием Фурье и, следовательно, его нельзя получить с помощью БПФ. Однако Портнов [48] разработал весьма эффективную процедуру, позволяющую воспользоваться преимуществами алгоритма БПФ при построении системы, реализующей уравнение синтеза (3.18). Анализ и синтез речи с использованием кратковременного преобразования Фурье не слишком тесно связаны с основной моделью образования речевого сигнала (рис. 3.3). Сигнал на выходе всей системы получается очень высококачественным и не имеет искажений, характерных для многих систем анализа — синтеза, которые будут рассмотрены ниже. С другой стороны, поскольку данный метод слабо связан с моделью речеобразования, он малопригоден для систем сжатия полосы речи. Имеется еще одна область применения данного метода, а именно он оказался весьма полезным при изменении темпа речи. Здесь метод пригоден для такого изменения речевого сигнала, что преобразованная речь будет соответствовать ускоренному или замедленному темпу разговора. Чтобы более полно воспользоваться основной моделью образования речи (рис. 3.3), в большинстве систем анализа — синтеза делается попытка каким-то образом «восстановить» речевой сигнал, т. е. отделить функцию возбуждения от характеристик голосового тракта. Такие системы в общем дают довольно значительное снижение скорости создания информации, используемой для дальнейшего хранения или передачи речи, хотя обычно это приводит к некоторому ухудшению качества, поскольку инверсную фильтрацию невозможно выполнить с абсолютной точностью, а модель рис. 3.3 является лишь приближенным описанием процесса речеобразования. Один из стандартных подходов к аппроксимации передаточной функции голосового тракта основан на применении кратковременного преобразования Фурье. При рассмотрении спектрограмм речевого сигнала отмечалось, что на широкополосных спектрограммах разрешение по частоте слишком мало для разделения отдельных гармоник возбуждающего сигнала. Поэтому кратковременный спектр с достаточно низким разрешением по частоте может послужить аппроксимацией огибающей спектра или передаточной функции голосового тракта. Иначе говоря, в этом случае речь анализируется с помощью гребенки широкополосных фильтров. Тогда огибающая колебания на выходе каждого фильтра представляет собой оценку амплитуды огибающей спектра речевого колебания на центральной частоте данного полосового фильтра. Огибающую выходного сигнала полосового фильтра получают путем детектирования и последующей низкочастотной фильтрации. Полученные сигналы — огибающие соответствуют выходным сигналам анализатора. Как будет указано в конце данного раздела, для определения параметров возбуждающего сигнала дополнительно проводится самостоятельный анализ речи. Аппроксимация спектра исходной речи в соответствующем синтезаторе получается возбуждением гребенки полосовых фильтров с помощью возбуждающего сигнала, сформированного на основе этих параметров. Коэффициенты усиления выбираются в соответствии с уровнями сигналов в каналах анализатора. Для получения речевого колебания выходные сигналы полосовых фильтров синтезатора затем суммируются. Основные элементы всей системы, называемой полосным вокодером, изображены на рис. 3.16 [40, 43, 44]. Полосной вокодер — один из самых распространенных типов аналоговых систем для сжатия полосы речевого сигнала. При выборе характеристик полосовых и низкочастотных фильтров, применяемых в анализаторе и синтезаторе, и детализации блок-схемы рис. 3.16 следует учесть ряд факторов [45]. Цифровой вариант полосного вокодера может быть построен на основе полосовых и низкочастотных фильтров, выполненных в цифровом виде [41]. Но спектральный анализ, выполняемый набором фильтров, можно выполнить с помощью дискретного преобразования Фурье. В одном из таких полосных вокодеров, разработанных Байэли и Андерсоном [46], воздействие гребенки фильтров анализатора на речевой сигнал заменено вычислением кратковременного преобразования Фурье; операции, выполняемые детекторами и фильтрами нижних частот, формировавшими в аналоговом полосном вокодере огибающие канальных сигналов, заменены вычислением модуля кратковременного преобразования Фурье. Преобразование Фурье может быть вычислено либо непосредственно, либо по алгоритму БПФ. В упомянутом выше вокодере применялось непосредственное вычисление преобразования Фурье. Структура отдельного канала вокодера показана на рис. 3.17. Сигналы, полученные в каналах анализатора, используются в синтезаторе для задания амплитуд отрезков синусоид с частотами, Рис. 3.16. (см. скан) Блок-схема полосного вокодера. а — анализатор; б - синтезатор. равными центральным частотам каналов анализатора, а полученные взвешенные синусоиды складываются. Если все отрезки синусоид приведены к одинаковой фазе, то получающийся импульсный отклик синтезатора симметричен (т. е. имеет нулевую или линейную фазу). Параметры возбуждающего сигнала, полученные в
Рис. 3.17. Структура одного из каналов анализатора полосного вокодера (по Байэли и Андерсону). анализаторе, используются для генерации возбуждающего сигнала, представляющего собой или последовательность импульсов, разнесенных на период основного тона (для звонкой речи), или шумоподобную последовательность (для глухого речевого сигнала). Структура синтезатора показана на рис. 3.18, а. На рис. 3.18, б поясняется фактическая процедура формирования импульсного отклика. Схема цифрового аналога обычного полосного вокодера показана на рис. 3.17 и 3.18; существует ряд ее разновидностей, в том числе использующие умножение входного сигнала на весовую функцию, что позволяет улучшить эффективные частотные характеристики фильтров в каналах. В разд. 3.5 и 3.6 будут рассмотрены другие виды цифровых систем анализа — синтеза, не имеющие соответствующих аналоговых эквивалентов. До сих пор определение параметров возбуждающего сигнала особо не обсуждалось. Как будет показано в следующих разделах, некоторые системы анализа — синтеза предназначены для получения параметров возбуждающего сигнала. Для полосных вокодеров это не так. Поэтому в полосных вокодерах чаще применяется класс алгоритмов анализа возбуждающего сигнала во временной области, который не является специфическим для какой-либо одной системы анализа — синтеза речи. На коротких интервалах времени звонкий речевой сигнал близок к периодическому колебанию. В этом случае задача анализатора возбуждающего сигнала заключается в измерении частоты, или, что то же самое, периода основного тона. Если сигнал строго периодичен, определить его частоту можно с помощью ряда простых измерений во временной области. Например, если периодический сигнал пропустить через фильтр нижних частот, так что в нем сохранится лишь несколько гармоник, то вполне пригоден простой алгоритм, такой, как измерение интервала между максимумами сигнала или моментами пересечения сигналом нулевого уровня. Однако если колебание не совсем периодично, простые процедуры такого типа часто будут давать неопределенные или Рис. 3.18. (см. скан) а — структура синтезатора цифрового полосного вокодера; б — алгоритм генерации импульсного отклика (по Байэли и Андерсону). неправильные результаты. Поэтому необходимо применять более тонкие методы. Один из наиболее удачных подходов, первоначально предложенный Голдом [49] и усовершенствованный Голдом и Рабинером [54], заключается в выполнении не одного, а нескольких параллельных элементарных измерений и определении основной частоты сигнала с помощью счетного алгоритма. Если различные измерения дают противоречивые результаты, речь считается глухой. Весьма успешным для анализа речи оказалось применение кратковременной автокорреляционной функции речевого колебания. Если временной интервал, на котором вычисляется автокорреляционная функция, составляет несколько периодов основного тона, то функция будет иметь максимумы, отстоящие друг от друга на период основного тона. Следовательно, частоту основного тона можно определить, выделив эти максимумы. Аналогично отсутствие этих максимумов свидетельствует о глухом характере речи. Одна из проблем, характерная для автокорреляционных анализаторов возбуждающего сигнала, обусловлена большой шириной главного лепестка автокорреляционной функции. Чтобы сузить автокорреляционную функцию в области малых аргументов, Сонджи [53] предложил отбрасывать значения сигнала вблизи нулевого уровня и ограничивать максимальные значения сигнала, а только потом вычислять автокорреляционную функцию. Введение такой нелинейности обычно позволяет получить в автокорреляционной функции узкие, хорошо заметные максимумы в точках, кратных периоду основного тона. Хотя оба класса алгоритмов позволяют решить, глухой или звонкий характер имеет речь, обычно дополнительно вводят предварительную операцию различения звонкой и глухой речи, основанную на измерении энергии сигнала за короткий промежуток времени. Для глухой речи эта энергия обычно значительно меньше, чем для звонкой. Сравнивая энергию, накопленную за короткий промежуток времени, с некоторой пороговой энергией, можно вынести предварительное решение, является ли речь звонкой или глухой. Затем этот результат вместе с измерениями высоты основного тона используется для принятия окончательного решения о характере речевого сигнала.
|
1 |
Оглавление
|