12.11. Выделение высоты основного тона и обнаружение тон — шум
В заключительной части раздела о канальных вокодерах следует
упомянуть задачи выделения высоты основного тона и обнаружения тон — шум, т.
е. различения звонких и глухих звуков. Существует очень много алгоритмов
измерения периода основного тона. Для иллюстрации рассмотрим весьма эффективный
алгоритм, основанный на обработке во временной области и использующий
параллельную обработку. Обе рассматриваемые задачи по сути являются сочетанием
обработки сигналов и распознавания образов. Но, поскольку выделители высоты
основного тона входят во многие системы обработки речи, целесообразно
рассмотреть их здесь. В разд. 12.12 в связи с гомоморфной обработкой речи рассмотрен
совершенно другой алгоритм выделения высоты тона.
Фиг. 12.23. Блок-схема алгоритма оценки
периода основного тона.
Фиг. 12.24. Измерения,
используемые при оценке периода основного тона.
Блок-схема
алгоритма оценки высоты тона приведена на фиг. 12.23. Алгоритм удобно разделить
на четыре операции, связанные с обработкой или с принятием решения:
1)
низкочастотная фильтрация речевого сигнала;
2)
образование шести функций по экстремумам отфильтрованного сигнала;
3)
получение на основе значений вышеупомянутых функций шести оценок высоты тона в
шести одинаковых измерителях;
4)
принятие окончательного решения на основе оценок элементарных измерителей
высоты тона.
Основное
назначение ФНЧ состоит в подавлении высших гармоник речевого сигнала. С этой
задачей хорошо справляются фильтры НЧ с частотой среза около 600 Гц.
При
выполнении второй операции для всех экстремумов отфильтрованного колебания
формируются импульсы различной амплитуды (фиг. 12.24). Импульсы с амплитудами
формируются для
каждого максимума, а импульсы с амплитудами
— для каждого минимума. Амплитуды
совпадают со
значениями максимума и минимума соответственно,
отсчитываются от максимума до
минимума и от минимума до максимума, а
— от максимума до предыдущего
максимума и от минимума до предыдущего минимума. Из полученных импульсов
образуют однополярные последовательности, причем если рассматриваемый максимум
(или минимум) меньше предыдущего, то
(или
) полагают равными нулю. Поясним
причину использования именно такой совокупности импульсов на примере
рассмотрения двух предельных случаев (фиг. 12.25) Если в сигнале присутствует
только основная частота (графики слева), то измерения
неверны, но измерения
обеспечивают
измерение периода. Если же сигнал содержит сильную вторую гармонику и более
слабую первую (фиг. 12.25 справа), то правильными являются измерения
, а все остальные
— ошибочными. И хотя в данном случае четыре из шести измерений содержат ошибку,
при окончательном вычислении, как будет показано, с большой вероятностью получается
правильный результат.
Шесть
импульсных последовательностей поступают на входы шести одинаковых измерителей
периода. Работу измерителя поясняет фиг. 15.26. По существу каждый измеритель
является пиковым детектором с управляемой цепью разряда. После приема каждого
импульса следует интервал запирания (в течение которого детектор не принимает
импульсов), а за ним — интервал экспоненциального разряда детектора. Если на
этом втором интервале приходит импульс, превышающий напряжение в цепи разряда,
то он детектируется и процесс запирания и разряда повторяется. Постоянная
времени разряда и время запирания детектора изменяются в зависимости от
сглаженной оценки периода основного тона
, полученной этим же
детектором. Величина
определяется итерацией
(12.30)
Фиг. 12.25. Оценка периода основного
тона в двух предельных случаях.
Здесь
—
последняя (текущая) оценка периода,
— текущая сглаженная оценка периода, а
— предшествующая
сглаженная оценка. При каждом детектировании находится новая оценка
согласно формуле
(12.30). Чтобы взбежать крайних значений времени запирания и постоянной времени
разряда, величина
ограничивается пределами 4 в 10 мс. В
этих пределах зависимости времени запирания т и постоянной времени разряда
от
задаются соотношениями
(12.31)
Фиг. 12.26. Работа элементарных измерителей
периода основного тона.
Окончательно
период основного тона определяется в блоке 4 (фиг. 12.23), который можно
рассматривать как специализированную вычислительную машину с памятью,
арифметическим устройством и устройством управления всеми поступающими сигналами.
В каждый момент времени
оценка периода основного тона
производится следующим образом:
1. Образуется
матрица оценок периода (размером
элементов). Столбцы матрицы
соответствуют отдельным измерителям, а строки — оценкам периода. В первых трех
строках содержатся последние три оценки периода. Четвертая строка равна сумме
первой и второй строк, пятая — сумме второй и третьей строк, а шестая — сумме
всех трех первых строк. Образование матрицы иллюстрирует фиг. 12.27.
Структура
последних трех строк определяется тем, что иногда в отдельных измерителях
определяется период]второй или третьей гармоник основного тона, и правильными
оказываются оценки, содержащиеся в трех последних строках, а не последние три
измерения периода, находящиеся в первых строках.
2.
Каждый элемент первой строки сравнивается со всеми остальными 35 элементами
матрицы, и по дочитывается число совпадений (точное определение совпадения
дано ниже). Оценка
, имеющая наибольшее число совпадений,
выбирается в качестве окончательной.
Теперь
следует дать определение совпадению. Во-первых, при принятии решения о
совпадении двух оценок представляется более целесообразным рассматривать их
отношение, а не разность. При этом измерять отношение можно достаточно
приближенно, что позволяет избежать операции деления. Во-вторых, часто
последовательные измерения весьма заметно отличаются, поэтому полезно ввести
несколько пороговых величин для определения совпадений и при вычислении оценки
периода выбирать ту из них, которая дает наиболее разумный ответ. С учетом
вышеизложенного опишем теперь операции, выполняемые в блоке 4 (фиг. 12.23).
На фиг. 12.28 приведены значения ширины шестнадцати окон
совпадения. Как показано на фиг. 12.27, окончательная оценка периода основного
тона выбирается только из последних оценок, даваемых шестью измерителями. Чтобы
определить ее, каждая из шести последних оценок сравнивается с остальными 35
числами, содержащимися в матрице. Такое сравнение повторяется четыре раза для
каждого столбца таблицы фиг. 12.28. Из каждого столбца в соответствии с
величиной анализируемой оценки выбирают ширину окна. Например, если эта оценка
составляет 4 мс, то совпадение имеет место, если разница между сравниваемыми
интервалами не превышает
200 мкс (при частоте дискретизации 10
кГц). Когда число совпадений подсчитано, из него вычитают смещение, равное 1.
Фиг. 12.27. Методика формирования
матрицы оценок периода основного тона.
Фиг. 12.28. Таблица ширины окна
совпадений.
Измерение
повторяют для второго столбца таблицы. Ширина окна в этом случае больше, и
вероятность совпадения увеличивается, но для компенсации из числа совпадений
вычитают смещение, равное 2, и т. д. После выполнения этих действий для всех
четырех столбцов таблицы получаются четыре числа, наибольшее из которых
принимают за число совпадений для данной оценки периода основного тона. Вся
процедура повторяется для каждой из пяти остальных текущих оценок, и в качестве
окончательной оценки берут ту из шести, у которой число совпадений после вычитания
смещения наибольшее. В ходе этих вычислений необходимо выполнить (
) проверок совпадения
(сравнений модуля разности с фиксированным числом). Повторение всего процесса
через каждые 5 мс позволяет отслеживать даже быстрые изменения периода
основного тона.
Фиг. 12.29. Сравнение частоты основного
тона синтезированной речи с оценками, полученными с использованием
алгоритма выделения основного тона.
Чтобы
показать типичные результаты, обеспечиваемые рассмотренным алгоритмом, на фиг.
12.29 вместе с оценками периода основного тона изображены его истинные
значения, использовавшиеся при синтезе высказывания, выбранного в качестве
примера. Ясно, что в данном случае алгоритм дает очень хорошие результаты.