13.2.3. Система HEARSAY

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

13.2.3. Система HEARSAY

Ограниченные возможности систем распознавания отдельных слов широко известны, поэтому был предложен ряд новых решений, основанных на совместном фонетическом, синтаксическом и семантическом анализе произнесенных фраз. Они хорошо иллюстрируются системой HEARSAY (Редди, Эрман и Нили, 1973), работа над которой продолжается в университете Карнеги — Меллон. В отличие от других программ HEARSAY не имеет иерархической организации кодов. И в ней существует не только постоянный обмен информацией между уровнями, но эта система также допускает ошибки на одном уровне, если их можно исправить на другом.

Структуру программы HEARSAY лучше всего рассматривать как совокупность параллельных процессоров, снабжающих информацией центральное устройство. Схема работы системы изображена на рис. 13.15. Первый шаг состоит в непосредственной параметризации полученного акустического сигнала. В каждом последовательном интервале длительностью 10 мсек в пяти частотных полосах записывается число прохождений соответствующих компонент звукового сигнала через нуль и его максимальное значение, а кроме того нефильтрованная полоса от 200 до 6400 Гц. Затем эти данные,

соответствующие окнам длительностью в 10 мсек, идентифицируются как „подфонемные единицы" с помощью прототипов, сформированных на основе анализа предварительных записей определенных фонем, произнесенных учителем. Результатом этого этапа является преобразование 10 мсек интервалов: последовательности значений выделенных параметров в последовательность названных акустических признаков.

Рис. 13.15. Схема ракеты системы HEARSAY.

Затем интервалы в 10 мсек объединяют в более крупные фрагменты с длительностью, приблизительно равной продолжительности фонемы, объединяя последовательности похожих подфонемных единиц и разбивая цепочки указанных интервалов в местах перехода от звонких к глухим или от фрикативных к нефрикативным звукам. Таким образом, исследуемый акустический сигнал превращается в приблизительно правильную цепочку, состоящую из фрагментов, имеющих вид фонем. При этом абсолютную правильность полученной цепочки нельзя гарантировать из-за ненадежности обрабатываемого речевого сигнала, даже когда говорящий пытается копировать самого себя, а также из-за изменения акустических характеристик фонемы, вызванного контекстом. Вместе с тем важно, что этот анализ все же разбивает с высокой надежностью исследуемый акустический сигнал на сегменты, соответствующие словам. До этого места система HEARSAY очень близка работе Висенса и Редди.

Теперь можно проводить параллельный анализ (рис. 13.15), осуществляемый при помощи трех устройств распознавания, использующих одинаковый принцип. Гипотезы относительно

анализируемой фразы порождаются с учетом частично проанализированного сигнала и специального значения, имеющегося у соответствующего устройства распознавания, что приводит к формированию „предположительной интерпретации". Затем эта интерпретация поступает к другим устройствам распознавания, где она оценивается с учетом их специальных знаний, которые доступны этим другим устройствам. Рассмотрим каждое из этих устройств.

Устройство акустического распознавания работает со словами. Ему доступны следующие специфические сведения: акустическое, фонологическое и словарное. Акустическая информация имеет вид записанных ожидаемых подфонемных признаков фонемы, произнесенной раздельно. Фонологическая информация устанавливает способы, при помощи которых определенный контекст может изменить характерный акустический вид фонемы, например различие в „ди“ и „да“, рассмотренное выше. Информация, содержащаяся в словаре, описывает последовательности признаков, представляющих варианты допустимых слов.

Устройство синтаксического распознавания работает на уровне фраз. Синтаксические сведения хранятся во фреймах, называемых Редди и др. „антипродукциями", в которых могут появляться определенные слова или предложения. Когда распознается одно или два слова, устройство синтаксического распознавания может предложить синтаксическую гипотезу об окружающих словах. Это устройство также может определить, приводит ли какое-либо предложенное слово к синтаксической ошибке в некоторой части анализируемой фразы. Указанный метод распознавания будет хорошо работать с бесконтекстными языками, и поэтому, хотя он не дает возможности работать с естественным языком в полном объеме, мы, безусловно, можем пользоваться нужным нам подмножеством языка.

Устройство семантического распознавания представляет собой дополнение к рассмотренным до этого механизмам. Оно работает на уровне целой фразы. Задача этого устройства заключается (а) в порождении фраз, которые бы имели смысл в заданной ситуации, и (б) в оценке разумности предложенной фразы. Для этого устройство семантического распознавания должно управлять программой, осуществляющей анализ специфической (неречевой) задачи определения ситуации и способной решить, что имеет смысл, а что нет для заданного внешнего мира. Редди и др. рассмотрели в качестве такой задачи игру в шахматы. Для всей системы проблема состоит в восприятии машиной произнесенных человеком команд в ходе шахматной партии. Использующаяся программа анализа задачи, предназначенная именно для игры в шахматы (Гиллогли, 1972), предлагает и оценивает ходы для любой ситуации на доске. Во время распознавания воспринятой фразы описываемая шахматная программа, используя устройство семантического распознавания, определяет, какие слова следует считать наиболее вероятными для

определенных мест фразы. Кроме того, программу анализа задачи можно использовать для определения того, приводит ли предложенное устройством акустического анализа или устройством синтаксического анализа слово или фраза к разумному ходу.

Как только завершился процесс параметризации, все три устройства распознавания системы HEARSAY начинают параллельную работу по оценке произнесенной фразы, опираясь на характерные особенности фразы для порождения или проверки гипотез, пока наконец входная фраза не будет принята как разумная. Потребуются еще дополнительные исследования, прежде чем рассматриваемую модель восприятия речи можно будет оценить каким-нибудь определенным образом. Однако важность программы HEARSAY не столько в определенном техническом успехе, сколько в ее роли в развитии наших представлений об обработке речи. Система HEARSAY свидетельствует об очевидном отказе от использования иерархической акустико-фонетико-синтаксико-семантической модели анализа речи. Сейчас это всеми признается необходимым. Кроме того, система HEARSAY не использует также и анализ при помощи синтеза. Поэтому эта система рассматривается как привлекательная модель машинного восприятия речи, хотя она может и не быть адекватным моделированием человеческого восприятия речи. Это замечание не содержит осуждения, поскольку такое моделирование не является целью исследований в области искусственного интеллекта. Более того, отсутствует полная уверенность в справедливости подхода, основанного на анализе при помощи синтеза, и он никоим образом не принят повсеместно в качестве правильной модели человеческого восприятия речиг). Поэтому психологи и лингвисты должны обратить серьезное внимание хотя бы на подход, основанный на анализе при помощи гипотез.

<< Предыдущий параграф

Следующий параграф >>

Оглавление