Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.2. Изображения в виде абстрактной последовательностиВ этом разделе рассмотрим конфигурации, состоящие из абстрактных образующих, принадлежащих конечному множеству
Рис. 3.2.1. Начнем со случая, когда образующими являются буквы английского алфавита, включая промежутки, а конфигурации образуются при помощи 2 — «линейный». Когда на Будем идентифицировать регулярные конфигурации по их внешним связям и цепочкам терминальных символов. Заметим, что изображение не является только терминальной цепочкой, оно также имеет внешние связи, хотя последние не всегда явно указываются. В известном эксперименте, проведенном Шенноном (1949), выдавались цепочки вида
Эта цепочка имеет мало общего с естественным английским языком. Если образующие имеют на рис. 3.2.1 вид (а), указывая переходы от одной буквы к другой при Другие цепочки, полученные в шенноновском эксперименте, имеющие вид
чуть больше напоминают английские фразы. Можно показать, что выбор образующих в виде (в) на рис. 3.2.1 и типа соединения, как в (г), индуцирует вероятностную меру марковской цепи Р порядка
Теперь эти «слова» больше похожи на английские слова. Предпочитая выбирать образующие в виде слов, а не букв, Шеннон для простого случайного источника получил
и аналогично для марковской цепи первого порядка —
Последняя цепочка даже имеет подцепочки, которые кажутся осмысленными. Таким образом, увеличивая порядок, мы можем ожидать, что случайным источником будут порождаться все более и более реалистичные цепочки. Ценой большего реализма является сложность модели. Если
Рис. 3.2.2. Эти вероятности должны удовлетворять Одна возможная альтернатива — синтаксически управляемые вероятности — была обсуждена в разд. 2.10. Чтобы проиллюстрировать это, рассмотрим конечный автомат с шестью состояниями, с начальным состоянием 1 и заключительным состоянием 6. Диаграмма перехода автомата приведена на рис. 3.2.2. Соответствующие правила для правосторонней линейной грамматики имеют пять синтаксических переменных а Таблица 9.2.1 (см. скан) Таблица 3.2.2 (см. скан) Для простоты предположим, что Моделирование автомата с псевдослучайным генератором чисел дает цепочки, приведенные в табл. 3.2.2, где они следуют в порядке формирования. Оставляя этот пример, перейдем к конечно-автоматному языку общего вида, для которого конфигурации можно представить в виде Это означает, что лишь первое и последнее состояния конфигурации
составляющие множество Обозначая соответствующие вероятности через
или в матрично-векторном обозначении
и
Мы также вводим вектор Предположим, что выполняются условия теоремы 2.10.7. Какую вероятность придает Р данному изображению-цепочке? Построим вывод изображений грамматически правильных цепочек от начального состояния до конечного состояния. Общий случай может быть рассмотрен точно таким же способом. Имея терминальную цепочку
Это можно записать в виде
Чтобы распределение вероятностей было корректным, будем считать, что конечное состояние может быть достигнуто из любого состояния. Пользуясь удобным матричным представлением вероятностей, можно вывести компактные выражения для многих величин, которые необходимо будет проанализировать в части III (см. приложение). Какова вероятность получения цепочки вида
Просуммировав (3.2.6) по всем неопределенным терминальным символам, получим вероятность
Здесь мы воспользовались соотношением
Теперь вычислим вероятность того, что цепочка начинается с заданной цепочки
где
Наконец, каково ожидаемое число вхождений подцепочки у? Обозначим через
здесь и обозначает произвольную цепочку, возможно пустую, в то время как
Итак, нами доказана Теорема 3.2.1. Если конечное состояние может быть достигнуто из любого состояния с положительной вероятностью, то
Ситуация, предсказываемая соотношением Таблица 3.2.3 (см. скан) Таблица 3.2.4 (см. скан) С другой стороны, для бесконтекстных языков в разд. 2.10 мы обсуждали способ вычисления вероятности конфигурации, в которой используется крайне левый вывод цепочки. Такие конфигурации имеют тип древовидного соединения. Теорема 2.10.5 гарантирует, что Р — допустимая вероятностная мера В данном случае естественное правило идентификации — считать идентичными те конфигурации, выводы которых начинаются с одной и той же синтаксической переменной и которые имеют одну и ту же последовательность символов в нижних узлах. При этом гарантируется совпадение их внешних структур. Можно проверить, что действительно данное правило идентификации соответствует определению 3.1.1. Для заданной бесконтекстной грамматики может существовать несколько Естественно, называть стилистическими параметрами вероятности, появляющиеся в Чтобы проиллюстрировать это, был проведен небольшой вычислительный эксперимент (см. разд. 4.6). Когда
Одна из цепочек длинная и имеет высокую степень скобочного вложения. Теперь изменим значения трех стилистических параметров
сохраняя остальные неизменными. Были сгенерированы следующие двадцать терминальных цепочек:
Уже поверхностная проверка показывает, что наблюдается тенденция к удлинению цепочек и более частому вхождению в них символа В данном случае образы формального языка представляются при помощи диффузных образов, причем синтаксис соответствует алгебре изображений а стиль задается посредством вероятностной меры на Тогда стиль характеризуется при помощи стилистических параметров и дополнительных переменных — стилистических переменных, необходимых для достижения приемлемой аппроксимации характера использования языка в исследуемой группе его пользователей. Можно поставить вопрос о более точных мерах стиля. Одним из простых критериев является коэффициент Юла (см. разд. 1.4), однако он применим скорее к изображениям, чем к образующим. Более информативной величиной оказывается вводимая ниже ранговая функция. Рассмотрим случай, когда число состояний конечно, и допустим, что мы образовали Формальное типовое отношение Чтобы выяснить действительное положение вещей, можно использовать следующие два метода. Один из них численный и основан на теореме 3.2.1. Пусть детерминированный конечный автомат со словарем, включающим слова
вероятности правил
с вероятностями
задается интересным выражением
с матрицами
и векторами
и
Перечисляя все грамматически правильные предложения в некотором порядке,
каждая из которых положительна. Когда это выполняется численно, мы сталкиваемся с трудностью, связанной с тем, что большое число цепочек окажется грамматически недопустимыми. Они, следовательно, будут иметь нулевую вероятность и не внесут вклада в ранговую функцию (см. ниже). Это означает, что мы должны перебрать очень большое число цепочек и оценить их вероятности, пока не получим достаточное число правильных предложений. Чтобы избежать этого, применим аналитический подход. Видимо, для такой цели можно было бы использовать выражение (3.2.18), однако оно кажется менее обещающим, когда выясняется, что матрицы
Эта функция является невозрастающей, ступенчатой и неограниченной, так как мы исключили тривиальный случай, когда число правильных предложений конечно. Ранговая функция является удобным средством при изучении поставленного вопроса, и мы сначала приведем некоторые предварительные результаты, с которыми можно ознакомиться более подробно в работе Бушара (1967). Теорема 3.2.2. Ранговая функция
б) среднее значение формального типового отношения
в) нормализованное отношение Доказательство, а) Ранговая функция неотрицательна и интегрирование по частям дает
б) Имеем
Так как интегрируема, то из сходимости мажоранты последнего выражения следует, что
По виду второй суммы в (3.2.26) также ясно, что
где
Но ковариации не могут быть положительными, поскольку при
Следовательно, так что Ранговая функция имеет некоторые свойства плотности. Интересно посмотреть, чему равно среднее этой плотности. Мы имеем
так что среднее пропорционально коэффициенту повторения Юла. В качестве иллюстрации рассмотрим формальное типовое отношение для закона Зипфа
так что,
и
со степенным законом убывания и показателем степени Вместо того чтобы ограничиться иллюстрацией этой задачи лишь примерами, мы предпочтем систематический подход, разработав аналитический метод, который, видимо, является мощным средством при рассмотрении вопросов такого рода. Правильные предложения, порожденные грамматикой конечного автомата, могут быть также получены детерминированным конечным автоматом с начальным состоянием, отвечающим, например, переменной 1, и конечным состоянием, соответствующим терминальным правилам вывода. Нас интересует поведение ранговой функции
Видимо, еще никто не замечал, что эта функция и ее преобразование Лапласа являются естественными средствами для изучения стилистических признаков стохастически порожденных языков, соответствующих синтаксически управляемой модели. На простейшем уровне стиль характеризуется вероятностями правил Более сложный тип стиля описывается вероятностями правил Конкретной стилистической величиной, изучаемой нами в данной работе, является гибкость, связанная с ранговой функцией при малых значениях аргументов. Она указывает на широту использования языка. Если Рассмотрим переменную
Обозначим через Обозначим через Рассматривая правила в (3.2.35), заметим, что цепочки в 2,- составлены из цепочек
поскольку благодаря свойству детерминированности системы никакого объединения вероятностей не происходит. Если одно из состояний в правой части (3.2.35) совпадает с начальным состоянием 1, то мы получаем дополнительный член для (3.2.36):
так как мы всегда отправляемся от состояния 1. Значением Выразим эту систему уравнений через логарифмические ранговые функции, так что при всех действительных у
с отрицательными константами, Необходимо найти (верхние) границы для (функций)
Следовательно, ранговые функции имеют оценки
так что
В связи с тем что
Мы будем рассматривать только такие значения
или, если начальное состояние входит в правую часть (3.2.35), включается дополнительный член
Поэтому при фиксированном которых служат экспоненциальные функции Общим элементом матрицы
если пары
Рис. 3.2.3. Абсолютная величина определителя Теорема 3.2.3. Синтаксически управляемая вероятностная модель для грамматики конечного автомата порождает диффузный язык, логарифмические ранговые функции которого обладают преобразованиями Лапласа вида
где Чтобы изучить возможные типы поведения, необходимо выразить Рассмотрим сначала машину с двумя словами а и
где
так что
Поведение при
так что по стандартной теореме Таубера (см. Феллер (1957), том 2, гл. 8)
и ранговая функция
По сравнению с поведением по закону Ципфа Чтобы показать, что это не всегда так, мы выберем случай, когда диаграмма переходов автомата имеет совершенно другую топологию. Рассмотрим схему соединений каскадного вида, приведенную на рис. 3.2.3,б. Словарь состоит из двух слов Преобразование Лапласа логарифмических ранговых функций должно удовлетворить соотношениям
где все вероятности переходов предполагаются равными 1/2. Следовательно,
и окончательно
Поведение
где
Для
Это означает, что
и
причем, выбирая
|
1 |
Оглавление
|