7.1.2. Объединение бейесовских процедур с перечислением
 
Лингвистическое перечисление приводит к выбору наилучшей пробной грамматики для заданной выборки. Статистический подход к грамматическому выводу приписывал бы каждому кандидату в грамматику вероятность быть „правильной" грамматикой. Эти два подхода были объединены Хорнингом (1969); упоминались они и в работах Ханта (1965) и Ватанабе (1960). 
Понятие грамматики надо модифицировать так, чтобы учесть „вероятность появления предложения". Пусть  — порождающая
 — порождающая  
 
Введенное выше определение согласованности пригодно для стохастических грамматик, поскольку две стохастические грамматики, порождающие один и тот же язык, могут отличаться вероятностями появления отдельных предложений. 
Стохастическая согласованность 
Две грамматики  называются стохастически согласованными, если они согласованы и
 называются стохастически согласованными, если они согласованы и  для всех
 для всех  
 
Вспомним выдумку об экспериментаторе, выбирающем грамматику  и использующем ее для порождения предложений выборки, которая должна определять
 и использующем ее для порождения предложений выборки, которая должна определять  Предположим, что существует вероятность
 Предположим, что существует вероятность  выбора любой конкретной грамматики
 выбора любой конкретной грамматики  для использования ее в качестве
 для использования ее в качестве  Предположим далее, что обучающийся (или машина вывода) может вычислить
 Предположим далее, что обучающийся (или машина вывода) может вычислить  Вероятность
 Вероятность  будет называться априорной вероятностью выбора
 будет называться априорной вероятностью выбора  Если обучающийся применяет для вывода
 Если обучающийся применяет для вывода  по
 по  бейесовскую процедуру, то апостериорные вероятности будут приписываться в соответствии с правилом
 бейесовскую процедуру, то апостериорные вероятности будут приписываться в соответствии с правилом 
 
 
Вычислить (21) трудно, поскольку суммирование надо провести по бесконечному множеству  правда, не все его элементы различны. „Наиболее очевидный" способ обойти эту трудность заключается в ограничении вычислений множеством
 правда, не все его элементы различны. „Наиболее очевидный" способ обойти эту трудность заключается в ограничении вычислений множеством  грамматик, априорные вероятности
 грамматик, априорные вероятности  которых превышают некоторое произвольно малое число е. К сожалению, это решение имеет недостаток. Если ограничиться лишь каким-то подмножеством
 которых превышают некоторое произвольно малое число е. К сожалению, это решение имеет недостаток. Если ограничиться лишь каким-то подмножеством  множества
 множества  возможных грамматик, то с некоторой произвольно малой вероятностью
 возможных грамматик, то с некоторой произвольно малой вероятностью  может оказаться вне рассматриваемого множества, т. е. будет принадлежать
 может оказаться вне рассматриваемого множества, т. е. будет принадлежать  Можно, однако, решить исходную проблему с помощью минимизации функции несовместности. Допустим, множество
 Можно, однако, решить исходную проблему с помощью минимизации функции несовместности. Допустим, множество  упорядочено по возрастанию априорных вероятностей его грамматик:
 упорядочено по возрастанию априорных вероятностей его грамматик:  где
 где  означает, что
 означает, что  То же упорядочение даст оккамовское перечисление, в котором используется функция внутренней сложности
 То же упорядочение даст оккамовское перечисление, в котором используется функция внутренней сложности 
 
 
функцию сложности вывода можно выбрать так, чтобы она отражала вероятность появления выборки: 
 
Бейесовское решающее устройство, которому на каждом этапе процесса вывода приходится выбирать единственную грамматику, должно выбрать такую, чтобы величина 
 
была максимальной. Это эквивалентно минимизации функции несовместности 
 
где  определяются формулами (22) и (23). Отсюда видно, что существует процедура перечисления, минимизирующая на каждом шаге процесса предъявления функцию несовместности и выбирающая ту же грамматику, что и бейесовская процедура. Мы уже отмечали, что процедура перечисления может выбрать грамматику, минимизирующую функцию несовместности на бесконечном множестве грамматик. Следовательно, это решает (утвердительно) вопрос
 определяются формулами (22) и (23). Отсюда видно, что существует процедура перечисления, минимизирующая на каждом шаге процесса предъявления функцию несовместности и выбирающая ту же грамматику, что и бейесовская процедура. Мы уже отмечали, что процедура перечисления может выбрать грамматику, минимизирующую функцию несовместности на бесконечном множестве грамматик. Следовательно, это решает (утвердительно) вопрос  том, можно ли построить бейесовский алгоритм вывода, который будет находить для каждой выборки бейесовскую оптимальную грамматику, даже если множество возможных грамматик бесконечно. Вот этот алгоритм:
 том, можно ли построить бейесовский алгоритм вывода, который будет находить для каждой выборки бейесовскую оптимальную грамматику, даже если множество возможных грамматик бесконечно. Вот этот алгоритм: 
Бейесовский алгоритм перечисления для стохастического текстуального представления 
1. Пусть  — октмовское перечисление бесконечного множества
 — октмовское перечисление бесконечного множества  использующее функцию внутренней сложности вида (22).
 использующее функцию внутренней сложности вида (22). 
2. При заданной выборке  найти такое наименьшее целое
 найти такое наименьшее целое  что
 что  Подсчитать значение
 Подсчитать значение 
 
3. Найти такое наименьшее целое  что
 что  (Ясно, что
 (Ясно, что 
 
Так как (26) справедливо для любого  то целое число
 то целое число  максимизирующее
 максимизирующее  на
 на  должно лежать в интервале от
 должно лежать в интервале от  до
 до  включительно.)
 включительно.) 
4. Выбрать  из множества
 из множества  пользуясь обычной бейесовской процедурой вывода. Этим определяется
 пользуясь обычной бейесовской процедурой вывода. Этим определяется 
 
бейесовский оптимальный выбор грамматики из  объясняющей
 объясняющей  Добавить
 Добавить  образовав
 образовав  и повторить процесс с шага 2.
 и повторить процесс с шага 2. 
Таким образом, бейесовскую индукцию можно применять для выбора наилучшей грамматики, объясняющей фиксированную выборку. Естественно, что мы также заинтересованы в ограничениях в ходе процесса выбора. Уверены ли мы в том, что правильная грамматика  всегда будет рассмотрена (т. е. в конце концов станет элементом множества
 всегда будет рассмотрена (т. е. в конце концов станет элементом множества  ), и каковы шансы, что она, будучи там, окажется выбранной в качестве оптимальной?
), и каковы шансы, что она, будучи там, окажется выбранной в качестве оптимальной? 
Независимо от положения грамматики  в перечне на некотором этапе ее должны включить в
 в перечне на некотором этапе ее должны включить в  если она еще не там. Пусть
 если она еще не там. Пусть  — первая в перечне грамматика, для которой
 — первая в перечне грамматика, для которой  При стохастическом текстуальном представлении на некотором этапе
 При стохастическом текстуальном представлении на некотором этапе  все предыдущие грамматики в перечне будут исключены из-за их неспособности допускать некоторые предложения из
 все предыдущие грамматики в перечне будут исключены из-за их неспособности допускать некоторые предложения из  На этом этапе
 На этом этапе  станет первой грамматикой в
 станет первой грамматикой в  Если
 Если  то
 то  безусловно, будет в
 безусловно, будет в  Грамматика
 Грамматика  также могла оказаться в
 также могла оказаться в  на этапе
 на этапе  если
 если 
 
В любом случае  Если неравенство (27) не выполняется на этапе
 Если неравенство (27) не выполняется на этапе  то оно будет выполнено на некотором последующем этапе
 то оно будет выполнено на некотором последующем этапе  . В самом деле, если
. В самом деле, если  стохастически не согласуется с
 стохастически не согласуется с  то
 то 
 
Как только грамматика  будет в
 будет в  бейесовская индукция при неограниченном росте
 бейесовская индукция при неограниченном росте  приведет к выбору ее в качестве наиболее вероятной грамматики для объяснения
 приведет к выбору ее в качестве наиболее вероятной грамматики для объяснения  Чтобы в этом убедиться, рассмотрим множество X различных предложений в
 Чтобы в этом убедиться, рассмотрим множество X различных предложений в  безотносительно к числу их появлений.
 безотносительно к числу их появлений.  — частота появления предложения
 — частота появления предложения  — ожидаемое число появлений х в предположении, что для порождения исследуемой выборки используется грамматика
 — ожидаемое число появлений х в предположении, что для порождения исследуемой выборки используется грамматика  Можно показать (Хант, 1965), что если для выбора гипотетической „наилучшей" грамматики из фиксированного множества грамматик применяется бейесовский вывод, что выбранная
 Можно показать (Хант, 1965), что если для выбора гипотетической „наилучшей" грамматики из фиксированного множества грамматик применяется бейесовский вывод, что выбранная  
 
грамматика минимизирует величину 
 
При неограниченном росте  эта функция достигает своего абсолютного минимума (нуля) только на грамматике, для которой
 эта функция достигает своего абсолютного минимума (нуля) только на грамматике, для которой 
 
при всех  Это переформулировка условия стохастического согласования. Таким образом, в пределе алгоритм бейесовского перечисления выберет в полученном перечне первую грамматику, стохастически согласованную с
 Это переформулировка условия стохастического согласования. Таким образом, в пределе алгоритм бейесовского перечисления выберет в полученном перечне первую грамматику, стохастически согласованную с  Этот результат отличается от соответствующего результата для формального лингвистического вывода. С учетом информации о частотах бейесовская процедура может достичь стохастического согласования только при текстуальном представлении, тогда как процедуры формального лингвистического перечисления, основанные на минимизации функции несовместности, не могут при текстуальном представлении даже приблизиться к
 Этот результат отличается от соответствующего результата для формального лингвистического вывода. С учетом информации о частотах бейесовская процедура может достичь стохастического согласования только при текстуальном представлении, тогда как процедуры формального лингвистического перечисления, основанные на минимизации функции несовместности, не могут при текстуальном представлении даже приблизиться к  
 
Тот факт, что в бейесовском выводе используется (и на самом деле требуется) текстуальное представление, а в лингвистическом эффект больше при работе с информаторным представлением, ставит интересный вопрос. Можно ли объединить стохастическое текстуальное представление с эффективным информаторным представлением, опираясь на то, что бейесовская индукция указывает грамматику, которая лучше всех объясняет  а также другие грамматики, дающие разумные альтернативные объяснения? Предположим, например, что бейесовская процедура перечисления показывает, что
 а также другие грамматики, дающие разумные альтернативные объяснения? Предположим, например, что бейесовская процедура перечисления показывает, что  максимизирует апостериорную вероятность выбора, а величина апостериорной вероятности для
 максимизирует апостериорную вероятность выбора, а величина апостериорной вероятности для  почти такая же. Не будет ли разумным в случае информаторного представления выбирать
 почти такая же. Не будет ли разумным в случае информаторного представления выбирать  в качестве цепочки, допускаемой только одной из этих двух грамматик? Как нужно было бы изменить соответствующие алгоритмы вывода и перечисления? Непосредственно этот вопрос не изучался. Интересующийся читатель может посмотреть работы Ханта (1965) и Ватанабе (1960, 1969), имеющие некоторое отношение к рассматриваемому вопросу.
 в качестве цепочки, допускаемой только одной из этих двух грамматик? Как нужно было бы изменить соответствующие алгоритмы вывода и перечисления? Непосредственно этот вопрос не изучался. Интересующийся читатель может посмотреть работы Ханта (1965) и Ватанабе (1960, 1969), имеющие некоторое отношение к рассматриваемому вопросу. 
Довод в пользу осуществления бейесовского вывода с помощью перечисления опирается на нашу способность проводить необходимое оккамовское перечисление в  Разумно предположить, что можно построить машину, порождающую все более сложные грамматики из некоторого класса. Но можно ли построить машину, порождающую все менее и менее вероятные грамматики? Ответ на этот вопрос, по-видимому, лежит в области философии, поскольку он зависит от того, как определить „менее вероятные". Может создаться
 Разумно предположить, что можно построить машину, порождающую все более сложные грамматики из некоторого класса. Но можно ли построить машину, порождающую все менее и менее вероятные грамматики? Ответ на этот вопрос, по-видимому, лежит в области философии, поскольку он зависит от того, как определить „менее вероятные". Может создаться 
 
впечатление, что неформальный довод в пользу перечисления, основанного на вероятности, слабее довода в пользу перечисления, основанного на сложности. 
Можно поставить также вопрос о том, насколько широко применимо понятие стохастической грамматики. В некоторых случаях оно оказывается полезным. Свейн и Фу (1972) использовали для анализа простых рисунков очень похожее понятие — стохастические программированные грамматики. Однако пока не ясно, какую пользу может принести это понятие. Были высказаны серьезные сомнения относительно соответствия стохастического описания естественному языку. Приведем два основных возражения. Одно заключается в том, что понятие вероятностного упорядочения символов принципиально неверно, поскольку при этом не учитывается смысл сказанного. Это собственно философский довод. Другое возражение более прагматическое. Предположим, что мы допускаем, что статистическое описание порождения языка стохастической грамматикой в принципе возможно. Однако практически естественные языки выглядят настолько сложными, что оценить соответствующие параметры не удается, и надо найти какой-нибудь другой вид лингвистических описаний (Миллер и Хомский, 1963). Этот аргумент нисколько не умаляется демонстрацией пригодности перечисления, так как основная идея Миллера и Хомского заключается в том, что сама процедура перечисления слишком громоздка.