Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
9.4. Усвоение правил игрыУотерман исследовал игры в покер для двух игроков при решении вопроса о ставках. Игрок может удвоить ставку, попросить открыть карты противника, уравняв ставки, или сдаться. После открытия карт выигрыш переходит к игроку с более сильной картой и в это же время можно увидеть, существовала ли возможность выиграть больше или проиграть меньше. Такую информацию будет использовать программа для последующих модификаций своих действий. Процесс замены карт осуществляется здесь с помощью алгоритма, который максимально повышает надежду на индивидуальный выигрыш каждого игрока независимо от противника. Общая идея заключается в том, чтобы описать игру с помощью характеристического вектора и решений, принимаемых по совокупности правил продукций, отделенных от программы и по желанию изменяемых. Покер является игрой с неполной информацией, которая требует оценки как карт, так и стиля нгры противника. Ситуации здесь менее четко определены, чем в шашках, и можно продемонстрировать всю полезность правил продукций по сравнению с таблицами сигнатур. Минимаксная процедура в действительности не может играть обычную защитную роль: каждый ход является единственным и никогда больше не встречается в партии. Вектор описания игры (дескриптивный вектор) обычно содержит шесть компонент: — значение очков, определяющее достоинство данного сочетания карт — количество денег в банке — предыдущая ставка противника — число карт, замененных противником — вероятность возможного блефа противника — стиль игры противника: более или менее консервативный (СА). С другой стороны, программой вычисляются по совокупности партий с данным противником статистические характеристики: зависимость между ставками и действительным достоинством карт, число замеченных блефов, число решений сдаться. Правила продукций имеют вид
Они являются упорядоченными: правило Так, следующее правило (задаваемое учителем): “Игрок с надежно выигрышной комбинацией карт на руках должен максимально поднимать ставки, стараясь не рисковать заставить противника сдаться. Однако, если банк уже очень большой, следует попросить открыться” будет переведено для программы в следующей форме:
(Звездочка означает, что соответствующий параметр не является существенным.) Значение параметра Предполагается, что следующая информация дается учителем после каждого хода: — текущий вектор подходящих параметров; — хорошее решение; — причина этого решения. Рассмотрим три случая: 1) Программой принято хорошее решение по хорошим правилам, и в этом случае ничего не меняется. 2) Ни один из членов, стоящих справа, не соответствует хорошему решению, и применялось 3) Перед применяемым правилом Пример. Рассмотрим правила
вместе с ограничениями, налагаемыми по определению: Усваивается, следовательно, правило:
Программа ищет по порядку правило, которое могло бы привести к такому действию. Таким кандидатом могло бы быть Правило
Полностью процесс обучения представлен на рис. 9.7. В приведенной процедуре возможны две опасные ситуации. Первая связана со сверхограничениями правил и возникает при излишне пунктуальном учителе. Число правил возрастает до бесконечности, и каждое может быть применено только к одному случаю. Чтобы избежать этого, число правил ограничивают некоторым произвольным образом и последнее из них с вектором Ввод вектора ситуации и хорошего решения Отработка правил (см. скан) Рис. 9.7. Процедура обучения правилам игры в покер. Это, впрочем, то единственное правило, с которого начинается здесь всякое обучение. Вторая ситуация связана с избыточностью: правило Такая избыточность периодически проверяется и устраняется системой. (Указанный процесс осуществляется не в конце турнира, а после каждой партии, так как правила могут изменяться быстро.) Пример. Рассмотрим правила
при ограничениях
Правило Заметим, что теперь все находится на своих местах и можно усваивать знания без учителя: каждый раз, когда открываются карты противника и программа проиграла партию, она сама трансформирует последнее правило в диалоге на правило сдачи. Наоборот, если она ныиграла, то поднимает ставки последнего хода. Таким образом, в конце концов Уотерман придумал пять разных программ для игры в покер. Они играют: а) случайным образом; б) используя учителя; в) обучаясь автономно; г) используя правила, предоставленные хорошим игроком; д) с полным обучением без задания характеристик вектора ситуации. Число правил никогда не превышает 30 и соответствие с игрой экспертов (после обучения) достигает Программы тестировались с помощью случайного набора из 25 комбинаций карт в игре против людей. Затем через некоторое время роли сторон менялись. Программы легко выигрывали у игроков среднего класса и вели игру почти на равных с экспертами. Замечания. Программы Уотермана имеют два недостатка. Во-первых, как и в программах Сэмюэля, обучение происходит на числовых параметрах. Определяющие символические элементы задаются априори. Во-вторых, неизменяемый порядок правил усложняет работу программы и вызывает непредсказуемые швления: игра с упорядоченными правилами в действительности подобна некоторой процедуре и всякое изменение вызывает неконтролируемые граничные эффекты. Правила продукций теряют свои преимущества (гл. 7). Итак, существенные моменты усвоения знаний следующие: прежде всего необходимо определить понятия. Затем нужно уметь делать выводы (обычно по одному единственному случаю) об определяющих характеристиках ситуации. Именно так в действительности поступает человек: никому не нужно дважды объяснять, что не следует совать руку в огонь. Рассмотрим программу игры в шахматы, которая старается, исходя из одного единственного примера, понять и обобщить.
|
1 |
Оглавление
|