5.1.2.3. Алгоритм «многорукого бандита»

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

5.1.2.3. Алгоритм «многорукого бандита»

Известная задача о «двуруком бандите» [256, 263] может быть интерпретирована как задача о двуальтернативной адаптации. Для простоты рассмотрим сначала этот случай

Будем сочетать две тактики поведения, рассмотренные выше. При сохраним удачную альтернативу, т. е. будем действовать в соответствии с линейной тактикой (рис. 5.1.3, а), а при сохраним первую альтернативу с вероятностью а вторую — с вероятностью и перейдем к другой альтернативе с дополняющими вероятностями (рис. 5.1.3, б).

Рис. 5.1.3. Граф алгоритма двуальтернативного выбора: а — при , б — при

Задача заключается в определении и изменении вероятности в процессе адаптации. Очевидно, что при вероятность должна возрастать, а при — уменьшаться.

Для оценки введем функцию риска [250—253]. В общем случае ее логично записать в виде

Здесь — вероятность того, что альтернатива является наилучшей, т. е.

где — оптимальная альтернатива; — вероятность использования альтернативы алгоритмом адаптации, а — ущерб, испытываемый при использовании; альтернативы, если она неоптимальна.

Задача синтеза оптимальной стратегии поведения сводится к решению задачи минимизации

где Отсюда вытекает, что при оптимальная

стратегия имеет вид (5.1.26), т. е.

Таким образом, оптимальной является рандомизированная стратегия, которая получается путем оценивания вероятностей (5.1.26). Проведем оценивание для

Естественно предположить, что

где — средние значения показателя качества для каждой альтернативы соответственно, а — реализация независимых случайных величин с нулевым математическим ожиданием и дисперсией а, априори неизвестной. Будем считать, что распределение этих случайных величин нормальное. Тогда вероятность того, что альтернатива лучше

где Ф — функция Лапласа, а «крышечкой» обозначены оценки, которые определяются рекуррентно на каждом шаге адаптации:

Оценки

дисперсий:

Здесь параметр сглаживания выбирается исходя из сведений об уровне нестационарности объекта адаптации. Если объект стационарен, то оптимальное значение параметра . В нестационарном случае и значение его тем больше, чем больше нестационарность.

Легко видеть, что в стационарном случае

При этом при при т. е. в пределе выбирается оптимальная альтернатива.

В многоальтернативном случае при реализуется линейная тактика, т. е. матрица переходов единичная:

При штрафе стохастическая матрица переходов

имеет элементы диагональные:

из (4.1.26) и недиагональные:

где нормирующий множитель:

Отсюда видно, что при штрафе альтернатива сохраняется с вероятностью, равной оценке вероятности, что эта альтернатива оптимальна, и изменяется на вероятностью, пропорциональной вероятности того, что альтернатива лучше Оценки вероятностей производятся подобно (5.1.30) с использованием оценок, аналогичных (5.1.31) — (5.1.34).

Анализ показывает, что изложенный алгоритм адаптации позволяет находить оптимальную альтернативу и перестраиваться на другую, еще более эффективную, в случае изменения оптимальной альтернативы.

<< Предыдущий параграф

Следующий параграф >>

Оглавление