Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
3.4. Алгоритм линейного программированияНашей задачей является нахождение стратегии, максимизирующей стационарный средний доход за единицу времени. В силу теоремы 2.1 ограничимся рассмотрением стационарных стратегий и будем писать Из соотношения (2.12) для любой
что представляет собой стационарный средний доход за единицу времени при начальном распределении а, где
Удобно расширить понятие решения и рассмотреть рандомизированные стратегии. Пусть вероятность того, что в состоянии
Полагая
где
и используя равенство
и
где — символ Кронекера. Из (1.3), (3.45) и (3.46) с очевидностью следует, что
Знак величины Таким образом, имеем следующую задачу линейного программирования:
при ограничениях
При фиксированной стратегии
где Следующие две леммы полезны для устранения избыточных ограничений в (3.53) и (3.55). При обсуждении этих лемм, а также леммы 3.8, ограничимся лишь нерандомизированными стратегиями, поскольку мы не умеем классифицировать состояния для рандомизированных стратегий. Тогда необходимость суммирования по Лемма 3.6. Для любого
Доказательство. Используя пункт
откуда следует (3.57). Лемма 3.7. Для любого эргодического множества Доказательство. Доказательство следует с очевидностью из свойства марковских цепей и того факта, что Леммы 3.6 и 3.7 дают необходимые ограничения для любого эргодического множества. Лемма 3.8. Для любых
где
Доказательство. Из равенства
что соответствует (3.58). Далее, из соотношений
и (3.47) имеем
Так как у обращается в нуль для любого эргодического состояния у, то в силу (3.59) можно считать, что переменными будут
при ограничениях
где Двойственные переменные и
где в силу (2.7) одно из значений Таким образом, алгоритм линейного программирования для общих марковских процессов принятия решений строится с помощью лемм
или
Тогда получаем следующий алгоритм линейного программирования, который приводится без обоснования. Выбрать произвольное Найти допустимое базисное решение, которое соответствует стратегии Если В противном случае выбрать новую стратегию В данном алгоритме линейного программирования ведущие операции выполняются одновременно над многими переменными, если существуют два или более состояний таких, что Теорема 3.6. Итерационный алгоритм нахождения стратегий эквивалентен алгоритму линейного программирования. Доказательство. Нужно найти допустимое базисное решение (т. е. двойственные переменные), которое соответствует процедуре определения весов. Тогда симплексный критерий следующего шага соответствует процедуре улучшения решения. Но в итерационном алгоритме ведущие операции выполняются одновременно над многими переменными. Следующая теорема очевидна, если рассмотреть итерационный алгоритм нахождения стратегий. Теорема 3.7. Оптимальная стратегия не зависит от начального распределения а. Из приведенного выше обсуждения следует, что итерационный алгоритм для процесса с одним эргодическим классом может также применяться в случаях 2 и 3 из раздела 3.1, т. е. если рассматриваемый процесс имеет единственное эргодическое множество и несколько невозвратных состояний, при этом следует положить Таблица 3.1 (см. скан) Данные для примера с несколькими классами Проиллюстрируем алгоритм линейного программирования и итерационный алгоритм на примере, предложенном Ховардом [63]. Данные для задачи сведены в табл. 3.1. Пусть
Прямая и двойственная задачи заданы в виде следующей таблицы (редуцированной диаграммы Таккера), где даны лишь данные, относящиеся к допустимому базисному решению. Верхние индексы для выбранных стратегий опущены.
Двойственные переменные
Используя симплексный критерий (или, что то же, процедуру улучшения решения), находим улучшенную стратегию
Тогда
Двойственные переменные
Используя симплексный критерий, находим, что Ссылки и комментарии Итерационный алгоритм нахождения стратегий для общего марковского процесса принятия решений (с несколькими эргодическими классами) впервые был предложен Ховардом [63]. Блекуэлл [14] рассмотрел эту задачу строго и указал на существование
|
1 |
Оглавление
|