Пред.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
1.2. Итерационный алгоритм нахождения стратегийНиже мы приведем итерационный алгоритм нахождения стратегий для марковских процессов принятия решений с переоценкой, который был впервые предложен Ховардом [63] и поэтому иногда называется итерационным алгоритмом Ховарда. Он тесно связан с линейным программированием, и эта связь будет позднее обсуждена. Материал этого параграфа является основой для рассмотрения общих процессов принятия решений в гл. 7. Пусть
Стратегия Стационарная стратегия
обозначается При любой стратегии
где
Чтобы показать ограниченность этого вектора, положим
где Справедливы следующие равенства:
где Определим векторные неравенства следующим образом. Для любых векторов Определение 1.1. Стратегия Это определение означает, что оптимальная стратегия оптимальна одновременно для всех начальных состояний — факт, не являющийся тривиальным, как будет показано далее. Из определения следует, что Лемма 1.1. Оператор Доказательство. Пусть Отсюда получаем следующие теоремы. Теорема 1.1. Если Доказательство. По предположению теоремы при всех Неоднократное применение этого соотношения приводит к неравенству
справедливому при всех Доказательство. По предположению Следующая теорема является основной. Теорема 1.3. Пусть
где 1) Если 2) Если и б)
Доказательство, Следствие. Существует стационарная Доказательство. По теореме 1.3 любая стационарная стратегия Доказанные теоремы содержат описание метода нахождения оптимальной стационарной стратегии. Этот метод, называемый итерационным алгоритмом Ховарда, состоит из следующих двух процедур. Процедура определения весов. Выбирая произвольную политику
относительно Процедура улучшения решения. Используя найденные значения найдем при каждом
Если множества В качестве начальной стратегии можно взять, например, такую, в которой В разделе 1.6 будут даны численные примеры применения итерационного алгоритма.
|
1 |
Оглавление
|