Главная > Марковские процессы принятия решений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

2.3. Итерационный алгоритм нахождения стратегий

Здесь будет приведен итерационный алгоритм нахождения стратегий для процесса с одним эргодическим классом. Методы данной главы являются частным случаем методов, представленных в гл. 3. Предположение о наличии лишь одного эргодического класса позволяет упростить выкладки.

В этой и следующей главах мы будем рассматривать исключительно стационарные стратегии и обозначать их вместо

Пусть величина представляет собой вектор средних доходов, полученных к моменту Тогда он

удовлетворяет рекуррентному соотношению

где

Лемма 2.4. Если стремится к при т. е. регулярна, то

где

Доказательство.

Полагая

получим (2.24).

Заметим, что если в данной лемме вместо вектора писать то равенство (2.24) остается справедливым и в общем случае, рассматриваемом в гл. 3.

Если достаточно велико, то, подставляя в соотношение (2.22) вместо значение получим

или

Равенство (2.27) определяет с точностью до постоянной, т. е. вектор вида постоянная) также удовлетворяет (2.27). Следовательно, полагая один элемент вектора равным нулю (например, ), можно разрешить (2.27) относительно Это соответствует процедуре определения весов для процесса с одним эргодическим классом.

Далее, определим процедуру улучшения решения. Применим для этого эвристический подход Ховарда [63]. При достаточно больших правая часть (2.22) асимптотически равна

Так как , то вектор (2.28) равен

Член в этом уравнении не зависит от новой улучшенной стратегии. Следовательно, можно максимизировать оставшуюся сумму

по всевозможным решениям, принимаемым в каждом состоянии, используя известные значения Строгое рассмотрение процедуры улучшения решения будет дано в разделе 2.5.

Если существует стратегия такая, что

то эта стратегия лучше Векторное неравенство (2.31) понимается в смысле определения, данного в разделе 1.2.

Теорема 2.2. Если при некотором выполнено неравенство то где -средний доход за единицу времени при стационарной стратегии

Доказательство. Пусть -мерный вектор такой, что

Для двух стратегий имеем

Вычитая (2.33) и (2.32) и полагая

получим

Умножая обе части этого равенства слева на предельный вектор получим

поскольку положительна при всех в силу предположения об одном эргодическом классе. Таким образом, мы нашли улучшенную стратегию

Представим итерационный алгоритм нахождения стратегий для процесса с одним эргодическим классом в следующем виде.

Процедура определения весов. Возьмем любую стационарную стратегию Решим уравнения

относительно (полагая где верхний индекс определяется выбранной стратегией ).

Процедура улучшения решения. Используя найденные значения для каждого выберем такой элемент множества что

при всех Если пусто при всех то оптимальна, а величина равна среднему доходу за единицу времени, величины же являются величинами относительного смещения. Если хотя бы при одном множество непусто, то улучшенная стратегия строится так: если непусто, если пусто. После этого следует обратиться к процедуре определения весов.

Если в процедуре улучшения решения существуют два или более решений из множества при некотором то можно выбрать улучшенную стратегию из условия максимизации:

О причинах такого выбора будет сказано в разделе 2.5.

1
Оглавление
email@scask.ru