Главная > Марковские процессы принятия решений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

1.4. Взаимоотношение между двумя алгоритмами

Ранее, в разделе 1.2, был приведен итерационный алгоритм нахождения стратегий. В разделе 1.3 рассматриваемая задача была сформулирована как задача линейного программирования. Здесь будет показано, что указанные два алгоритма эквивалентны.

Перепишем прямую задачу линейного программирования

при ограничениях

Двойственная задача к (1.20) — (1.22) имеет вид

при ограничениях

Двойственная задача может быть выведена следующим образом. Для оптимальной стационарной стратегии имеем

при всех Расписывая (1.26) поэлементно, получим ограничения (1.24). Целевой функцией является суммарный средний доход с учетом переоценки при начальном распределении а:

откуда и следует двойственная задача. В табл. 1.1 прямая и двойственная задачи записаны в виде диаграммы Таккера.

Рассмотрим решение прямой задачи. Поскольку ее ограничения состоят из равенств, то для нахождения базисного допустимого решения следует применять двухфазный метод или составные алгоритмы. Но в силу следствия теоремы 1.6 для каждого существует в точности одно такое, что и для остальных Таким образом, можно получить базисное опорное решение, минуя фазу Для получения начального базисного допустимого решения используем при каждом обычный симплексный критерий. Например, можно положить

или

что соответствует начальной стратегии, рассмотренной в разделе 1.2. В данном разделе звездочка отмечает

Таблица 1.1 (см. скан) Диаграмма Танкера для марковского процесса принятия решений с переоценкой

элементы базисного решения. Для любого базисного допустимого решения имеем базисную матрицу

где -вероятность перехода, соответствующая базисному решению. Добавляя вектор-строку, состоящую из коэффициентов целевой функции, получим модифицированную базисную матрицу

где в качестве первого столбца взят -мерный вектор с первым элементом, равным единице. Выше было доказано, (теорема 1.4)), что В невырождена. Следовательно, невырожденной является и В, Пусть обратная матрица к В. Имеем

Поскольку (единичная матрица), то

или

где индекс означает транспонирование матрицы. Из (1.32) следует, что является вектором симплекс-множителей для прямой задачи и вектором двойственных переменных. Таким образом,

Расписывая (1.34), получим

что соответствует процедуре определения весов в итерационном алгоритме, рассмотренном в разделе 1.2. Другими словами, решение системы из линейных уравнений (1.35) эквивалентно нахождению симплекс-множителей (и также двойственных переменных) для прямой задачи (этот вывод непосредственно следует из принципа дополнительной нежесткости).

Рассмотрим далее симплексный критерий для следующего шага, используя найденные симплекс-множители. Пусть симплекс-множитель для целевой функции равен 1, и запишем

Коэффициенты соответствующей задачи линейного программирования могут быть записаны в виде

Симплексный критерий на следующем шаге имеет вид:

Для базисных переменных

Если для всех

или согласно (1.38) для всех

то это означает, что оптимальное решение найдено.

Если существует по крайней мере одна пара такая, что

или, учитывая (2.38),

то существует улучшенная стратегия, которая соответствует стратегии, получаемой в процедуре улучшения решения в итерационном алгоритме.

Следовательно, итерационный алгоритм нахождения стратегий является лишь специальным случаем алгоритма линейного программирования, обладающего тем свойством, что его ведущие операции выполняются одновременно над многими (не более чем переменными. В разделе 1.2 было уже показано, что эти подстановки для многих переменных приводят к улучшенной стратегии. Но даже, если есть только одна пара удовлетворяющая (1.41), то придется решать систему из линейных уравнений (1.35), что является недостатком метода. Подобные вопросы, возникающие при нахождении оптимальной стратегии, будут обсуждаться далее в гл. 2.

1
Оглавление
email@scask.ru