Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
Глава 4. Динамическое программирование и марковские процессы4.1. ВведениеВ предыдущих главах рассматривались марковские процессы принятия решений с бесконечным временем планирования. Теперь мы займемся марковскими процессами принятия решений с конечным временем планирования. При анализе таких процессов оказывается полезным метод динамического программирования. 4.2. Динамическое программированиеОпределим понятие стратегии, используя те же обозначения, что и в предыдущих главах. Стратегией
Из (4.1) получаем следующее рекуррентное соотношение:
Определение 4.1. Стратегия Для нахождения оптимальной стратегии воспользуемся принципом оптимальности и методом динамического программирования. Принцип оптимальности. Пусть при любом начальном состоянии и принятом в нем решении процесс перешел в некоторое новое состояние. Тогда если исходная стратегия была оптимальной, то и ее оставшаяся часть тоже оптимальна для процесса, начинающегося из нового состояния. Принцип оптимальности был впервые сформулирован Беллманом [7]. Используя этот принцип, получаем рекуррентное соотношение
справедливое для всех
для всех Отметим, что метод динамического программирования применим и в случае, когда величины Итак, мы рассмотрели задачу нахождения оптимальной стратегии для случая конечного времени планирования. Займемся теперь изучением оптимальных стратегий для процессов с бесконечным временем планирования. Предположим, что величины
Вектор при условии, что в момент окончания последнего перехода выплачивается сумма, равная Определение 4.2. Стратегия Из приведенного определения следует, что стратегия Лемма 4.1. Для любого элемента
где Доказательство. Из теоремы 3.1 имеем
где Определим оператор Лемма 4.2. Имеет место следующее равенство:
Доказательство. Из определения
Лемма 4.3. Если
либо
Доказательство. Из теоремы 3.2 следует, что если — оптимальная стратегия, то либо
а из теоремы 3.1 получаем, что
и
Таким образом, если
|
1 |
Оглавление
|