Глава 4. Динамическое программирование и марковские процессы

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Глава 4. Динамическое программирование и марковские процессы

4.1. Введение

В предыдущих главах рассматривались марковские процессы принятия решений с бесконечным временем планирования. Теперь мы займемся марковскими процессами принятия решений с конечным временем планирования.

При анализе таких процессов оказывается полезным метод динамического программирования.

4.2. Динамическое программирование

Определим понятие стратегии, используя те же обозначения, что и в предыдущих главах. Стратегией назовем последовательность элементов множества где вектор решений, принимаемых за шагов до окончания времени планирования, элемент вектора является решением, принимаемым в состоянии При выбранной стратегии -мерный вектор суммарных средних доходов за шагов процесса имеет вид

координата вектора есть суммарный средний доход за шагов при стратегии и начальном состоянии

Из (4.1) получаем следующее рекуррентное соотношение:

Определение 4.1. Стратегия называется оптимальной, если для любой стратегии а и любого выполняется неравенство

Для нахождения оптимальной стратегии воспользуемся принципом оптимальности и методом динамического программирования.

Принцип оптимальности. Пусть при любом начальном состоянии и принятом в нем решении процесс перешел в некоторое новое состояние. Тогда если исходная стратегия была оптимальной, то и ее оставшаяся часть тоже оптимальна для процесса, начинающегося из нового состояния.

Принцип оптимальности был впервые сформулирован Беллманом [7]. Используя этот принцип, получаем рекуррентное соотношение

справедливое для всех и любого где

для всех Соотношения (4.3), (4.4) позволяют находить оптимальную стратегию. В разделе 4.3 будет приведен иллюстрирующий пример.

Отметим, что метод динамического программирования применим и в случае, когда величины и зависят от при этом рекуррентные соотношения (4.3) и (4.4) остаются справедливыми.

Итак, мы рассмотрели задачу нахождения оптимальной стратегии для случая конечного времени планирования. Займемся теперь изучением оптимальных стратегий для процессов с бесконечным временем планирования. Предположим, что величины и не зависят от Воспользуемся снова оператором переводящим -мерный вектор X в вектор той же размерности. Для любой стратегии и любого -мерного вектора определим

Вектор можно интерпретировать как вектор суммарных средних доходов, получаемых за шагов,

при условии, что в момент окончания последнего перехода выплачивается сумма, равная компоненте вектора X, если при этом процесс попадает в состояние . В частности, получаем, что