Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
5.5. Полумарковские процессы принятия решений без переоценкиПерейдем теперь к изучению полумарковских процессов принятия решений без переоценки. В качестве критерия рассмотрим следующую функцию:
где Найдем стратегию, максимизирующую (5.88), т. е. оптимальную стратегию я, для которой Теорема 5.4. Существует стационарная оптимальная стратегия. Доказательство. В силу теоремы 5.1 существует стационарная Из (5.47) следует, что
для любой стационарной стратегии Применяя теорему Абеля и тауберову теорему
откуда следует, что В силу теоремы 5.4 можно искать оптимальные стратегии в классе стационарных, если в качестве критерия выбран средний доход в единицу времени. А тогда для нахождения дохода можно воспользоваться результатами раздела 5.3. Сформулируем задачу линейного программирования применительно к процессу с одним эргодическим классом и к процессу с поглощением. Рассмотрим вначале процесс с одним эргодическим классом. В этом случае стационарный средний доход за единицу времени имеет вид
где
где
Пусть
Целевая функция с учетом величин
Представим соотношения
Полагая
и используя тот факт, что
на основании соотношений (5.97)-(5.101), получаем следующую задачу математического программирования:
при ограничениях
Это так называемая задача дробно-линейного программирования (см., например, [21]), которую заменой переменных можно свести к задаче линейного программирования. Замечая, что
и
Тогда получаем следующую задачу линейного программирования:
при ограничениях
где дополнительное ограничение (5.111) получается простым преобразованием (5.106). Остановимся теперь на некоторых свойствах задачи (5.108) — (5.112). Теорема 5.5. У задачи (5.108)-(5.112) существует допустимое базисное решение, обладающее тем свойством, что для каждого найдется в точности одно Доказательство аналогично доказательству теоремы 2.3 и потому не приводится. Из теоремы 5.5 следует, что Теорема 5.6. Задача нахождения оптимального решения для рассматриваемого полумарковского процесса принятия решений эквивалентна следующей задаче линейного программирования:
при ограничениях
Доказательство. Как уже отмечалось, стационарная оптимальная стратегия и связанный с ней максимальный средний доход за единицу времени
не зависящими от у. В теореме 5.6 сформулирована задача линейного программирования (5.113)-(5.116), имеющая переменных и N ограничений (если не считать опущенного в (5.114) избыточного ограничения при Введем двойственные переменные
при ограничениях
Отметим, что в Итерационный алгоритм нахождения стратегий для рассматриваемой задачи можно непосредственно получить из построений раздела 2.5. Отметим, что двойственные переменные Таблица 5.2 (см. скан) Диаграмма Таккера для полумарковского процесса принятия решений с одним эргодическим классом Из свойств линейных программ получаем для любых базисных переменных следующую систему равенств:
где звездочкой отмечается произвольное допустимое базисное решение (или, другими словами, произвольная стационарная стратегия). Если
для некоторых и относительно
порождающее процедуру улучшения решения. Таким образом, приходим к следующему итерационному алгоритму нахождения стратегий. Процедура определения весов. Выбирая любую стационарную стратегию решить уравнения
относительно Процедура улучшения решения. Используя полученные значения
Если множество Остается только показать, что процедура улучшения решения приводит к улучшенной стратегии (в смысле стационарного среднего дохода). Теорема 5.7. Пусть Доказательство. Для двух произвольных стратегий
где через
Определим
где Определим величины
Объединяя (5.126) и (5.127), получаем после несложных преобразований
Пусть Умножая обе части (5.128) на
которое положительно, так как финальная вероятность состояния
при всех а
Из теоремы 5.7 следует, что итерационный алгоритм приводит к оптимальной стационарной стратегии за конечное число итераций. Заметим, что если существуют две или более стратегий, удовлетворяющие уравнению оптимальности
то каждая из этих стратегий оптимальна и приносит одинаковый средний доход Тогда возникает задача отыскания оптимальной стратегии, максимизирующей члены Рассмотрим процесс с поглощением. Будем считать состояние 1 поглощающим. Предположение о поглощении. Поглощающее состояние может быть достигнуто с вероятностью 1 из любого состояния при любом принимаемом решении. При начальном распределении а суммарный средний доход, полученный к моменту поглощения, имеет вид
Найдем стратегию, максимизирующую этот дощд, Аналогичная задача уже рассматривалась при изучении модели с переоценкой, поэтому ограничимся только формулировкой соответствующей задачи линейного программирования
при ограничениях
Следующая теорема очевидна. Теорема 5.8. Если все Из сформулированной выше задачи линейного программирования и теоремы 5.8 немедленно вытекает итерационный алгоритм нахождения стратегии. Ссылки и комментарии Изложение теории полумарковских процессов или процессов марковского восстановления можно найти у Смита [107], Пайка [97], [98], Барлоу и Прошана [5], а также в обзорных статьях Цинлара [147], Королюка, Броди и Турбина [129] и в монографии Королюка и Турбина [130]. Теория восстановления излагается в работах Кокса [24] и Смита [108]. Полумарковские процессы принятия решений или управляемые процессы марковского восстановления были впервые рассмотрены Джевеллом [65], [66]. Итерационные алгоритмы нахождения стратегий для таких процессов изучались также Ховардом [64] и Де Кани [26]. Оптимальность стационарных стратегий была доказана Денардо [31] для модели с переоценкой и Фоксом [59] для модели без переоценки. Позднее Фокс доказал оптимальность стационарных стратегий для модели без переоценки при слабых ограничениях. Ховард [64], Фокс [59], Де Хелинк и Эпан [28], а также Осаки и Майн [94] сформулировали задачи линейного программирования применительно к таким процессам. Обобщенные полумарковские процессы изучали Денардо и Фокс [33]. Процесс принятия решений для марковской цепи с непрерывным временем был впервые рассмотрен Ховардом [63]. Рыков [103] доказал оптимальность стационарных стратегий для таких процессов с переоценкой. Эта модель в настоящей главе не обсуждалась. Более сильные результаты были получены Миллером [89], [90] для процессов с конечным и бесконечным временем планирования. Для процессов принятия решений применительно к периодическим цепям Маркова с непрерывным временем Мартин-Лефом доказано существование оптимальной (в смысле суммарного среднего дохода) периодической стратегии. Задачу нахождения оптимальных стратегий для полумарковских процессов среди класса немарковских стратегий исследовал Читгопекер [148].
|
1 |
Оглавление
|