Главная > Разное > Марковские процессы принятия решений
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 6. Обобщенные марковские процессы принятия решений

6.1. Введение

Вернемся к моделям с дискретным временем и переоценкой, с коэффициентом переоценки Такие модели рассматривались в гл. 1. Здесь будет дано их обобщение на случай произвольных борелевских множеств состояний и решений.

6.2. Определения и обозначения

Напомним некоторые вероятностные конструкции и введем необходимые обозначения.

На -алгебре борелевских подмножеств полного сепарабельного метрического пространства X зададим вероятностную меру (распределение) Семейство всех таких распределений обозначим Пусть произвольные непустые борелевские множества. Тогда условным распределением на относительно X назовем функцию такую, что при каждом есть распределение на У, а для любого борелевского множества есть бэровская функция, определенная на Множество всех условных распределений на относительно X обозначим Будем обозначать прямое произведение пространств а -множество ограниченных бэровских функций, определенных на Далее, для любых обозначим элемент множества

значение которого в каждой точке задается равенством

Для произвольных обозначим интеграл от функции и по распределению т. е.

Для любых обозначим такое распределение на что для каждого выполняется равенство Обратно, всякое распределение на допускает факторизацию где определяется единственным образом и представляет собой маргинальное распределение первой координаты исходного случайного элемента с распределением определяется неоднозначно и является одним из возможных условных распределений второй координаты относительно первой. (Эти факты можно найти в учебниках по теории вероятностей.)

Распространим теперь введенные выше понятия на случай конечной или счетной последовательности непустых борелевских множеств Если при то является распределением на Далее означает распределение на бесконечном произведении Для любой функции при и любого такого, что

Чтобы избежать дальнейшего усложнения обозначений, которые и без того достаточно громоздкие, позволим себе следующую двусмысленность обозначений: будем обозначать и не только функции, заданные на У, но и функции, заданные на значения которых не зависят от первого аргумента. Например, для любых ; будем отождествлять элементы если

Распределение называется вырожденным, если оно сосредоточено в одной точке условное распределение называется вырожденным, если при каждом распределение является

вырожденным. Другими словами, условное распределение является вырожденным, если существует бэровская функция отображающая такая, что при всех . В этом случае будем отождествлять с соответствующим распределением для любой функции и всех

Назовем обобщенным марковским процессом принятия решений с переоценкой пятерку где пространство состояний и пространство решений А — непустые борелевские множества некоторого полного сепарабельного метрического пространства,

Решения принимаются в дискретные моменты времени Таким образом, если система находится в состоянии к принимается решение то новое состояние выбирается в соответствии с распределением а), заданным на и выплачивается доход Введенное выше определение обобщает определение процесса принятия решений, данное в гл. 1.

Вместо использовавшегося ранее термина стратегия определим для рассматриваемой модели понятие плана.

Определение 6.1. Планом называется последовательность где — множество всех возможных предысторий системы до момента включительно, без учета решения, принимаемого в момент

Таким образом, в общем случае план зависит от всех предыдущих состояний и принятых в них решений.

Определение 6.2. План называется рандомизированным марковским планом, если при каждом

Определение 6.3. План называется нерандомизированным марковским, если я — марковский план и каждое условное распределение является вырожденным, т. е. где любой элемент является бэровской функцией, отображающей

Понятие стратегии, обсуждавшееся в предыдущих главах (за исключением гл. 6), соответствует нерандомизированному марковскому плану, а рандомизированная стратегия соответствует рандомизированному марковскому плану.

Определение 6.4. План называется рандомизированным стационарным, если — марковский план и при всех

Определение 6.5. План называется нерандомизированным стационарным, если — стационарный план и все распределения вырожденные, т. е. где бэровская функция, отображающая 5 в А. Нерандомизированный стационарный план, состоящий из элементов будем обозначать

Лемма 6.1. Для любых существует вырожденное условное распределение такое, что

и

при

Доказательство можно найти в работе у Блекуэлла [15].

Лемма 6.1 устанавливает, что если и(х, у) является одношаговым доходом, получаемым в состоянии при выборе решения у, то любой рандомизированный план можно заменить нерандомизированным планом при котором средний доход не меньше, чем при первоначальном плане (см. (6.3)). Кроме того, для любого с вероятностью 1 одношаговый доход при выборе решения в соответствии с распределением не превышает более чем на величины дохода, получаемого при детерминированном правиле (см. (6.4)). Найдем теперь суммарный средний доход с учетом переоценки. Любой план совместно с условным распределением определяет для каждого начального состояния 5 условное распределение на т. е.

где

Пусть -суммарный средний доход с учетом переоценки от процесса с начальным состоянием при плане . Доход, получаемый на шаге, является функцией текущего состояния принимаемого в нем решения и состояния на следующем шаге

и обозначается Суммарный доход с учетом переоценки равен

Тогда

где

Для обобщенных марковских процессов принятия решений докажем теоремы существования оптимальных планов, т. е. таких планов, которые максимизируют (6.6). Дадим теперь ряд определений.

Определение 6.6. Для любых будем называть план -оптимальны если для каждого плана

Определение 6.7. Пусть произвольное число. План называется -оптимальным, если он -оптимальный при каждом распределении или, что то же, если при всех .

Определение 6.8. Для всякого будем называть план -оптимальным, если он -оптимальный при любом или, что то же, если при всех

Определение 6.9. План называется оптимальным, если при всех

Определение оптимального плана совпадает с определением 1.1 -оптимальной стратегии.

<< Предыдущий параграф Следующий параграф >>
Оглавление