Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
Глава 2. Марковские процессы принятия решений без переоценки I2.1. ВведениеВ этой и следующей главах будут рассмотрены марковские процессы принятия решений без переоценки в случае бесконечного времени планирования. Для таких процессов суммарный средний доход обычно неограничен (случай ограниченного суммарного среднего дохода рассматривается в разделе 2.7). В данной главе изучаются процесс с одним эргодическим классом и процесс с поглощением; марковский процесс принятия решений общего вида, в котором классификация состояний может меняться с изменением стратегии, рассматривается в гл. 3. При изучении марковских процессов принятия решений без переоценки используются два подхода: 1) случай 2.2. Вспомогательные результатыСначала приведем некоторые хорошо известные факты из теории матриц. Лемма 2.1. Пусть А — матрица размера
Доказательство этой леммы приводится во многих источниках (см., например, [70], стр. 37). Лемма 2.2. Если Доказательство. По предположению последовательность
Следующая лемма в дальнейшем играет важную роль. Лемма 2.3. Пусть а) последовательность б) матрица
при
и
г) для любого
имеет единственное решение Доказательство. Утверждение а) доказывается в теории цепей Маркова (см., например, [70]). б) Используя (2.3), имеем
при
Из леммы 2.2 получаем, что
при
полученными из (2.3). Аналогично можно показать, что
Для доказательства (2.6) воспользуемся равенствами
полученными из (2.3) и (2.5). Можно также показать, что
в) Утверждение следует из соотношений
г) Доказательство следует из утверждения в). В обозначениях предыдущей главы вектор суммарных средних доходов, полученных к моменту
Таким образом, нижний предел среднего дохода, получаемого за единицу времени при
Найдем стратегию
при всех Дерман [36] показал, что существует стационарная оптимальная стратегия, максимизирующая средний доход за единицу времени. Такой же результат был получен Блекуэллом [14] и другими. Здесь мы приведем результат Дермана. Теорема 2.1. Существует оптимальная стратегия, являющаяся стационарной. Доказательство. Для марковского процесса принятия решений с переоценкой существует
Для любой стратегии справедливо (см. [119], стр. 181):
где Эта теорема показывает, что существует стационарная оптимальная стратегия при критерии среднего дохода такая, что каждому состоянию соответствует оптимальное решение. Таким образом, оптимальная стратегия не зависит от начального распределения а. Ниже, вплоть до раздела 2.6, будем рассматривать процесс специального вида, так называемый процесс с одним эргодическим классом. Определение 2.1. Пусть при любой стратегии цепь Маркова, описывающая марковский процесс принятия решений, эргодична. Такой процесс называется процессом с одним эргодическим классом. Все примеры, рассмотренные в разделе 1.6, описываются такими процессами. Общий случай, когда существует несколько эргодических классов и множество невозвратных состояний, будет рассмотрен в следующей главе. Отметим, что по определению в процессе с одним эргодическим классом допускается принятие рандомизированных решений. Для любой стационарной стратегии и процесса с одним эргодическим классом имеем
где
где равны 1. Тогда
Таким образом, вектор средних доходов за единицу времени для стационарной стратегии равен
где Поскольку выше было показано, что существует стационарная оптимальная стратегия, то задача сводится к нахождению ее из конечного множества стационарных стратегий. Таким образом, поставленная задача является комбинаторной и для ее решения можно использовать метод перебора (он применим не только для процессов с одним эргодическим классом, но и для процессов общего вида, рассматриваемых в гл. 3). В большинстве случаев, однако, применение полного перебора невозможно из-за слишком большого суммарного числа стационарных стратегий, равного
|
1 |
Оглавление
|