§ 13.16. Марковские процессы
В этом параграфе мы дадим определение марковского процесса и начнем изучение оптимальных правил остановки для задач с такими процессами. Пусть
последовательность случайных величин или, более общим образом, последовательность случайных векторов, каждый из, которых принимает значение из выборочного пространства
Так как пространство S может быть подмножеством в
весьма общего вида, то нам будет удобно явно ввести
-алгебру
тех подмножеств пространства
для которых определены вероятности. Последовательность
образует марковский процесс, если на произвольном шаге распределение будущих наблюдений
этой последовательности зависит лишь от текущего значения
и не зависит от предыдущих значений
Более точно, говорят, что последовательность
есть марковский процесс, если для каждого события
при всех
из
и всех
Если условные распределения в (1) не зависят от
то в этом случае говорят также, что процесс имеет стационарные переходные вероятности, или что марковский процесс однороден. Другими словами, марковский процесс однороден, если для каждого события
и каждого значения
условная вероятность
одинакова при всех
Мы
предположим, что для всякого
условному распределению отвечает о. в. п.
на
Тогда для однородного марковского процесса выполнено следующее соотношение:
Функция
называется переходной функцией процесса.
Рассмотрим теперь задачу об оптимальной остановке в случае, когда наблюдения
образуют однородный марковский процесс. Значение
называется состоянием процесса на
шаге. Мы предположим, что процесс начинается из некоторого начального состояния
так что о. в. п. случайной величины
есть
В этом контексте выборочное пространство S называется также пространством состояний. В случае когда пространство состояний конечно или счетно, марковский процесс называют цепью Маркова.
Пусть состояние процесса на
шаге есть
т. е.
и пусть на этом шаге, так же
и на других, статистик может закончить процесс выбора, получив выигрыш
или продолжать наблюдение, уплатив некоторую сумму с
Здесь функция выигрыша
и цена наблюдения с зависят лишь от состояния
и не зависят от номера
шага процесса.
Пусть, кроме того, заданы множество
состояний, в которых статистик обязан прекратить выбор, и множество
состояний, в которых выбор необходимо продолжать. Таким образом, если
то статистик должен окончить выбор, получив
; если же
то, уплатив сумму с
выбор надо продолжать. Конечно, во многих задачах множества
или
пусты.
Если статистик решает не проводить никаких наблюдений, то
выигрцш равняется
Если же он проводит хотя бы одно наблюдение и заканчивает процесс выбора после наблюдения значений
то его общий выигрыш есть
Задача состоит в нахождении правила остановки, максимизирующего средний общий выигрыш в классе всех правил, требующих проведения хотя бы одного наблюдения. Указанный средний выигрыш имеет вид
Большинство задач последовательного решения, рассмотренных в этой главе и гл. 12, подходит под эту схему. Например, в задаче последовательного статистического решения, изучавшейся в § 12.7 — 12.9, в качестве начального состояния
можно принять данное априорное распределение параметра
и вообще взять в качестве апостериорное распределение
после первых
наблюдений
Если как априорное, так и всевозможные апостериорные распределения могут быть определены посредством конечного числа параметров (что имеет место, например, в случае распределений из сопряженного семейства), то все состояния можно рассматривать как точки некоторого конечномерного пространства
Поскольку при всяком заданном значении параметра
наблюдения
независимы, и одинаково распределены, то вероятность перехода от распределения
к апостериорному распределению
одна и та же для всех шагов. Следовательно, последовательность
образует марковский процесс со стационарными переходными вероятностями (т. е. однородную цепь Маркова).
В случае когда процесс попал в состояние
риск от окончания процесса выбора и принятия решения равен
Таким образом, функция выигрыша есть
Так как стоимость наблюдения на каждом шаге равна с, то
. В этой задаче оба множества
пусты.
Рассмотрим теперь задачу последовательного статистического решения для ограниченных процедур из
Эта задача схожа с предыдущей, но процесс выбора должен быть окончен после проведения самое большее
наблюдений. Состояние
процесса можно описать парой
где
число проведенных наблюдений, а как и раньше, — распределение параметра
этом шаге. Начальное состояние есть
При этих определениях рассматриваемый процесс является однородным марковским процессом. Из состояния
происходит переход в состояние
где
— апостериорное распределение, получаемое из
после проведения одного наблюдения.
Функции выигрыша и цены имеют тот же вид, что и указанный ранее. Так как статистик должен закончить процесс выбора самое большее после
наблюдений, то
состоит из всех состояний вида
а множество
пусто.
Рассматривая номер шага
как компоненту состояния процесса, можно подогнать под разобранную схему многие задачи. Так, предположим, что в предыдущих примерах цена каждого наблюдения
не является постоянной, но зависит от номера шага Если рассматривать номер шага
как компоненту состояния, то функция цены с для процесса будет иметь прежний вид, т. е. не будет зависеть от номера шага.
Другие примеры приведены в упр. 31.
Дальнейшие замечания и ссылки на литературу. Марковские Цепи рассматриваются в большинстве обычных курсов теории вероятностей, а также, например, в книгах Кемени и Снелла (1960), Чжуна (1960) и Кемени, Снелла и Кнэппа (1966). Изложение
теории марковских процессов на более высоком уровне имеется у Дынкина (1963а).
Большинство приведенных в оставшейся части этой главы результатов о марковских процессах (включая упр. 33) заимствовано из работы Бреймана (1964). Ряд задач об оптимальной остановке для цепей Маркова с конечным числом состояний рассмотрен Кемени и Снеллом (1958).