2.7. УПРАВЛЯЕМЫЕ МНОГОШАГОВЫЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЯ
При описании общей структуры байесова решающего правила в § 2.4 мы не делали каких-либо предположений относительно структуры множеств решений и, наблюдаемых данных х и параметров
считая, что они могут иметь совершенно произвольную природу. Рассмотрим более подробно очень важный специальный случай, когда процесс получения новой информации х и принятия решений и идет по шагам. На каждом
шаге мы получаем некоторую совокупность данных наблюдения
(эта совокупность по-прежнему может иметь произвольную природу —
может быть скалярной величиной, вектором, отрезком скалярного или векторного случайного процесса и т. д.), которая зависит от скрытых параметров
характеризующих ситуацию или неизвестное нам состояние некоторой системы и влияющих на последствия принимаемых решений. Используя вновь полученные и имевшиеся ранее наблюдения
мы принимаем решение
которое может зависеть и от ранее принятых решений
Если
то полные совокупности данных наблюдения х, решений
и параметров
могут быть описаны векторами
а их совокупности для любого числа шагов
Как видно из (2.7.1), пошаговое рассмотрение процесса получения информации и ее обработки (принятия решений) не вносит принципиальных изменений, если не расширить каким-то образом постановку задачи. Принципиальные изменения появляются, если учесть, что для очень большого числа практических приложений принимаемое на любом шаге решение
может повлиять как на параметры состояний
на последующих шагах, так и на объем и качество получаемых на этих шагах данных
Такое наличие обратной связи характерно для систем управления общего вида, в которых все или некоторые компоненты решения
являются управляющими воздействиями
изменяющими состояние объекта управления
и средств получения данных
об этом состоянии. Оно имеет место в управляемых системах обработки информации (последовательная схема решений Вальда, планирование экспериментов, управление средствами получения и обработки информации и т. д.), а также характерно для очень многих постоянно встречающихся на практике задач. Поскольку любое решение влияет на значения
на последующих шагах, а через них на все последующие решения, такие многошаговые процессы принятия решения называются управляемыми.
Математическим отражением этой обратной связи является зависимость распределений вероятности для значений
от последовательности предыдущих решений
а полное статистическое описание многошагового процесса для любой совокупности принимаемых решений
достигается заданием последовательности условных распределений вероятности (для определенности плотностей вероятности) для наблюдаемых данных
и параметров
для всех значений
произведение которых (для
от 1 до
образует совместную плотность вероятности
при заданной последовательности решений
Естественно, что при выборе решения
можно использовать только те данные наблюдения, которые получены до
шага включительно, т. е.
Поэтому правило принятия решения
в общем случае задается вероятностной мерой с плотностью
зависящей от
вообще говоря, от совокупности предыдущих решений
В нерандомизированном случае
где функция
определяющая выбор решения на
шаге, зависит от
но не может зависеть от
так как последние могут наблюдаться только после принятия решения
Нахождение оптимальной последовательности решений для многошаговой процедуры или оптимального правила принятия этой последовательности решений производится методами динамического программирования в их общей стохастической форме [30], которые при определенных ограничениях на введенные выше условные распределения вероятности для
и функцию потерь
приводят к эффективной вычислительной процедуре нахождения оптимальных решений или даже к аналитическим результатам. При этом, как и в любой байесовой задаче, оптимальное правило решения получается нерандомизированным и определяется системой рекуррентных соотношений, содержащей последовательность минимизаций и усреднений для величин апостериорных рисков.
Для получения этих рекуррентных соотношений рассмотрим общее выражение для среднего риска (2.3.1)
где
— совокупность плотностей
каждая из которых задает правило принятия решения на
шаге, а их произведение — решающее правило в целом.
Пусть оптимальному правилу принятия решения соответствует совокупность
Тогда минимальный (байесов) средний риск
где
- символ условного математического ожидания при условии, написанном справа от вертикальной черты. Последнее равенство в выражении (2.7.7) отражает тот тривиальный факт, что математическое ожидание можно вычислять последовательно: сначала по части случайных переменных, от которых зависит функция потерь, а затем по всем остальным.
Условное математическое ожидание в (2.7.7)
представляет собой функцию апостериорного риска для совокупности решений
и данных наблюдения
С учетом (2.7.8) математическое ожидание функции потерь
откуда следует, что выражение в квадратных скобках в (2.7.7) может бьггь записано в виде
поскольку минимум интеграла
достигается для функции
где
— значение
зависящее от
при котором достигается минимум подынтегрального выражения
Это значение и
определяет оптимальное байесово (нерандомизированное) правило решения на
шаге и находится из условия
где
— апостериорный риск, минимизированный выбором ил- на последнем шаге,
-апостериорная плотность вероятности совокупности параметров
Последняя фактически зависит
ТОЛЬКО ОТ
и
Используя (2 7 10) и (2 7.13), выражение (2.7.7) можно записать в виде
где введено обозначение для апостериорного риска на
шаге
получающегося из полного апостериорного риска
минимизацией по
и усреднением по
Аналогично (2 7 7) в выражении (2 7 14) можно выделить минимизацию по последней из функций
переписав это выражение следующим образом:
где
а оптимальное байесово правило решения на
шаге определяется функцией
которая находится из уравнения, аналогичного уравнению (2.7.12):
Продолжив эту цепочку минимизаций для
полечим аналогично (2.7.17) соотношение, определяющее оптимальное (нерандомизированное) правило решения
на любом шаге
где апостериорный риск на
шаге
задается выражением
которое является рекуррентным соотношением, последовательно определяющим функции апостериорного риска, и представляет собой общую стохастическую форму уравнения динамического программирования. Совместно с выражением (2.7.8) или (2.7.13) для конечного значения апостериорного риска и уравнением (2.7.19) это соотношение полностью определяет оптимальное многошаговое правило решения.
Наряду с (2.7.20) можно ввести эквивалентное ему рекуррентное соотношение для апостериорных рисков
минимизированных выбором решений
Оно получается из (2.7.19) и (2.7.20) и имеет вид
и отличается от (2.7.20) изменением порядка применения операций вычисления математического ожидания и минимизации. Входящая