16.4. ДОПОЛНИТЕЛЬНЫЕ ЗАМЕЧАНИЯ ОБ ОПТИМИЗАЦИИ МНОГОШАГОВОГО ПРОЦЕССА ПРИНЯТИЯ РЕШЕНИЙ
Рассмотрим еще раз сущность основных рекуррентных соотношений (2.7.20), (2.7.21), определяющих правило оптимизации многошагового процесса принятия решения. Мы уже отмечали, что входящий в эти
соотношения апостериорный риск
представляет собой величину ожидаемых потерь, при следующих условиях:
— к
-му шагу приняты решения
— получена совокупность данных наблюдения
в дальнейшем на
и последующих шагах вплоть до конечного шага решения
после получения данных наблюдения
будут приниматься оптимально, так чтобы в среднем потери оказались минимальны.
Таким образом, риск
с одной стороны, зависит от прошлых решений
и настоящего
которые предполагаются фиксированными и подлежат выбору, а с другой стороны, учитывает будущее поведение, относительно которого предполагается, что на каждом следующем шаге мы будем выбирать наилучшее решение с точки зрения минимума потерь. Выбор же оптимального решения на любом шаге минимизацией апостериорного риска
гарантирует, что будущее поведение действительно оптимально.
Ясное понимание сущности апостериорного риска
приводит к заметному упрощению решения задачи в тех случаях, когда удается рассчитать заранее величину этого риска для любого значения
не прибегая к формализму основных рекуррентных соотношений, требующих выполнения довольно сложной последовательности минимизаций и усреднений. Подобная возможность часто возникает в задачах, когда потери обусловлены только конечным решением а само это решение имеет качественно иное содержание по сравнению с решениями
на всех предыдущих шагах, которые, в свою очередь, влияют на потери лишь косвенно, через процесс получения данных наблюдения или процесс изменения параметров X, определяющих потери. Характерными в этом смысле являются многие задачи измерения (оценки тех или иных параметров) с управлением процессом получения данных наблюдения. В этих задачах может иметь место даже дополнительное упрощение, связанное с тем, что при
апостериорный риск
оказывается не зависящим от наблюдаемых данных
Рассмотрим для пояснения самый элементарный пример задачи оценки с управлением процессом наблюдения. Пусть имеется
-шаговый процесс, в конце которого мы должны принять решение
представляющее собой оценку некоторого параметра X, так чтобы средний квадрат отклонения
от X был минимален. На каждом предыдущем шаге
мы можем принять одно из двух решений
:
— начать со следующего шага процесс наблюдения и продолжать его до
шага;
- не начинать наблюдения и подождать до принятия решения
на следующем шаге.
Пусть потери, связанные с этими решениями, характеризуются некоторой функцией
которую без ограничения общности можно считать равной нулю, если все
равны нулю, и невозрастающей функцией номера шага
на котором принято решение
Например, если стоимость наблюдения на любом шаге одинакова, то
где с — стоимость одного наблюдения,
номер шага, на котором принято решение
о начале наблюдения с
шага. Тогда
полная функция потерь
может быть записана в виде
где
зависит от последовательности решений
(чтобы подчеркнуть явную зависимость функции (16.4.1) от
ее можно записать, например, в виде
однако серьезный необходимости в этом нет), а стоимость одного наблюдения с предлагается выраженной в единицах среднего квадрата ошибки оценивания параметров
В соответствии с видом функции потерь (16.4.2) оптимальное правило принятия конечного решения
при фиксированной последовательности предыдущих решений
заключается в выборе в качестве
оптимальной в смысле минимума среднего квадрата отклонения оценки
построенной по совокупности данных наблюдения
полученных после
шага, а риск
для
фактически зависит только от номера шага
на котором принято решение
и равен
где
минимальный средний квадрат ошибки измерения параметра
X по совокупности наблюдений
начиная с
и кончая
шагом. Риск
не зависит от данных наблюдения (поскольку до
шага они просто отсутствуют), а оптимальная последовательность решений — фактически номер шага
после которого начинается наблюдение, выбирается минимизацией (16.4.3). Пусть, например,
что соответствует случаю
где
последовательность независимых нормально распределенных величин
При этом оптимальное значение
выбирается из условия
или приближенно
Этот пример является простейшей иллюстрацией возможности нахождения апостериорного риска на основе знания только структуры оптимального правила принятия конечного решения и риска, соответствующего этому конечному решению. В следующем параграфе рассмотрим более сложную задачу подобного рода, а пока отметим, что совершенно аналогичные результаты получаются, если несколько изменить задачу и управлять не началом, а концом наблюдения. При этом имеется
в виду многошаговый процесс, в котором конечной целью по-прежнему является получение оценки параметра с минимальным средним квадратом отклонения от истинного значения, а управление процессом наблюдения заключается в том, что мы начинаем его на первом шаге и продолжаем до некоторого
шага включительно. В этом случае на любом
шаге
мы можем принять одно из двух решений:
продолжить наблюдение еще на один шаг до принятия решения
на следующем шаге;
закончить наблюдение и сформировать оценку
параметра
При постоянной стоимости наблюдений этому многошаговому процессу соответствует функция потерь
где
номер шага, на котором принято решение о прекращении наблюдения. Оптимальное конечное решение заключается в формировании оценки
по совокупности наблюдаемых значений
обеспечивающей минимальный средний квадрат отклонения от истинного значения параметра
Апостериорный риск при условии прекращения наблюдения на
шаге, т. е. для последовательности решений
равен
где
минимальный средний квадрат отклонения оценки
от истинного значения параметра Я, вычисленный по апостериорному распределению вероятности Я. Если
и — нормально распределенные величины, апостериорная дисперсия
совпадает со своим математическим ожиданием:
и с точностью до замены
на
мы имеем ту же задачу, что и рассмотренная выше.
Фактическое различие между ними заключается только в том, что в первом случае мы решаем, когда начать наблюдение, а во втором — когда закончить. В обоих случаях риск зависит только от продолжительности наблюдения, что естественно и приводит к одинаковой оптимальной продолжительности наблюдения. Нужно заметить, что такая эквивалентность задач существует только при отсутствии априорной неопределенности. При неполном априорном знании это уже не так, и рассматриваемый пример является весьма характерной иллюстрацией того, что две близкие по постановке задачи статистического решения, приводящие к одинаковым правилам принятия решения при полном априорном знании, могут оказаться совершенно разными и по сути и по виду правила принятия решения в условиях априорной неопределенности.
Пусгь, например, имеет место простейший случай, когда
где — независимые нормально распределенные величины с
неизвестной дисперсией
Тогда для обеих задач апостериорный риск имеет неопределенное значение, правило принятия решения о начале или прекращении наблюдения, требующее знания величины
также не определено и нужно использовать тот или иной из рассмотренных методов синтеза в условиях априорной неопределенности. В первой задаче до принятия на каком-либо
шаге решения
о начале наблюдения мы вообще не имеем никаких данных, которые позволили бы нам вынести суждение о неизвестном значении
Поэтому единственным доступным методом является прямой минимаксный подход, который в данном случае соответствует выбору оптимального номера шага к, определяющего начало наблюдения, из условия минимума величины
где
максимально возможное априори значение дисперсии
которое может быть, в частности, и неограниченно большим. Далее, оптимальное значение к выбирается по (16.4.5) с заменой
на
Априорная неопределенность приводит к необходимости увеличения продолжительности наблюдения, а при больших значениях
заставляет начинать наблюдение без промедления с первого шага.
По-иному обстоит дело во второй задаче. В Этом случае для принятия решения о прекращении наблюдения мы имеем возможность воспользоваться полученными данными для оценки неизвестного значения
и использовать адаптивный байесов подход. В результате мы будем иметь оценку апостериорного риска
где
оценка неизвестной дисперсии
построенная по совокупности данных наблюдения
и выберем оптимальное значение
так же, как при отсутствии априорной неопределенности с заменой
на оценку
Последняя определяется по простой рекуррентной формуле
и. если только оптимальное (при отсутствии априорной неопределенности) значение
не очень мало, будет близка к истинному значению
. В результате этого и оптимальная продолжительность наблюдения, а следовательно, и результирующие потери будут близки к тем, которые получаются при полном априорном знании.