8.2. АДАПТИВНОЕ БАЙЕСОВО ПРАВИЛО РЕШЕНИЯ ПРИ ИЗВЕСТНОЙ ФУНКЦИИ ПОТЕРЬ
Часть ограничений примера 2 § 6.1 можно снять, если предположить наличие дополнительных априорных знаний аналитического характера и возможность расширения или изменения состава совокупности наблюдаемых данных х. Пусть в отличие от условий этого примера множество решений
не обязательно дискретно (оно может быть непрерывным или дискретно-непрерывным) и пусть по-прежнему о распределении вероятностей данных наблюдения
ничего не известно. Для того чтобы найти адаптивное байесово правило решения (связь между принимаемым решением и значением
для детализации которой допускается использование ранее наблюдавшихся значений
и других величин, доступных наблюдателю), нужно по-прежнему предположить, что случайные величины
и
принимают только дискретные значения
(В дальнейшем индекс
у величины х, наблюдаемой на рабочем шаге, когда требуется принять решение, если не будет оговорено противоположное, будем опускать.)
Кроме того, нужно также предположить, что
1) известна функция потерь
2) при
помимо значений мы наблюдаем и значения
определяющие величину потерь в том случае, если бы на
шаге принималось решение.
Знание решений
величин потерь
при
и даже само принятие решений при
в этом случае, в отличие от примера 2 § 6.1, не требуется
Таким образом, полная совокупность данных наблюдения составляет
и включает в себя
-кратное повторение
льтатов наблюдения
и результат наблюдения х на рабочем шаге, когда требуется принять решение. Нетрудно убедиться, что (8.2.1) дает минимально возможною совокупность данных, которая при отсутствии каких-либо дополнительных ограничений, кроме знания функции потерь
и предположения о дискретности
обеспечивает возможность построения состоятельной оценки функции апостериорного риска
при любых значениях
и х.
апостериорного риска для всех значений
и для любых значений
Все дальнейшее не отличается от обычного байесова подхода. Правило решения
определяется следующим образом: если
то принимается решение и, для которого величина
достигает минимума, т. е.
где
определяется из уравнения
и благодаря зависимости
от совокупности данных
также зависит от них.
Если функция потерь
дифференцируема по и (естественно, это может иметь место только в случае непрерывного множества решений
то уравнение (8.2.7) можно заменить более простым условием равенства нулю градиента функции
из которого определяется значение
При решении уравнения (8.2.8) могут быть полностью использованы те же методы и идеи, которые мы рассмотрели в предыдущей главе при нахождении оценок максимального правдоподобия. Уравнение (8.2.8) при некоторых ограничениях на функцию потерь
допускает конечное решение или решается любым подходящим итерационным способом. Если, кроме того, функция потерь
дважды дифференцируема по и, то решение уравнения (8.2.8) находится с помощью удобной рекуррентной процедуры, определяющей непосредственно адаптивное байесово правило решения.
Перепишем для этого уравнение (8.2.8) в следующем виде:
и пусть
значение, определяющее адаптивное байесово правило решения для серии наблюдений
объемом
на единицу меньшим, чем для
т. е. решение уравнения
Разложим функцию в правой части (8.2.9) в окрестности точки
Тогда с учетом (8.2.10)
где
симметричная квадратная матрица, равная
малая более высокого порядка, чем х. Пренебрегая в (8.2.11) малой поправкой, получаем следующее приближенное решение уравнения (8.2.9), определяющее
Это выражение связывает значения
т. е. формально является рекуррентным соотношением, дающим возможность последовательно от шага к шагу уточнять структуру адаптивного байесова правила решения. Для того чтобы оно стало рекуррентным соотношением по существу, т. е. не требовало бы для нахождения
никаких иных данных, кроме
(предыдущего решения
и вновь полученных данных наблюдения
необходимо указать какую-то процедуру вычисления весовой матрицы
которая не требовала бы каждый раз обращения к ранее полученным данным наблюдения
Такая процедура существует строго без дополнительных приближений, если функция потерь
— квадратичная функция и, т. е.
где
- вектор;
-положительно определенная квадратная матрица той же размерности, что
При этом
благодаря чему решение
и матрица
определяются следующей системой рекуррентных соотношений:
правые части которых зависят действительно только от
причем сама матрица
также вычисляется рекуррентно.
Соотношения (8.2.16) определяют марковский процесс, сходящийся при
с вероятностью единица к значению иминимизирующему истинную величину апостериорного риска (8.2.2) при
для
каждого
Более того, отклонение
асимптотически нормально с дисперсией порядка
Таким образом, рекуррентные соотношения (8.2.16) определяют адаптивное байесово правило, сходящееся с вероятностью единица к оптимальному байесову правилу, причем среднеквадратичное отклонение решения от оптимального имеет порядок
Другой способ превращения формального соотношения (8.2.13) в рекуррентное заключается в выборе более или менее произвольной матрицы
или
уже не удовлетворяющей (8.2.12), но обеспечивающей сходимость процедуры (8.2.13) к истинному значению. Такой подход является стержневой идеей метода стохастической аппроксимации (процедуры Робинса — Монро), подробное рассмотрение сходимости которого приведено в [23]. При этом удобно выбрать
в виде диагональной матрицы
где
число; I — единичная матрица. Если ряд
расходится, а ряд
сходится; функция
которая определяет оптимальное байесово правило решения
согласно уравнению
удовлетворяет условию
при всех
— положительно определенная матрица и математическое ожидание
где
константа, возможно зависящая от х, то процедура, определяемая рекуррентным соотношением (8.2.13) с матрицей
сходится при
с вероятностью единица к значению и для оптимального байесова правила решения [23]. Кроме того, при
и некоторых дополнительных условиях (см. [23]) отклонение
-асимптотически нормально с дисперсией порядка
(естественно, большей, а иногда существенно большей, чем при оптимальном выборе матрицы
в соответствии с (8.2.16)).
Следующий способ аналогичен использованному в предыдущей главе при приближенном рекуррентном вычислении оценок максимального правдоподобия и сводится к приближенному рекуррентному вычислению весовых матриц
подобно тому, как это делается в (8.2.16) для
случая квадратичной функции потерь. При этом адаптивное байесово правило решения (значение
и весовая матрица
определяется из системы рекуррентных соотношений
которые, как и предыдущие рекуррентные соотношения, нужно дополнить какими-либо начальными условиями. Допустимость перехода от (8.2.12) ко второму из рекуррентных соотношений (8.2.23) обосновывается так же, как в гл. 7 при нахождении аналогичной рекуррентной процедуры для оценок максимального правдоподобия.
Подобно (8.2.16) соотношения (8.2.23) определяют сходящийся марковский случайный процесс, для которого отклонение
асимптотически нормально с дисперсией порядка
меньшей, чем при использовании весовой матрицы (8.2.17), соответствующей процедуре стохастической аппроксимации Робинса — Монро.
Полученные выше результаты определяют структуру адаптивного байесова правила решения или непосредственно его вид для достаточно широкого круга непараметрических задач. Наиболее принципиальным ограничением является дискретность множества значений х. Это дает возможность сформировать при больших, но конечных значениях
достаточно близкую к истинному значению оценку апостериорного риска для каждого значения
и найти соответствующее правило решения, определенное для всех
При переходе к непрерывному множеству значений х необходимо формировать бесконечное множество таких оценок (вместо конечного числа
что, естественно, невозможно сделать ни при каких конечных значениях
если не принять каких-то дополнительных априорных предположений об особенностях распределения вероятностей х или сузить постановку задачи в части ограничения допустимого множества решений или, наконец, не ограничить каким-то образом класс возможных правил решения, например, задав правило решения
с точностью до совокупности некоторых неизвестных параметров. Изложению последней возможности будет посвящена специальная глава, а сейчас рассмотрим примеры использования двух первых из перечисленных возможностей.