9.7. СЛУЧАЙ, КОГДА ИМЕЮТСЯ ЭМПИРИЧЕСКИЕ ДАННЫЕ О x и X
Рассмотрим теперь третью из описанных в § 9.2 возможностей, когда при заданной функции потерь
и выбранной структуре правила решения
имеющихся априорных данных недостаточно для нахождения ни среднего
ни апостериорного
рисков. Предположим сначала, что имеющиеся эмпирические данные содержат значения как х, так и X, и образуют последовательность
в которой каждая пара
обладает тем свойством, что
т. е. статистически однородна (в смысле равенства математических ожиданий функции потерь) с парой
соответствующей решению на рабочем шаге. Тогда при выполнении условия эргодичности последовательности
выражение (9.2.11) дает состоятельную оценку среднего риска
и может быть использовано для нахождения наилучшего значения
являющегося состоятельной оценкой для оптимального значения
минимизирующего средний риск
для правила решения
заданной структуры (9.2.1).
В вычислительном отношении задача нахождения наилучшего значения
принципиально ничем не отличается от рассмотренной в § 9.4, когда известна функция апостериорнрго риска
с той естественной разницей, что наилучшее значение
является теперь уже функцией не только
но и
т. е.
При этом могут быть использованы конечные, итеративные или рекуррентные методы. В частности, если функция потерь
дифференцируема по с, то для нахождения
можно использовать рекуррентную процедуру, совершенно аналогичную (9.4.2), (9.4.4), согласно которой
и совокупность
образует процесс, компонента которого
сходится к истинному оптимальному значению
а разность
распределена асимптотически нормально с корреляционной матрицей порядка
За счет потери в эффективности, как и выше, можно упростить эти рекуррентные соотношения, заменив
из (9.7.2) произвольно заданной последовательностью весовых матриц, обеспечивающей сходимость с к истинному значению с, например диагональной матрицей
с теми же свойствами.
Многочисленные примеры применения рекуррентной процедуры (9.7.2) рассмотрены в [39, 40], поэтому не будем их повторять, а остановимся более подробно на важном частном случае, когда функция потерь
недифференцируема по с и без определенной модификации переход к уравнению для градиента оценки среднего риска
из (9.2.11) и его решение рекуррентным методом невозможны.
Нужно отметить, что недифференцируемость функции потерь не является исключением. Она, например, имеет место для громадной массы задач статистического решения, в которой множество возможных решений
дискретно, т. е. для задач проверки и различения гипотез, обнаружения сигналов, распознавания образов и т. д. Действительно, в этом случае функция потерь
как функция решения и задана на множестве, состоящем из изолированных точек
поэтому при любом правиле решения вида
функция потерь
недифференцируема по с. В связи с этим, если даже для правила решения
средний риск
является дифференцируемой функцией с, из-за свойств множества решений И в данном случае операции дифференцирования и вычисления математического ожидания неперестановочны и уравнение для градиента оценки среднего риска (9.2.11)
не имеет смысла, а следовательно, не имеет смысла и рекуррентная процедура (9.7.2) при любой весовой матрице
Для того чтобы получить решение и в этом случае, используется несколько приемов. Первый из них заключается в том, что функция потерь
сохраняется такой, какой она задана первоначально, но вместо несуществующего градиента
вводится некоторая его аппроксимация. Последняя должна обладать теми же свойствами, что и градиент неизвестного среднего риска
т. е. характеризовать изменение потерь при изменении значения с.
Рассмотрим для пояснения пример двухальтернативного решения с простой функцией потерь
где
номер решения;
-истинные ситуации (значения параметра
Будем считать для удобства, что
принимают значения
и —1, т. е.
Тогда любое правило решения
должно быть выбрано так, чтобы функция
при любом с принимала только одно из возможных значений
или —1. В общем случае такая функция может быть представлена в виде
где
— произвольная функция, а
Функция
называется разделяющей и в случае полного априорного статистического описания может быть выражена через отношение правдоподобия — при данной функции потерь
например, как
где
априорные вероятности ситуаций
не перекрываются. Однако недостаток рассматриваемого приема обхода трудностей, связанных с недифференцируемостью функции потерь, заключается в отсутствии каких-либо общих рекомендаций о выборе аппроксимации градиента функции потерь и с практическими трудностями распространения этого приема на более сложные случаи.
Второй прием избавления от недифференцируемости, широко применяемый в [39, 40], заключается в замене исходной функции потерь (и,
такой, которая позволила бы применить стандартные рекуррентные процедуры. В силу указанной выше принципиальной недифференцируемости по и любой функции потерь, заданной на дискретном множестве решений, естественно, что такая замена возможна только за счет подмены исходной задачи статистического решения некоторой позой задачей. Поэтому на самом деле при использовании этого приема производится не замена одной функции потерь другой, что, конечно, не имеет особо принципиального значения, а совершается более серьезный шаг — одна задача заменяется другой Фактически обычно вместо исходной задачи выбора наилучшего в смысле минимума среднего риска правила решения
осуществляется переход к задаче нахождения наилучшей в смысле какой-либо дифференцируемой меры отклонения (чаще всего квадратичной) аппроксимации оптимального правила решения правилом решения
заданной структуры с неизвестными параметрами, выбираемыми так, чтобы минимизировать меру отклонения. Дело вкуса — считать такую подмену задачи законной или нет, важно только четко представлять себе, что найденное в результате правило решения совсем не обязано минимизировать средний риск для исходной задачи и в этом смысле не удовлетворяет исходному критерию оптимальности — требованию минимума ожидаемых для всякого решения (из числа возможных) потерь.
Если обратиться к технологии получения правила решения в рамках обсуждаемого приема для примера двухальтернативной задачи, то в простейшем варианте она сводится к заданию функции
аппроксимирующей неизвестную разделяющую функцию, и некоторой выпуклой функции
в качестве аргумента которой берется разность
где по-прежнему предполагается, что
принимает значения
. Далее математическое ожидание
рассматривается в качестве меры отклонения аппроксимирующей разделяющей функции
от неизвестной истинной, которая характеризуется реализовавшимися значениями
вводится эмпирическая оценка этого математического ожидания
осуществляется ее минимизация по с и в результате находится значение
с помощью которого правило решения
определяется как
Для нахождения
естественно, можно применить рекуррентную процедуру. Для этого достаточно в рекуррентных соотношениях (9.7.2)
заменить
на
В частности, если
квадратичная функция,
задается линейной комбинацией (9.7.7), то
где оптимальная (обеспечивающая наилучшую сходимость
к величине
, минимизирующей
матрица
определяется рекуррентными соотношениями (9.7.9), (9.7.10). Нетрудно модифицировать этот прием так, чтобы учесть влияние неодинаковости потерь для исходной задачи при разных значениях
и к (отличие матрицы потерь
от
Такая модификация рассмотрена в [40, гл. V]. Однако существо дела от этого не меняется, все сказанное выше о подмене задачи остается в силе.
Чтобы понять влияние этой подмены, рассмотрим один пример. Пусть
одномерная величина, распределения вероятности х для
неизвестны, но известно, что отношение правдоподобия
является монотонно не убывающей функцией х. Иными словами, известно, что распределение вероятности х для
сосредоточено в основном справа от распределения вероятности х для
этом случае при любых априорных вероятностях
ситуаций
и любой функции потерь
оптимальное байесово правило решения имеет вид
где
некоторый порог, зависящий от
элементов матрицы потерь
и характера изменения отношения правдоподобия
Этому правилу решения соответствует оптимальная разделяющая функция
где
определяется из условия минимума среднего риска для правила решения (9.7.14).
При отыскании аппроксимирующей разделяющей функции
естественно попытаться выбрать ее так, чтобы при каком-либо с она совпадала с оптимальной разделяющей функцией. В данном случае такая возможность имеется, поскольку известен весь класс (9.7.15) байесовых разделяющих функций для произвольных распределений вероятности
и произвольных
и этот класс имеет очень простую структуру. Поэтому выберем семейство
в виде, аналогичном (9.7.15), т. е.
Это семейство зависит от одного неизвестного параметра с, выбором значения которого можно добиться, чтобы правило решения
с использованием разделяющей функции (9.7.16) давало ту же величину среднего риска, что и абсолютно оптимальное байесово правило решения.
Ограничимся для простоты случаем
тогда состоятельной оценкой среднего риска является функция (9.7.6), которая принимает вид
Минимизируя эту оценку по с (в данном случае этого можно добиться применением итеративной процедуры), получаем значение
которое при
сходится к величине с, минимизирующей математическое ожидание функции потерь:
Поскольку это выражение совпадает с выражением для среднего риска оптимального байесова правила решения (9.7.14), величина с совпадает с величиной со и, следовательно,
сходится к со, а правило решения
— к оптимальному байесову правилу, обеспечивая величину среднего риска, равную минимальному байесову.
Воспользуемся теперь вторым из рассмотренных приемов, который обеспечивает нахождение
без применения итеративных методов, а с помощью рекуррентной процедуры типа (9.7.13) или конечным методом. В качестве аппроксимации разделяющей функции вновь возьмем ту же наилучшую из возможных аппроксимаций (9.7.16), а в качестве функции
в (9.7.11) — квадратичную функцию. Тогда из (9.7.11) следует
Минимум этого выражения может быть найден как рекуррентно, так и конечным методом, а минимизирующее значение См равно
Это значение сходится при
к величине
где
и
— математические ожидания х и в первой
и во второй
ситуациях.
Только в исключительных случаях, а именно, если
и плотности распределения вероятности и
величины х для первой и второй ситуаций отличаются между собой только сдвигом по оси х, величина с из (9.7.22) совпадает с оптимальным значением
а правило решения (9.7.20) при подстановке
него
из (9.7.21) при достаточно больших
дает минимальную величину риска. Во всех остальных случаях с и тем более
может существенно отличаться от оптимального значения
и даже при неограниченном увеличении длины
эмпирической последовательности можно получить существенный проигрыш в эффективности. Так, например, если
плотность распределения
равномерна на интервале
плотность распределения
равномерна на интервале
то для оптимального правила решения и сходящегося к нему правила решения (9.7.20) с
минимизирующим оценку
средний риск равен нулю, поскольку распределения вероятности х для
не перекрываются. В то же время при определенных соотношениях между параметрами
распределений вероятности х для
величина с, определяемая (9.7.22), может не попасть в интервал
разделяющий эти два распределения вероятности. В результате этого даже при
правило решения (9.7.20) с параметром
полученным в результате подмены исходной задачи, будет давать ненулевую величину риска. Например, при
пргдельное значение среднего риска разно
при малой сосредоточенности распределения вероятности х при
по сравнению с
может достигать величины
весьма существенно отличающейся от нулевого значения
Заметим, что в общем случае разделяющей функции
отличной от (9.7.16), проигрыш в эффективности по сравнению с оптимальным байесовым правилом может только увеличиться, так как
может ни при каком выборе параметров с не аппроксимировать точно границу разделения, на которой разделяющая функция, соответствующая оптимальному байесову правилу решения, обращается в нуль.
Приведенный элементарный пример задачи с дискретным множеством решений вызывает довольно настороженное отношение к идее подмены исходной задачи синтеза по минимуму среднего риска (его оценки
задачей нахождения наилучшей в смысле иной меры (отличной от ожидаемой величины потерь) аппроксимации правила решения. Как видно из примера, можно получить простое конечное решение или изящную рекуррентную процедуру, которая хорошо сходится, но сходится совсем не к тому, что нам действительно нужно, и приводит к правилу решения, существенно отличному от оптимального или даже не заслуживающему практического применения.