§ 6. Равномерная близость эмпирических средних к математическим ожиданиям
Выше мы установили, что существуют два механизма минимизации среднего риска по эмпирическим данным.
Первый из них связан с минимизацией эмпирического функционала, построенного по восстановленной плотности. Однако промежуточная задача — восстановление
плотности — является, вообще говоря, более сложной, чем задача минимизации риска по эмпирическим данным.
Поэтому решать задачу минимизации среднего риска путем восстановления плотности, вообще говоря, нерационально.
В этом параграфе мы рассмотрим второй механизм минимизации среднего риска по эмпирическим данным. Будем решать задачу минимизации среднего риска
по эмпирическим данным
путем минимизации функционала эмпирического риска
Для каждого фиксированного функционал определяет математическое ожидание случайной величины , в то время как функционал — эмпирическое среднее этой случайной величины.
Согласно классическим теоремам теории вероятностей в достаточно общих случаях эмпирическое среднее случайной величины с ростом I сходится к математическому ожиданию этой случайной величины.
Однако из этих теорем никак не следует, что значение параметра доставляющего минимум эмпирическому риску будет доставлять среднему риску величину, близкую к минимальной. Это утверждение является важным, и потому разберем его подробнее.
Предположим для наглядности, что параметр а есть скалярная величина, лежащая в интервале Каждому а ставится в соответствие величина Рассмотрим функцию Наряду с этой функцией рассмотрим функцию которая для каждого а определяет эмпирическое среднее, найденное по выборке длины I (рис. 2).
Метод минимизации эмпирического риска предлагает по минимуму функции судить о минимуме функции Для того же, чтобы по точке минимума и минимальному значению функции можно было судить о
минимальном значении функции достаточно, чтобы кривая целиком находилась внутри х-трубки кривой Выброс хотя бы в одной точке (как на рис. 2) может привести к тому, что в качестве точки, минимизирующей будет выбрана точка выброса В этом случае минимум никак не характеризует минимум Если же функция приближает равномерно по а с точностью х, то минимум отстоит от минимума на величину, не превосходящую
Рис. 2.
Формально это означает, что нас интересуют не классические условия, когда для любого а и к справедливо
а более сильные условия, когда для любого к справедливо
В случае, когда выполняется (2.28), будем говорить, что имеет место равномерная по параметру а сходимость эмпирических средних к их математическим ожиданиям.
Итак, второй механизм минимизации риска связан с равномерной по параметру а сходимостью эмпирических средних к математическим ожиданиям. Однако для наших целей — минимизации среднего риска на выборках фиксированного объема — просто факта равномерной сходимости недостаточно, Для того чтобы с заданной
вероятностью можно было гарантировать отыскание решения, доставляющего функционалу значение, близкое к минимальному, надо, чтобы была известна оценка скорости равномерной сходимости. Действительно, выполнение неравенства
эквивалентно утверждению: с вероятностью одновременно для всех а справедлива оценка
И если убывающая по функция, то для заданного уровня надежности ,
величина доверительного интервала полученная как решение уравнения (2.30), уменьшается с ростом Следовательно, для больших I точка минимума эмпирического риска доставит величине среднего риска значение, близкое к минимальному. При любом же фиксированном I можно утверждать, что с вероятностью точка доставит величине среднего риска значение из интервала