ГЛАВА VI. МЕТОД МИНИМИЗАЦИИ ЭМПИРИЧЕСКОГО РИСКА В ЗАДАЧЕ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ
§ 1. Метод минимизации эмпирического риска
В предыдущих трех главах восстановление зависимостей мы связывали с методами восстановления плотности вероятностей. Отыскание функции, минимизирующей средний риск
по эмпирическим данным
мы сводили к восстановлению плотности по выборке (6.2) и минимизации функционала
Как отмечалось в главе II, этот путь минимизации риска (6.1), вообще говоря, не является рациональным — задача восстановления плотности более трудная, чем минимизация среднего риска. И лишь когда об искомой плотности имеется настолько большая априорная информация, что функция может быть задана с точностью до параметров, такой путь оказывается приемлемым. Разработанные для этого случая методы параметрической статистики и были использованы в предыдущих главах.
Однако при решении конкретных задач структура плотности неизвестна. Таким образом, успех применения методов параметрической статистики оказывается основанным на вере в то, что используемая гипотетическая структура плотности соответствует истинной.
Начиная с этой главы, мы будем изучать методы восстановления зависимостей, для реализации которых не нужно восстанавливать плотность. В основе этих методов лежит принцип минимизации эмпирического риска, согласно
которому за точку минимума функционала (6.1) принимается точка минимума эмпирического функционала
построенного по случайной независимой выборке (6.2). Пусть минимум функционала (6.3) достигается на функции Проблема состоит в том, чтобы установить, в каких случаях найденная функция близка к функции минимизирующей (6.1) в
Ранее (§ 6 гл. II) мы связали эту проблему с проблемой существования равномерной сходимости средних к математическим ожиданиям, т. е. с ситуацией, когда для любой заданной величины уклонения к может быть указано неравенство
Пусть выполнено (6.4). Тогда справедливо неравенство
Иначе говоря, в ситуации (6.4) с вероятностью уклонение наилучшего в классе решения от решения, доставляющего минимум эмпирическому риску составит величину, не превышающую
Действительно, из условия (6.4) следует, что с вероятностью одновременно выполнятся два неравенства
Кроме того, поскольку — точки минимума то справедливо неравенство
Из неравенств (6.6), (6.7) вытекает, что
А так как оба неравенства (6.6) одновременно выполняются с вероятностью то и неравенство (6.8) выполнится с вероятностью Следовательно,
В этой главе мы рассмотрим теорию равномерной сходимости средних к математическим ожиданиям применительно к задаче обучения распознаванию образов, т. е. для случая, когда функция потерь в функционале среднего риска принимает только два значения — нуль и единица. В гл. VII для задачи восстановления регрессии мы распространим полученные здесь результаты на общий случай, когда функция потерь принимает произвольные значения из интервала