Глава X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ СХОДИМОСТИ ЧАСТОТ К ВЕРОЯТНОСТЯМ ПО КЛАССУ СОБЫТИЙ
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
Перейдем теперь к анализу
методов, основанных на минимизации эмпирического риска. Пусть задана выборка
полученная
в серии независимых испытаний при неизменном распределении
, и известна функция
. Требуется найти
минимум функционала
.
В
дальнейшем будем полагать, что минимум
существует и достигается при
.
Рассматриваются методы, где в
качестве приближения берется значение
, доставляющее минимум функции
.
Естественно,
в качестве меры близости
и
взять разность значений функционала
в этих точках:
.
Как было указано в главе V,
близость значений
и
в этом
смысле может быть гарантирована, если функция
равномерно по параметру
приближает функцию
. В самом деле, если
,
то
, (10.1)
. (10.2)
Кроме того, поскольку
и
– точки минимума
соответственно функций
и
, то
, (10.3)
. (10.4)
Из
(10.1)–(10.4) непосредственно вытекает, что
.
Или,
иначе,
. (10.5)
Таким образом, если отклонение
функций
и
при всех значениях
параметра не превосходит
, то значение истинного риска
в точке эмпирического
оптимума
не
более чем на
отклоняется
от минимального. Если же максимальное по
уклонение риска
и его эмпирической оценки
велико, то, вообще говоря, замена истинного минимума эмпирическим может
привести к большим ошибкам.
В задаче обучения распознаванию
образов функция
в
функционале
имеет
специальный вид. Здесь каждый элемент
есть пара
, где
– описание ситуации, а
– указатель класса, к
которому в действительности относится эта ситуация. Обычно число классов
невелико, т. е.
может
принимать конечное небольшое число значений
. Каждому значению параметра
соответствует
решающее правило
,
причем функция
принимает
те же дискретные значения, что и
.
В качестве критерия
обычно берется
вероятность неправильной классификации с помощью правила
. Это значит, что определена
функция штрафа
и
функционал
задан
в виде
.
Функция
есть характеристическая
функция множества
.
Соответственно
функционал
при
каждом значении
есть
вероятность события
:
.
Эмпирическая оценка
равна частоте
появлений этого
события в обучающей выборке, т. е. частоте ошибок на материале обучения. Пусть
теперь параметр
принимает
всевозможные допустимые значения
. Соответствующие события
образуют класс
событий
.
Равномерная близость функций
и
означает равномерную близость частот и
вероятностей событий
по классу
.
Применяя формулу (10.5) в данном
случае, имеем
. (10.5')
В более общем случае проблема
равномерной сходимости функций
и
также может быть сведена к равномерной
сходимости частот к вероятностям в определенном классе событий (§ 2 главы
XIII).
Перейдем теперь к выводу условий,
которым должен удовлетворять класс событий
для того, чтобы выполнялась равномерная
по классу сходимость частот появления событий к их вероятностям. Существенно,
что при определенных условиях удается получить оценку равномерной близости
частот к вероятностям, не зависящую от распределения
, которое обычно неизвестно, и
определяемую только внутренней структурой класса
. Эта оценка не содержит произвольных констант
и позволяет эффективно оценить близость эмпирического оптимального решающего
правила к истинному для заданного класса решающих правил при фиксированной
длине обучающей последовательности.