Глава X. ДОСТАТОЧНЫЕ УСЛОВИЯ РАВНОМЕРНОЙ СХОДИМОСТИ ЧАСТОТ К ВЕРОЯТНОСТЯМ ПО КЛАССУ СОБЫТИЙ
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
Перейдем теперь к анализу
методов, основанных на минимизации эмпирического риска. Пусть задана выборка
полученная
в серии независимых испытаний при неизменном распределении , и известна функция . Требуется найти
минимум функционала
.
В
дальнейшем будем полагать, что минимум существует и достигается при .
Рассматриваются методы, где в
качестве приближения берется значение , доставляющее минимум функции
.
Естественно,
в качестве меры близости и взять разность значений функционала в этих точках:
.
Как было указано в главе V,
близость значений и
в этом
смысле может быть гарантирована, если функция равномерно по параметру приближает функцию . В самом деле, если
,
то
, (10.1)
. (10.2)
Кроме того, поскольку и – точки минимума
соответственно функций и , то
, (10.3)
. (10.4)
Из
(10.1)–(10.4) непосредственно вытекает, что
.
Или,
иначе,
. (10.5)
Таким образом, если отклонение
функций и при всех значениях
параметра не превосходит , то значение истинного риска в точке эмпирического
оптимума не
более чем на отклоняется
от минимального. Если же максимальное по уклонение риска и его эмпирической оценки
велико, то, вообще говоря, замена истинного минимума эмпирическим может
привести к большим ошибкам.
В задаче обучения распознаванию
образов функция в
функционале имеет
специальный вид. Здесь каждый элемент есть пара , где – описание ситуации, а – указатель класса, к
которому в действительности относится эта ситуация. Обычно число классов
невелико, т. е. может
принимать конечное небольшое число значений . Каждому значению параметра соответствует
решающее правило ,
причем функция принимает
те же дискретные значения, что и .
В качестве критерия обычно берется
вероятность неправильной классификации с помощью правила . Это значит, что определена
функция штрафа
и
функционал задан
в виде
.
Функция есть характеристическая
функция множества
.
Соответственно
функционал при
каждом значении есть
вероятность события :
.
Эмпирическая оценка равна частоте появлений этого
события в обучающей выборке, т. е. частоте ошибок на материале обучения. Пусть
теперь параметр принимает
всевозможные допустимые значения . Соответствующие события образуют класс
событий .
Равномерная близость функций и означает равномерную близость частот и
вероятностей событий по классу .
Применяя формулу (10.5) в данном
случае, имеем
. (10.5')
В более общем случае проблема
равномерной сходимости функций и также может быть сведена к равномерной
сходимости частот к вероятностям в определенном классе событий (§ 2 главы
XIII).
Перейдем теперь к выводу условий,
которым должен удовлетворять класс событий для того, чтобы выполнялась равномерная
по классу сходимость частот появления событий к их вероятностям. Существенно,
что при определенных условиях удается получить оценку равномерной близости
частот к вероятностям, не зависящую от распределения , которое обычно неизвестно, и
определяемую только внутренней структурой класса . Эта оценка не содержит произвольных констант
и позволяет эффективно оценить близость эмпирического оптимального решающего
правила к истинному для заданного класса решающих правил при фиксированной
длине обучающей последовательности.