§ 6. Математическая постановка задачи обучения
Такая постановка задачи на
формальном языке имеет простое выражение. В среде, которая характеризуется
распределением вероятностей
, случайно и независимо появляются
ситуации
.
Существует «учитель», который классифицирует их, т. е. относит к одному из
классов (для простоты
). Пусть он
делает это согласно условной вероятности
, где
означает, что вектор
отнесен к первому классу,
– ко второму. Ни
характеристика среды
, ни правило классификации
нам не известны.
Однако известно, что обе функции существуют, т. е. существует совместное
распределение вероятностей
.
Пусть теперь определено множество
решающих
правил
. В
этом множестве каждое правило определяется заданием параметра
(иногда удобно
понимать параметр
как
вектор). Все правила
– характеристические функции, т. е.
могут принимать только одно из двух значений: нуль или единица (наполним: нуль
означает, что вектор
отнесен к первому классу, а единица – ко
второму). Для каждой функции
может быть определено качество
как вероятность
различных классификаций ситуаций
учителем (с помощью правила
и с помощью
характеристической функции
). На формальном языке качество
функции
определяется так:
а)
в случае, когда пространство
дискретно и состоит из точек
,
, (2.1')
где
–
вероятность возникновения ситуации
;
б)
в случае, когда в пространстве
существует плотность распределения
,
; (2.1")
в)
в общем случае можно считать, что в пространстве
задана вероятностная мера
. При этом
выражается так:
. (2.1''')
Среди всех функций
есть такая
, которая минимизирует
вероятность ошибок. Эту-то наилучшую в классе функцию (или близкую к yей, т. е. функцию с качеством,
отличным от
не
более чем на малую величину
) и следует найти. Однако, поскольку
совместное распределение вероятностей
неизвестно, поиск ведется с
использованием обучающей последовательности
,
т.
е. случайной и независимой выборки примеров фиксированной длины
. Как уже указывалось,
нельзя найти алгоритм, который по конечной выборке безусловно гарантировал бы
успех поиска. Успех можно гарантировать лишь с некоторой вероятностью
.
Таким образом, задача заключается
в том, чтобы для любой функции
среди характеристических функций
найти по обучающей
последовательности фиксированной длины
такую функцию
, о которой с надежностью, не
меньшей
,
можно было бы утверждать, что ее качество отличается от качества лучшей функции
на
величину, не превышающую
.
Для персептрона в соответствии с
(2.1) качество решающего правила определяется так:
.
Задача заключается в том, чтобы
по обучающей последовательности найти решающее правило, которое доставляет либо
минимум
,
либо значение, близкое к минимальному.
Такая задача не является новой в
математике. Она известна в более общей постановке: требуется найти минимум по
функционала
, (2.2)
если
неизвестна функция распределения
, но зато дана случайная и независимая
выборка
.
Эта задача получила название задачи о минимизации величины среднего риска. Она
имеет простую интерпретацию: функция
для всякого фиксированного значения
параметра
определяет
величину потерь при появлении сигнала
. Средняя по
величина потерь для
фиксированного значения параметра определяется согласно (2.2).
Задача заключается в том, чтобы
выяснить, при каких значениях параметра
средняя величина потерь (чаще говорят:
величина среднего риска) будет минимальной.
Задача обучения распознаванию
образов есть частный случай задачи о минимизации среднего риска. Особенность ее
заключается в том, что функция
(эту функцию двух переменных часто
называют функцией потерь) не обладает таким произволом, как в общей постановке
задачи и минимизации риска. На функцию
наложены ограничения:
вектор
задается
координатами: координатой
и координатами
;
Функция потерь
задана в виде
, где
- характеристическая
функция множеств.