§ 6. Математическая постановка задачи обучения
Такая постановка задачи на
формальном языке имеет простое выражение. В среде, которая характеризуется
распределением вероятностей , случайно и независимо появляются
ситуации .
Существует «учитель», который классифицирует их, т. е. относит к одному из классов (для простоты
). Пусть он
делает это согласно условной вероятности , где означает, что вектор отнесен к первому классу, – ко второму. Ни
характеристика среды , ни правило классификации нам не известны.
Однако известно, что обе функции существуют, т. е. существует совместное
распределение вероятностей
.
Пусть теперь определено множество
решающих
правил . В
этом множестве каждое правило определяется заданием параметра (иногда удобно
понимать параметр как
вектор). Все правила – характеристические функции, т. е.
могут принимать только одно из двух значений: нуль или единица (наполним: нуль
означает, что вектор отнесен к первому классу, а единица – ко
второму). Для каждой функции может быть определено качество как вероятность
различных классификаций ситуаций учителем (с помощью правила и с помощью
характеристической функции ). На формальном языке качество функции определяется так:
а)
в случае, когда пространство дискретно и состоит из точек ,
, (2.1')
где
–
вероятность возникновения ситуации ;
б)
в случае, когда в пространстве существует плотность распределения ,
; (2.1")
в)
в общем случае можно считать, что в пространстве задана вероятностная мера . При этом выражается так:
. (2.1''')
Среди всех функций есть такая , которая минимизирует
вероятность ошибок. Эту-то наилучшую в классе функцию (или близкую к yей, т. е. функцию с качеством,
отличным от не
более чем на малую величину ) и следует найти. Однако, поскольку
совместное распределение вероятностей неизвестно, поиск ведется с
использованием обучающей последовательности
,
т.
е. случайной и независимой выборки примеров фиксированной длины . Как уже указывалось,
нельзя найти алгоритм, который по конечной выборке безусловно гарантировал бы
успех поиска. Успех можно гарантировать лишь с некоторой вероятностью .
Таким образом, задача заключается
в том, чтобы для любой функции среди характеристических функций найти по обучающей
последовательности фиксированной длины такую функцию , о которой с надежностью, не
меньшей ,
можно было бы утверждать, что ее качество отличается от качества лучшей функции
на
величину, не превышающую .
Для персептрона в соответствии с
(2.1) качество решающего правила определяется так:
.
Задача заключается в том, чтобы
по обучающей последовательности найти решающее правило, которое доставляет либо
минимум ,
либо значение, близкое к минимальному.
Такая задача не является новой в
математике. Она известна в более общей постановке: требуется найти минимум по функционала
, (2.2)
если
неизвестна функция распределения , но зато дана случайная и независимая
выборка .
Эта задача получила название задачи о минимизации величины среднего риска. Она
имеет простую интерпретацию: функция для всякого фиксированного значения
параметра определяет
величину потерь при появлении сигнала . Средняя по величина потерь для
фиксированного значения параметра определяется согласно (2.2).
Задача заключается в том, чтобы
выяснить, при каких значениях параметра средняя величина потерь (чаще говорят:
величина среднего риска) будет минимальной.
Задача обучения распознаванию
образов есть частный случай задачи о минимизации среднего риска. Особенность ее
заключается в том, что функция (эту функцию двух переменных часто
называют функцией потерь) не обладает таким произволом, как в общей постановке
задачи и минимизации риска. На функцию наложены ограничения:
вектор задается координатами: координатой и координатами ;
Функция потерь задана в виде , где - характеристическая
функция множеств.