ГЛАВА XI. АЛГОРИТМЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ
§ 1. Замечания об алгоритмах
В первых десяти главах книги была изложена теория восстановления зависимостей по эмпирическим данным.
Были рассмотрены классические методы восстановления зависимостей (гл. III, IV, V). Они эффективны в условиях, когда искомая зависимость принадлежит заданному классу, и гарантируют отыскание удовлетворительного решения при достаточно большом объеме обучающей выборки.
На практике же мы не уверены ни в том, что искомая зависимость принадлежит классу функций, в котором ведется восстановление, ни в том, что объем выборки достаточен для нахождения хорошего приближения.
Поэтому были развиты методы минимизации риска, которые не требуют знания модели искомой зависимости и ориентированы на использование выборок ограниченного объема (гл. VI — X).
Последние две главы книги посвящены вопросам создания алгоритмов восстановления.
В этой главе мы рассмотрим алгоритмы обучения распознаванию образов. Алгоритмы основаны на использовании оценок равномерного относительного уклонения частот от вероятностей, которые справедливы при любой вероятностной мере (в том числе и наиболее неблагоприятной).
Обычно, когда дело доходит до построения алгоритмов, основанных на некоторой теории, оказывается, что развитая теория является все-таки грубым приближением к реальности.
Как правило, эта «грубость» компенсируется тем, что при построении алгоритмов теории не следуют буквально. Авторы привносят в алгоритмы свое понимание реальной действительности, которое не поддается формализации. Так и в нашем случае.
На практике нет оснований думать, что реализуется наиболее неблагоприятное распределение Поэтому оценки, которые следуют из общей теории, в реальной ситуации могут оказаться завышенными. Как же учесть, что мы собираемся иметь дело с реальными законами распределения вероятностей, а не с наиболее неблагоприятным? Ответ на этот вопрос и определяет степень нашего неформального отношения к построенной теории.
Неформальное отношение к теории при построении алгоритмов обучения распознаванию образов в этой главе состоит в том, что при восстановлении характеристических функций мы будем считать, что наряду с оценкой
справедлива оценка, отличающаяся от (11.1) константами
а при восстановлении значений характеристической функции наряду с оценкой
где наименьшее решение неравенства
справедлива оценка
где наименьшее решение неравенства
Эта оценка также отличается от (11.3) константами. Кроме того, мы перенесем некоторые факты, имеющие место для задачи восстановления значений функций, на задачу восстановления функции.