§ 1. Гипотеза компактности
Одна из давно используемых эмпирических гипотез, известная
в литературе по распознаванию образов под именем гипотезы компактности
(обозначим ее через
),
состоит в том, что реализации одного и того же образа обычно отражаются в
признаковом пространстве в геометрически близкие точки, образуя «компактные»
сгустки [6]. При всей кажущейся тривиальности и легкости опровержения указанная
гипотеза лежит в основании большинства алгоритмов не только распознавания, но
и всех других задач анализа данных.
Конечно,
она подтверждается не всегда. Если, например, среди признаков имеется много
случайных, неинформативных, то точки одного образа могут оказаться далекими
друг от друга и рассеянными среди точек других образов. Но дополнительно
предполагается, что в многомерном признаковом пространстве уже было найдено
такое (информативное) подпространство, в котором точки одного класса
действительно образуют явно выделяемые компактные сгустки. Назовем
признаков, входящих в
информативное подмножество
, описывающими,
а номинальный
-й
признак
, указывающий имя образа, целевым. Обозначим множество объектов
обучающей выборки через
, новый
распознаваемый объект через
, а тот факт, что объекты множества
компактны (эквивалентны,
похожи или близки друг другу) в пространстве
характеристик
— через
. Мера компактности может быть
любой: она может характеризоваться средним расстоянием от центра тяжести до
всех точек образа; средней длиной ребра полного графа или ребра кратчайшего незамкнутого
пути, соединяющего точки одного образа; максимальным расстоянием между двумя
точками образа и т. д. Например, компактными (эквивалентными) считаем два
объекта, если все признаки одного объекта равны соответствующим признакам
другого. Или: объекты компактны, если евклидово расстояние между векторами их
признаков не превышает величину
.
Фактически гипотеза
равнозначна предположению о наличии закономерной
связи между признаками
и
, и с учетом
вышесказанного ее тестовый алгоритм может быть представлен следующим
выражением:
.
Т. е. если объекты множества
компактны в
пространстве
и
объекты множества
компактны
в пространстве описывающих свойств
, то объекты
и
будут компактными и в пространстве
целевого признака
.
Часто эту гипотезу формулируют так: «Объекты, похожие по
описывающим свойствам
, похожи и по
-му целевому свойству
». Легко видеть, что в этой
более краткой формулировке опущены весьма существенные дополнительные условия.
Заметим, что деление свойств на описывающие и целевые
является условным. Мы можем целевой признак
включить в число описывающих, а в
качестве целевого принять любой признак
из информативной системы
. Если при этом обучающие
объекты множества
компактны в новом
пространстве свойств
и множество
компактно в пространстве
то значение нового
целевого признака
у
объекта
будет эквивалентным его
значению у объектов множества
. Целевыми
могут быть не одна, а несколько характеристик. В частности, гипотеза
позволяет решать не
только задачу анализа, когда по признакам
распознается
образ
, но и обратную задачу — задачу
синтеза, когда по имени образа
восстанавливаются наиболее правдоподобные
значения характеристик
(например,
путем приписывания объекту
с признаком
свойств
«типичного» представителя образа
).
Указаний
на то, какое число n признаков и какое число
объектов обучающей
выборки
нужно иметь, чтобы гипотеза
гарантированно
подтверждалась, здесь нет и быть не может. Информативность признаков и
представительность выборки являются понятиями условными. Система признаков
информативна, если при заданной обучающей выборке и заданном типе решающих
правил удается построить правило, распознающее объекты контрольной выборки с
заданной точностью. Обучающая выборка представительна, если при заданном наборе
признаков и заданном типе решающих правил удается то же самое.
Можно найти случаи, когда для успешного решения задачи
достаточно иметь всего один признак и по одной обучающей реализации на образ.
Пусть, например, образы
и
представляют теплокровных
млекопитающих, а описывающий признак есть их вес. Если
и
— это слоны и мыши, то достаточно
измерить вес одного любого представителя множества
и любого представителя
множества
,
чтобы построить безошибочное правило распознавания любого нового представителя
этих образов.
Совсем другая ситуация возникает, если мы захотим распознавать
этих же млекопитающих, но по признаку окраса их волосяного покрова. Если в
конце концов окажется, что мыши темнее слонов, то для установления этого факта
потребуется обучающая выборка гораздо большего объема. Можно отметить, что с ростом
числа обучающих реализаций уверенность в правильности, неслучайности
обнаруживаемой закономерности растет.