11.4.3. Классификация в режиме диалога.
Замечено, что человек доволно успешно справляется с задачей классификации. Очевидно, мы обладаем способностью устанавливать факт наличия классов путем «целостного восприятия». К сожалению, наша способность наблюдать объекты жестко ограничена тремя
измерениями. Однако в гл. 10 и, в частности, в § 10.3 были рассмотрены алгоритмы отображения векторов в пространство меньшей размерности. Следовательно, данные, имеющие высокую размерность, можно отобразить в двух или трехмерное пространство. По этому отображению человек-наблюдатель может легко выполнить классификацию.
Рис. 11.10. (см. скан) Отображение результатов классификации трех видов ирисов [Фукунага, 19716].
В этом и состоит принцип классификации в режиме диалога.
Сохранение расстояний. В § 10.3 было рассмотрено нелинейное отображение из n-мерного пространства в двумерное пространство, минимизирующее среднее расхождение между соответствующими расстояниями в обоих пространствах. Это отображение сравнительно хорошо сохраняет структуру распределений и может быть выведено на экран индикатора. На рис. 10.13 показано отображение данных, характеризующих три вида
растений (ирисок). Глядя на индикатор, оператор может провести естественные границы этих распределений без какой-либо информации о принадлежности объектов к определенным классам.
Расстояние до двух точек. В задачах с двумя классами для классификации можно использовать отображение, рассмотренное в § 10.3 под названием «расстояние до двух точек». Ниже приводится описание соответствующей процедуры.
Рис. 11.11. (см. скан) Отображение результатов классификации двух видов ирисов [Фукунага, 19716].
Шаг 1. Применить совместную нормировку (11.23) и (11.24). Шаг 2. Выбрать произвольно две точки
Шаг 3. Имея на
итерации точки
и отобразить все объекты на плоскость, откладывая по осям
.
Шаг 4. Провести границу, используя интуицию оператора. Если на начальных итерациях распределения плохо различимы, оператор может выбрать в качестве границы прямую под углом в 45°, проходящую через начало координат.
Шаг 5. В соответствии с проведенной границей, произвести перераспределение объектов по классам.
Шаг 6. Если классификация хотя бы одного объекта У изменилась, вычислить новые выборочные средние
и повторить процедуру, начиная с
шага. В противном случае работа алгоритма заканчивается.
Описанная выше процедура в точности совпадала бы с процедурой, описанной в § 11.2 и максимизирующей критерий
если бы в качестве границы на каждой итерации использовалась прямая, проходящая через начало координат под углом 45°. Различие между этими процедурами состоит в том, что в первой из них имеется свобода выбора любой границы в соответствии с интуицией оператора.
Пример 11.4. Данные, характеризующие три вида объектов, классифицировались без учителя следующим образом. Вначале все данные были пронормированы в соответствии с (11.23) и (11.24), после чего применялась описанная выше процедура. Результат приведен на рис. 11.10. Вид Iris sesota (В на рис. 11.10) четко, без единой ошибки, отделился от двух других видов (А на рис. 11.10) после трех итерация.
Затем, на втором этапе, все объекты, обозначенные символом A (Iris versicolor и Iris virginica), совместно нормировались, и снова применялась процедура, описанная в этом параграфе. После пяти итераций - алгоритм закончил работу, результат которой показан на рис. 11.11. Неправильно классифицированными оказались два объекта из одного класса и три объекта из другого (в каждом классе было по 50 объектов). Так как известно, что Iris versicolor и Iris virginica слегка перекрываются в пространстве признаков, этот результат является приемлемым, а качество классификации — близким к качеству классификации с учителем.