8.5. Быстрый алгоритм иерархической классификации
Опишем сначала основной блок алгоритма.
Пусть
— некоторая мера близости между подмножествами из X. Выберем порог с.
Из матрицы взаимных расстояний
выберем массив
. Допустим, что
Шаг А.
Найдем
Объединим точки
один класс
которому присвоим обозначение
Положим
где
— символ удаления элементов.
Сформируем массив
из матрицы взаимных расстояний множества
включив в него:
причем
Таким образом получаем пару
. Если
, то описанный шаг А можно повторить.
Итогом работы рассматриваемого блока алгоритма является последовательность пар
где X — множество, полученное из
объединением двух каких-либо элементов, W — массив, сформированный из матрицы взаимных расстояний множества
— пустой массив.
Схема алгоритма
1. Задаем множество
и меру близости
2. Выбираем значение порога
и формируем массив
Например,
выбирается так, чтобы
где
— числовые параметры.
3. Применяем к (
) процедуру основного блока алгоритма. В результате находим множество
для которого
По построению элементам множества
соответствуют непересекающиеся классы из
разбиение множества X.
4. Если
то возвращаемся к шагу 1, заменив X на
(В алгоритмах гибкой стратегии заменяется и мера близости.) Если
то заканчиваем, работу алгоритма.
Итогом работы алгоритма является бинарная иерархия на X, но в общем случае эта иерархия не совпадает с иерархией, получаемой классической агломеративной процедурой при помощи меры близости
.
Соответствующий пример нетрудно привести для меры близости
где
— центры классов.
В то же время, как уже отмечалось, для редуктивных мер близости (см. определение 8.7) описанная процедура представляет собой ускоренный вариант классической агломеративной процедуры.
Приведем важнейшие редуктивные меры близости. Проверка опирается на теорему 8.2 и проводится в терминах параметров
, общей рекуррентной формулы для мер близости.
Положим
Тогда, по теореме 8.2, если параметры
таковы, что
то определяемая ими мера близости
редуктивна.
Для краткости указываем только наименование меры близости:
1) «ближайший сосед» (5.4):
2) «дальний сосед» (5.5):
3) средней связи (5.7):
4) приращение статистического разброса при объединении классов (см. примеры (8.5 и 8.6).