ВЫВОДЫ
1. Введены понятия иерархии s на множестве объектов
и графа иерархии.
2. Общая постановка задачи иерархической классификации состоит в требовании построить иерархию s на исследуемой совокупности объектов, отражающую наличие однородных, в определенном смысле, классов и взаимосвязи между этими классами.
3. В основе алгоритмов иерархической классификации лежит тот или иной критерий качества
разбиения множества S на подмножества
Обычно используются бинарные алгоритмы
. В этом случае
имеет смысл близости
между множествами
Мера близости
либо фиксирована, либо меняется (настраивается) в ходе алгоритма. В последнем случае говорят о гибкой (адаптивной) стратегии классификации.
4. Алгоритмы иерархической классификации бывают:
а) дивизимные, результатом которых является система вложенных разбиений
множества X, где
-разбиение X на непересекающиеся классы, называемое разбиением
уровня. Переход с k-гo уровня на
осуществляется разбиением некоторого класса на подклассы
, где
б) агломеративные, результатом которых является система вложенных разбиений
множества X, где
- разбиение
уровня. Переход с
уровня на
осуществляется объединением пары классов
где
Существенным преимуществом алгоритмов иерархической классификации является возможность изображения на плоскости графа полученной иерархии, называемого графом классификации. Имеется большая свобода в построении на плоскости данного графа классификации. Изучая различные изображения, согласованные со структурой этого графа, можно получить ряд тонких результатов об исследуемом множестве объектов.
6. Описана общая схема построения на плоскости графа классификации. В основе построения лежит понятие индексации иерархии, которая представляет собой отображение, ставящее в соответствие каждому классу S число v (S) таким образом, что
тогда и только тогда, когда
состоит из одного элемента, и
как только
7. Для визуального анализа иерархии s большое значение имеет построение на плоскости такого изображения ее графа, при котором классу
соответствует точка с ординатой
где и
— классы, из объединения которых получен класс S. Такие изображения называются оцифрованными.
8. Важнейшие меры близости
описываются общей рекуррентной формулой (8.9).
В терминах параметров
из (8.9)
а) даны условия, достаточные для существования оцифрованного изображения графа классификации, соответствующего мере близости с этими параметрами;
б) описана общая схема построения алгоритмов гибкой стратегии иерархической классификации;
в) описана общая схема процедур иерархической классификации, использующих пороговые значения, но дающих тот же результат, что и классические агломеративные процедуры. В рамках этой схемы описан быстрый алгоритм иерархической классификации, позволяющий получать иерархическую классификацию больших массивов данных на ЭВМ средней мощности, в частности на персональных компьютерах.