Раздел II. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛАСТЕР-АНАЛИЗА) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАСПРЕДЕЛЕНИЙ
В этом разделе описаны методы классификации объектов (индивидуумов, семей, предприятий, городов, стран, технических систем, признаков и т. д.)
в ситуации, когда отсутствуют так называемые обучающие выборки, а исходная информация о классифицируемых объектах представлена либо в форме матрицы X «объект — свойство»
где
- значение
признака на
статистически обследованном объекте (так что
столбец этой матрицы
),
характеризует объект
т. е. представляет результат его статистического обследования по всем
анализируемым переменным), либо в форме матрицы
попарных взаимных расстояний (близостей) объектов
где величина
характеризует взаимную отдаленность (или близость) объектов
и
Переход от формы исходных данных типа «объект — свойство» к форме матрицы попарных расстояний осуществляется посредством задания способа вычисления расстояния (близости) между парой объектов, когда известны координаты (значения признаков) каждого из них (вопросам выбора метрики в исследуемом признаковом пространстве посвящена гл. 11; см. также § 5.2, 7.6).
Обратный переход — от формы записи исходных, данных в виде матрицы попарных расстояний (близостей) между объектами к форме, представленной матрицей «объект - свойство», осуществляется с помощью специального инструментария многомерного статистического анализа, называемого многомерным метрическим шкалированием (см. гл 16).
В зависимости от наличия и характера априорных сведений о природе искомых классов и от конечных прикладных целей исследования следует обратиться либо к гл. 6, где описаны методы расщепления смесей вероятностных распределений, которые оказываются полезными в том случае, когда каждый
класс интерпретируется как параметрически заданная одномодальная генеральная совокупность
при неизвестном значении определяющею ее векторного значения параметра
и соответственно каждое из классифицируемых наблюдений
считается извлеченным из одной из этих (но не известно, из какой именно) генеральных совокупностей; либо к гл. 7, где описаны методы автоматической классификации (кластер-анализа) многомерных наблюдений, которыми исследователь вынужден пользоваться, когда не имеет оснований для параметрического представления искомых классов, а подчас даже просто для интерпретации классифицируемых наблюдений в качестве выборки из какой-либо вероятностной генеральной совокупности; либо, наконец, к гл. 8, в которой излагаются основные классификационные процедуры иерархического типи, используемые в ситуациях, когда «на выходе» исследователь хочет иметь не столько окончательный вариант разбиения анализируемой совокупности объектов на классы, сколько общее наглядное представление о стратификационной структуре этой совокупности (например, в виде специально устроенного графа — дендрограммы).