Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ
9.1. Разделение смесей при наличии неполных обучающих выборок
Здесь и далее в главе рассматриваются процедуры кластер-анализа и разделения смесей распределений, когда у исследователя имеется некоторая априорная информация относительно желаемой классификации, задаваемая в виде тех или иных ограничений.
Иногда возникает ситуация, когда исследователю известна принадлежность некоторых объектов из матрицы данных X к некоторым компонентам смеси или кластерам (классам). Дальше будем считать без ограничения общности, что имеются обучающие выборки (ОВ)
для/первых классов и объем такой выборки
Суммарный объем таких выборок
и не позволяет воспользоваться процедурами дискриминантного анализа.
Количество
может быть меньше количества выделяемых классов к.
9.1.1. Модификация ЕМ-алгоритма.
ЕМ-алгоритм для оценки параметров смеси распределений описан в § 6.4. Этот алгоритм носит итерационный характер, на каждом шаге t, в частности, пересчитываются вероятности принадлежности
объекта
к
классу по формуле (6.9)
Модификация алгоритма при наличии неполных ОВ состоит в том, что для объектов, которые в них содержатся, значения
корректируются следующим образом [66]: если объект
принадлежит ОВ для
класса, то
Эффективность использования неполных ОВ весьма велика. Имеются примеры, когда использование ОВ, составляющих примерно
исходной выборки, приводило к резкому улучшению результата разделения смеси 1.
9.1.2. Разделение смеси с неизвестным числом классов.
Рассмотрим случай смеси нормальных распределений с равными матрицами ковариаций, число компонентов k которой неизвестно. Кроме того, имеются неполные ОВ, так же как и в п. 9.1.1.
Вычислительнаяпроцедура состоит из следующих шагов [66].
Шаг 1. Вычисляются оценки векторов средних значений
и общей матрицы ковариаций
по неполным ОВ. Нижний индекс указывает число степеней свободы, соответствующее оценке матрицы ковариаций. Далее для измерения расстояния между объектами
используется расстояние Махаланобиса
Пусть теперь h — вектор размерности
, у которого
компонента равна номеру класса для объекта
Приравниваем к нулю компоненты h, а объектам из ОВ присваиваем соответствующие номера.
2) если
то считается, что объект
принадлежит некоторому новому
классу; счетчик числа классов
увеличивается на
и полагается,
3) если выполняются неравенства
то никаких действий не проводится.
Если просмотр объектов не окончен, то переходим к просмотру следующего объекта.
Шаг 3. Проверяется, все ли объекты расклассифицированы, т. е. равенство
Если оно выполняется, то производится переход на шаг 5, в противном случае на шаг 4.
Шаг 4. Проверяются значения счетчиков
. Если хотя бы один из счетчиков не равен нулю, то переходят на шаг 2. Если одновременно
то, следовательно, на шаге 2 не было образовано ни одного нового класса и не было классификации объектов. Поэтому проводится уменьшение порога
на величину
и увеличение порога
на величину
Таким образом, увеличиваются возможности классификации объектов и образования новых классов (принятые при реализации алгоритма значения
Производится переход на шаг 2.
Шаг 5. Проводится реклассификация исходной совокупности объектов X так же, как на шаге 2, но при
и без пересчета оценок статистических характеристик
Полученная классификация считается окончательной.