Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ
9.1. Разделение смесей при наличии неполных обучающих выборок
Здесь и далее в главе рассматриваются процедуры кластер-анализа и разделения смесей распределений, когда у исследователя имеется некоторая априорная информация относительно желаемой классификации, задаваемая в виде тех или иных ограничений.
Иногда возникает ситуация, когда исследователю известна принадлежность некоторых объектов из матрицы данных X к некоторым компонентам смеси или кластерам (классам). Дальше будем считать без ограничения общности, что имеются обучающие выборки (ОВ) для/первых классов и объем такой выборки Суммарный объем таких выборок и не позволяет воспользоваться процедурами дискриминантного анализа.
Количество может быть меньше количества выделяемых классов к.
9.1.1. Модификация ЕМ-алгоритма.
ЕМ-алгоритм для оценки параметров смеси распределений описан в § 6.4. Этот алгоритм носит итерационный характер, на каждом шаге t, в частности, пересчитываются вероятности принадлежности объекта к классу по формуле (6.9)
Модификация алгоритма при наличии неполных ОВ состоит в том, что для объектов, которые в них содержатся, значения корректируются следующим образом [66]: если объект принадлежит ОВ для класса, то
Эффективность использования неполных ОВ весьма велика. Имеются примеры, когда использование ОВ, составляющих примерно исходной выборки, приводило к резкому улучшению результата разделения смеси 1.
9.1.2. Разделение смеси с неизвестным числом классов.
Рассмотрим случай смеси нормальных распределений с равными матрицами ковариаций, число компонентов k которой неизвестно. Кроме того, имеются неполные ОВ, так же как и в п. 9.1.1.
Вычислительнаяпроцедура состоит из следующих шагов [66].
Шаг 1. Вычисляются оценки векторов средних значений и общей матрицы ковариаций по неполным ОВ. Нижний индекс указывает число степеней свободы, соответствующее оценке матрицы ковариаций. Далее для измерения расстояния между объектами используется расстояние Махаланобиса
Пусть теперь h — вектор размерности , у которого компонента равна номеру класса для объекта Приравниваем к нулю компоненты h, а объектам из ОВ присваиваем соответствующие номера.
2) если то считается, что объект принадлежит некоторому новому классу; счетчик числа классов увеличивается на и полагается,
3) если выполняются неравенства то никаких действий не проводится.
Если просмотр объектов не окончен, то переходим к просмотру следующего объекта.
Шаг 3. Проверяется, все ли объекты расклассифицированы, т. е. равенство Если оно выполняется, то производится переход на шаг 5, в противном случае на шаг 4.
Шаг 4. Проверяются значения счетчиков . Если хотя бы один из счетчиков не равен нулю, то переходят на шаг 2. Если одновременно то, следовательно, на шаге 2 не было образовано ни одного нового класса и не было классификации объектов. Поэтому проводится уменьшение порога на величину и увеличение порога на величину Таким образом, увеличиваются возможности классификации объектов и образования новых классов (принятые при реализации алгоритма значения Производится переход на шаг 2.
Шаг 5. Проводится реклассификация исходной совокупности объектов X так же, как на шаге 2, но при и без пересчета оценок статистических характеристик Полученная классификация считается окончательной.