Глава 11. ВЫБОР МЕТРИКИ И СОКРАЩЕНИЕ РАЗМЕРНОСТЕЙ В ЗАДАЧАХ КЛАСТЕР-АНАЛИЗА
Проблема выбора метрики и тесно связанная с ней проблема сокращения размерности задачи кластер-анализа возникает, когда исходная информация задана в виде матрицы данных X. Выбор метрики, т. е. функции для вычисления расстояния между объектами, является одним из основных управляющих факторов, влияющих на результаты кластер-анализа.
В данной главе рассмотрим несколько подходов, позволяющих в некоторых случаях удовлетворительно решать обе проблемы выбора метрики и сокращения размерности в тех случаях, когда у исследователя отсутствует априорная информация, позволяющая сделать выбор метрики более обоснованно.
Что касается выделения переменных, то для решения этой задачи в настоящее время не имеется эффективных вычислительных алгоритмов. Частично эта задача решается с помощью процедур адаптивной настройки, менее информативным переменным скорее всего будет присвоен и меньший вес.
11.1. Целенаправленное проецирование данных в пространство небольшой размерности с сохранением кластерной структуры
Этот подход пригоден, когда все переменные измерены в количественной шкале. Будем искать последовательность из
линейных комбинаций исходных переменных вида
таких, что векторы
попарно
-ортогональны и являются решениями оптимизационной задачи
при условии
; S — матрица ковариаций или ее оценка.
В качестве функционала
используется величина (см. гл. 19)
где
— соответственно оценки плотности и дисперсии для одномерной случайной величины
оцененной по совокупности одномерных проекций
.
Смысл использования критерия (11.1) состоит в том, что чем больше его величина, тем более неоднородным можно считать распределение одномерной проекции
, например, в рамках модели смеси нормальных распределений.
Перейдем сначала к махаланобисовой метрике, т. е. сделаем преобразование
. Пусть из условия максимума (11.1) определены линейные комбинации
Теперь они будут ортогональны, так как в новом базисе
. И пусть
— соответствующие им значения функционала
.