Глава 11. ВЫБОР МЕТРИКИ И СОКРАЩЕНИЕ РАЗМЕРНОСТЕЙ В ЗАДАЧАХ КЛАСТЕР-АНАЛИЗА
Проблема выбора метрики и тесно связанная с ней проблема сокращения размерности задачи кластер-анализа возникает, когда исходная информация задана в виде матрицы данных X. Выбор метрики, т. е. функции для вычисления расстояния между объектами, является одним из основных управляющих факторов, влияющих на результаты кластер-анализа.
В данной главе рассмотрим несколько подходов, позволяющих в некоторых случаях удовлетворительно решать обе проблемы выбора метрики и сокращения размерности в тех случаях, когда у исследователя отсутствует априорная информация, позволяющая сделать выбор метрики более обоснованно.
Что касается выделения переменных, то для решения этой задачи в настоящее время не имеется эффективных вычислительных алгоритмов. Частично эта задача решается с помощью процедур адаптивной настройки, менее информативным переменным скорее всего будет присвоен и меньший вес.
11.1. Целенаправленное проецирование данных в пространство небольшой размерности с сохранением кластерной структуры
Этот подход пригоден, когда все переменные измерены в количественной шкале. Будем искать последовательность из линейных комбинаций исходных переменных вида таких, что векторы попарно -ортогональны и являются решениями оптимизационной задачи
при условии ; S — матрица ковариаций или ее оценка.
В качестве функционала используется величина (см. гл. 19)
где — соответственно оценки плотности и дисперсии для одномерной случайной величины оцененной по совокупности одномерных проекций .
Смысл использования критерия (11.1) состоит в том, что чем больше его величина, тем более неоднородным можно считать распределение одномерной проекции , например, в рамках модели смеси нормальных распределений.
Перейдем сначала к махаланобисовой метрике, т. е. сделаем преобразование . Пусть из условия максимума (11.1) определены линейные комбинации Теперь они будут ортогональны, так как в новом базисе . И пусть — соответствующие им значения функционала .