11.2. Метрики для задач кластер-анализа с неколичественными переменными
Некоторые из метрик для измерения расстояний между объектами, когда переменные являются неколичественными, приведены в гл. 5. Из них наиболее простой является хэммингова метрика, которую можно определить как
Расстояние Хэмминга можно рассматривать как квадрат евклидова расстояния в пространстве бинарных переменных, соответствующих категориям исходных переменных (далее, для краткости, просто в пространстве категорий), т. е.
где i — номер исходной переменной; j — номер категории;
— число категорий
переменной.
Иногда хэмминговой метрикой называют величины (11.2) и (11.2), у которых отсутствует деление на
.
Так как величины
могут принимать лишь значения 1 (для
объекта реализовалась
категория
переменной) или 0 (в противном случае), то выражения (11.2) и (11.2) совпадают.
Теперь, по аналогии с евклидовой метрикой, можно подчеркнуть важность переменных или отдельных их категорий в формировании различий между объектами, вводя веса либо для переменных, либо даже для отдельных категорий (т. е. бинарных переменных
).
Один из подходов к присваиванию весов
категориям состоит в переходе к
-метрике, возникающей в множественном анализе соответствий. Веса для категорий в этой метрике возникают при решении оптимизационной задачи, имеющей ясную статистическую интерпретацию (см. п. 17.2.5), а не внесены извне. Поэтому можно полагать, что
-метрика определяет некоторую «естественную» меру измерения отношений между объектами и, следовательно, ее целесообразно использовать при проведении кластер-анализа в качестве одного из основных претендентов.
Другой способ введения весов, основанный на эвристических соображениях, предложен в работе [174].
Пусть для
переменной в категорию
попало
объектов. Тогда для двух случайно выбранных объектов определим вероятности следующих событий:
у обоих объектов одна и та же
категория
переменной
у
объекта реализовалась категория
— категория
Будем вводить веса категорий исходя из следующего соображения. Пусть для
признака для
объекта
(реализовалась
категория), а для
объекта —
Чем меньше вероятность
такого события при случайном выборе объектов, тем более близкими их будем считать
Чтобы получить теперь расстояние для объектов, можно воспользоваться следующим подходом. Определим меру близости между объектами в виде
Вклад
переменной в
где
Так как только одно из произведений
отлично от нуля, а все остальные равны нулю, то реально вклад А равен одному из весов
Это взвешивание как раз и увеличивает сходство согласно вышеизложенному принципу — чем меньше вероятность реализованной комбинации категорий переменной для наблюдаемых двух объектов, тем больше сходство между этими объектами.
Выражение (11.3) есть не что иное, как скалярное произведение вида
где матрица W — блочно-диагональная матрица весов
Евклидово расстояние из
можно теперь получить, используя обычную формулу
где
Для введения метрики в пространстве неколичественных переменных можно использовать подход, основанный на оцифровке, т. е. присвоении меток неколичественным переменным, например по критерию (17.31) (см. § 17.3).