11.4. Оценка метрики с помощью частично обучающих выборок
Понятие частично обучающей выборки (ЧОВ) введено в работе [9, гл. 1]. ЧОВ определяется как множество пар объектов, таких, что относительно двух объектов, составляющих некоторую пару, известно, что они принадлежат одному и тому же классу. Более детальная информация, вообще говоря, отсутствует. Например, неизвестно, принадлежат ли некоторые пары, составленные из непересекающихся пар объектов, одному и тому же классу или нет. Таким образом, фактически исследователь на примерах определяет, какие объекты считать близкими, если исходить из неформализованных содержательных представлений.
Пусть дальше ячов — число пар в ЧОВ, а
— число независимых объектов, входящих в множество пар из ЧОВ.
Рассмотрим теперь следующий способ оценки метрики, основываясь на ЧОВ. Предположим, что неизвестная нам метрика является взвешенной евклидовой
причем все веса
(ненулевые).
Без ограничения близости можно считать, что выполняется условие
(11.16)
Выполнения этого условия можно добиться, умножая все веса
на одно и то же положительное число а, т. е. одновременно и одинаково изменяя масштаб по всем переменным. Это, естественно, не влияет на результаты применения кластер-процедур.
Суммируя расстояния между всеми парами, из ЧОВ получаем
(11.16)
где
Так как слагаемые в (11.16) суть расстояния между парами точек из одного и того же класса, т. е. близкими между собой точками, нужно стремиться получить V, такую, чтобы значение (11.16) было как можно меньше (при выполнении условия (11.15)). Итак, веса V — это решение минимизационной задачи
(11.17)
при условии
Решением задачи (11.17) будут следующие значения весов (см. п. 11.3.3):
(11.18)
где значение параметра
выбирается так, чтобы удовлетворялось условие (11.15). Впрочем, выбор а несуществен, поскольку задача кластер-анализа инвариантна относительно изотропного одновременного изменения масштаба переменных.
Если объем ЧОВ достаточно велик, чтобы матрица W была невырождена, то можно построить и оценку махаланобисовой метрики, решая задачу (11.17), но уже не считая матрицу V диагональной. Решением будет матрица
а метрика будет задаваться выражением