Глава 2. ИССЛЕДОВАНИЕ НЕКОТОРЫХ ВАРИАНТОВ В СЛУЧАЕ ЕДИНСТВЕННОГО ПРЕДСТАВИТЕЛЯ КАЖДОГО КЛАССА
2.1. ВВЕДЕНИЕ
Важным этапом в понимании и интерпретации больших массивов данных зачастую является отыскание наиболее «репрезентативных» элементов среди объектов, подлежащих классификации. Хорошим подходом к решению этой задачи является метод автоматической классификации [4], при котором отыскивается разбиение исследуемого множества объектов на классы, такие, что каждый объект больше похож на лучших «представителей» своего класса, чем на представителей других классов.
На практике часто бывает так, что об объектах приходится судить единственно по их сходству между собой. Это понятие легко конкретизируется с помощью меры различия объектов; напротив, многомерный подход к этому понятию более труден, так как требует изучения множества дескриптивных свойств (переменных) и определения расстояния между объектами и между переменными по таблице «объект—свойство».
В этой главе представительство класса объектов производится путем выбора подмножества объектов, обладающего некоторыми свойствами [8], [10]. Тем самым классификация объектов будет зависеть только от степени различия между объектами.
При этом (как и в 1.3) рассматривается случай, когда имеется по единственному представительству от каждого класса изучаемого разбиения. Таким образом, структура, выбранная для пространства покрытий 5, есть множество разбиений на классов. Пространство представительств будет, в зависимости от различных вариантов, подмножеством множества всех подмножеств или подмножеством евклидова пространства множество объектов, подлежащих классификации.
В первой части этой главы рассматривается оптимизационная задача, соответствующая каждому из описываемых вариантов. Во второй части изложен метод «центра тяжести», который особенно часто используется в автоматической классификации. Этот метод применяется к множеству индивидов в евклидовом многомерном пространстве. Если индивиды могут быть «помещены» в такое пространство, то соответствующая оптимизационная задача первых вариантов является проблемой минимизации критериев квадратичного типа.
В конце главы сравниваются различные задачи оптимизации.