Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

Глава 2. ИССЛЕДОВАНИЕ НЕКОТОРЫХ ВАРИАНТОВ В СЛУЧАЕ ЕДИНСТВЕННОГО ПРЕДСТАВИТЕЛЯ КАЖДОГО КЛАССА

2.1. ВВЕДЕНИЕ

Важным этапом в понимании и интерпретации больших массивов данных зачастую является отыскание наиболее «репрезентативных» элементов среди объектов, подлежащих классификации. Хорошим подходом к решению этой задачи является метод автоматической классификации [4], при котором отыскивается разбиение исследуемого множества объектов на классы, такие, что каждый объект больше похож на лучших «представителей» своего класса, чем на представителей других классов.

На практике часто бывает так, что об объектах приходится судить единственно по их сходству между собой. Это понятие легко конкретизируется с помощью меры различия объектов; напротив, многомерный подход к этому понятию более труден, так как требует изучения множества дескриптивных свойств (переменных) и определения расстояния между объектами и между переменными по таблице «объект—свойство».

В этой главе представительство класса объектов производится путем выбора подмножества объектов, обладающего некоторыми свойствами [8], [10]. Тем самым классификация объектов будет зависеть только от степени различия между объектами.

При этом (как и в 1.3) рассматривается случай, когда имеется по единственному представительству от каждого класса изучаемого разбиения. Таким образом, структура, выбранная для пространства покрытий 5, есть множество разбиений на классов. Пространство представительств будет, в зависимости от различных вариантов, подмножеством множества всех подмножеств или подмножеством евклидова пространства множество объектов, подлежащих классификации.

В первой части этой главы рассматривается оптимизационная задача, соответствующая каждому из описываемых вариантов. Во второй части изложен метод «центра тяжести», который особенно часто используется в автоматической классификации. Этот метод применяется к множеству индивидов в евклидовом многомерном пространстве. Если индивиды могут быть «помещены» в такое пространство, то соответствующая оптимизационная задача первых вариантов является проблемой минимизации критериев квадратичного типа.

В конце главы сравниваются различные задачи оптимизации.

Обозначим:

множество объектов, подлежащих классификации; — множество разбиений на классов множества мера «несходства» объектов, определенная на множестве мера адекватности покрытий и представительств функция на такая, что есть порядковый номер элемента

Определим также функции:

функция назначения, задающая отображение где раз); -функция представительства, задающая отображение . И наконец, критерий задает отображение

Все различные представленные здесь варианты используют одно и то же пространство покрытий, которым является множество разбиений на классов фиксировано). Варьируются только пространство представительств и мера адекватности между

Categories

1
Оглавление
email@scask.ru