Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике III. ОБЗОР МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗАО ПРИРОДЕ КЛАСТЕРОВГлавная цель кластерного анализа — нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого или просто полезного определения термина «кластер», и многие исследователи считают что уже слишком поздно либо вовсе незачем пытаться найти такое определение (Bonner, 1964). Несмотря на отсутствие определения, ясно, что кластеры обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость. Хотя Снит и Сокэл рассматривают эти свойства для случая метрического пространства, очевидно (как они признают), что эти свойства можно логически распространить и на неметрические пространства. Плотность — это свойство, которое позволяет определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащих их вовсе. Хотя четко определенной меры плотности нет, это понятие очевидно. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Несмотря на то, что между этим свойством и тем, которое используется в теории статистических выводов, есть аналогия, кластеры не всегда представляют многомерные нормальные популяции. Поэтому лучше всего рассматривать дисперсию как характеристику того, насколько близко друг к другу расположены в пространстве точки кластера. Следовательно, кластер можно назвать «плотным», если все точки находятся вблизи его центра тяжести, и «неплотным», если они разбросаны вокруг центра. Свойство кластеров — размеры — тесно связано с дисперсией; если кластер можно идентифицировать, то можно и измерить его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т. е. имеют круглую форму) в многомерном пространстве, описываемом признаками. Форма — это расположение точек в пространстве. Несмотря на то, Что обычно кластеры изображают в форме гиперсфер или эллипсоидов, возможны кластеры и другой формы, например удлиненные кластеры. В последнем случае понятие радиуса или диаметра перестает быть полезным. Вместо этого можно вычислить «связность» точек в кластере — относительную меру расстояния между ними. Если же кластеры имеют другие, более причудливые формы (см. Everitt, 1980), то понятие связности становится менее полезным, а ценность относительных оценок диаметра и плотности, следовательно, уменьшается. Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве. Так, кластеры могут быть относительно близки друг к другу и не иметь четких границ, или же они могут быть разделены широкими участками пустого пространства. С Помощью этих терминов можно описать кластеры любого вида. Согласно Эверитту (1980) кластеры — это «непрерывные области (некоторого) пространства с относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек». Важность этого определения заключается в том, что оно не сводит понятие кластера к какой-то частной форме до начала анализа данных. Разработанные кластерные методы образуют семь основных семейств: 1) иерархические агломеративные методы; 2) иерархические дивизимные методы; 3) итеративные методы группировки; 4) методы поиска модальных значений плотности; 5) факторные методы; 6) методы сгущений; 7) методы, использующие теорию графов. Эти семейства соответствуют различным подходам к созданию групп, и применение различных методов к одним и тем же данным может привести к сильно различающимся результатам. В конкретных отраслях науки могут оказаться особенно полезными определенные семейства методов. Так, иерархические агломеративные методы чаще всего используются в биологии, тогда как факторные аналитические методы большим успехом пользуются в психологии. Когда сталкиваешься с трудной проблемой: «Какой из кластерных методов использовать?», важио помнить, что этот метод должен находиться в согласии с ожидаемым характером классификации, применяемыми признаками и мерой сходства (если она требуется для оценки подобия объектов). Наиболее известными семействами кластерных методов, используемыми в социальных науках, являются иерархические агломеративные, иерархические дивизимные и факторные. Поэтому каждый из этих трех методов будет рассмотрен более детально на примере двух наборов данных, описанных в разд. I. Другие, менее известные семейства будут обсуждены более кратко.
|
1 |
Оглавление
|