Главная > Кластерный анализ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

1.8. Другие вопросы кластерного анализа

Одним из важнейших вопросов при решении кластерной проблемы является выбор необходимого числа кластеров. В некоторых случаях число кластеров m может быть выбрано априорно, однако в общем случае это число определяется в процессе разбиения множества на кластеры. В этой книге мы не будем подробно останавливаться на этой сложной проблеме.

Хорошо известно, что в некоторых задачах с большим числом наблюдений для практических целей пользуются методом случайного отбора. Фортьер и Соломон исследовали эти методы [119] и нашли, что законы простого случайного отбора могут быть применены для вычисления числа кластеров, которое должно быть принято для достижения вероятности а того, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной доли «наилучших» или в некотором смысле допустимых разбиений в множестве всех возможных. Общее рассеяние множества кластеров будет тем больше, чем выше доля «допустимых» разбиений. Фортьер и Соломон приводят таблицу, по которой можно найти необходимое число разбиений в зависимости от значений При этом в качестве меры разнородности рассматривается

ется не мера рассеяния, а «мера принадлежности», введенная Хользингером и Харманом [168] (см. табл. 1.6). Фортьер и Соломон пришли к выводу, что простой случайный отбор в общем случае не эффективен, если распределение показателя очень скошено и более вероятные его значения находятся на хвостах распределения. В то же время, как отмечают авторы, «модификация стратегии отбора может значительно улучшить ситуацию и эту возможность необходимо исследовать».

Таблица 1.6. Значения

При решении задачи кластерного анализа молчаливо принимается, что 1) выбранные характеристики в принципе допускают желательное разбиение, на кластеры, 2) единицы измерения (масштаб) выбраны правильно. Первая проблема называется проблемой выбора свойств или характеристик объектов; этому вопросу посвящены работы [229], [230] и [255]. Вообще предполагается, что проблема выбора характеристик решена до начала - процесса кластеризации. Однако следует предупредить, что этим вносится некоторый произвол, что в отдельных случаях требует дополнительного рассмотрения.

Другой вопрос, который всегда сопутствует измерению, — выбор масштаба — также играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклонение; так что дисперсия оказывается равной единице. В случае же, когда исходят из непосредственных (обычных) единиц измерения, возникает проблема интерпретации. Однако наиболее серьезная проблема возникает в связи с тем, что разбиение на кластеры зависит от выбора масштаба. Было бы желательно иметь такой метод кластеризации, который был бы инвариантен к изменению масштабов измерения.

Categories

1
Оглавление
email@scask.ru