Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
ГЛАВА 5. КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ ОЦЕНИВАНИЯ ФУНКЦИИ ПЛОТНОСТИ5.1. Модальный анализОдин, из методов кластеризации, рассмотренных - в главе 1, — метод по минимальному локальному расстоянию — приводит к удлинению кластеров. Этот метод не принадлежит к классу методов с минимальной дисперсией, которые рассматривались в параграфе 1.6. Применение для кластеризации метода минимального локального расстояния благодаря цепной тенденции может привести к ряду «плотных» кластеров, которые перемежаются, соединяются «редкими, неплотными» кластерами. В случае одной характеристики гистограмма будет иметь вид мультимодального распределения. Желательно пользоваться методами, которые бы определяли моды этого распределения и соответствующие им отдельные кластеры. Для массивов среднего объема Уишарт [396] предложил метод кластеризации, который он назвал модальным анализом. Этот метод им же был обобщен на случай большого числа наблюдений. Его процедура начинается с выяснения вопроса о мультимодальности данных. В случае одной характеристики необходимо построить гистограмму и вычеркнуть данные с малой частотой (седловые области). Тогда соответствующий кластер можно установить для каждой модальной области. Данные, принадлежащие седловой области, относятся к ближайшей моде. В случае требуется ответить на ряд вопросов, одним из которых является выбор оси измерения. Эту проблему можно обойти, если пользоваться сферическими областями. Одноуровневый алгоритм Уишарта может быть записан следующим образом: а) выбираем значения порогового расстояния б) вычисляем матрицу сходства в) для каждой точки находим частоту попадания точек г) точку с частотой меньшей чем удаляем; д) кластеризуем оставшиеся точки концентрации по методу минимального локального расстояния; е) распределяем точки, исключенные на шаге Далее, Уишарт предложил ступенчатый алгоритм, который выполнял только задачу модального анализа. Для этого необходимо было задать лишь пороговое значение для частоты Заде [407] ввел понятие «размытого» множества, его процедура имеет много общего с модальным анализом Уишарта. По Заде, если Е — пространство точек, размытое множество А в Е характеризуется функцией семейства (характеристической функцией) Гитман и Левин [129] предлагают алгоритм, который разбивает выборку из мультимодального размытого множества на унимодальные размытые множества; а Результат кластеризации, основанный на модальном анализе, сильно зависит от оценивания положения моды, поэтому различные методы оценивания мультимодальных многомерных функций плотностей приведут и к новым методам кластеризации. Этой проблеме мы и посвятим оставшуюся часть этой главы.
|
1 |
Оглавление
|