Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
1.5. Расстояние между кластерами и их сходствоКак мы увидим позднее, многие процедуры при кластеризации совершаются ступенчато. Это означает, что два наиболее близко расположенных объекта последовательной процедуре пользуются интуитивным представлением о расстоянии между объектом и кластером и расстоянии между двумя кластерами. Неотъемлемой частью задачи кластерного анализа является понятие оптимального критерия (целевой функции), которое позволяет установить, когда достигается желательное разбиение. Для введения подобного критерия необходимо найти меру внутренней однородности кластера и меру разнородности кластеров между собой. Пусть Определение 1.8. Обозначим через
будем называть минимальным локальным расстоянием (nearest neighbor distance) [395] между кластерами Определение 1.9. Пусть
назовем максимальным локальным расстоянием (furthest neighbor distance) [234] между Определение 1.10. Величина
есть среднее расстояние [225] между При оперировании понятием статистического рассеяния иногда пользуются следующей мерой расстояния между кластерами Определение 1.11. Величину
где
называют статистическим расстоянием между кластерами I и Меру
где Поэтому
поскольку
поэтому
и
Окончательно
Последнее выражение будем называть матрицей межгруппового рассеяния. В результате получим:
где
назовем матрицей межгруппового рассеяния, а след этой матрицы
- статистическим расстоянием между кластерами Уравнение (1.9) статистики интерпретируют следующим образом: «общая сумма квадратов равна внутригрупповой сумме квадратов плюс межгрупповая сумма квадратов». Сумма Рассмотрим теперь несколько иной подход к проблеме измерения расстояния между кластерами. Предположим, что каждый кластер представляет собой выборку из некоторой генеральной совокупности (популяции). Обозначим через Эти меры межкластерного расстояния могут оказаться весьма полезными в случае нормального распределения. В этом случае оценкам В большинстве работ, указанных в табл. 1.3, рассматриваются одномерные виды мер расстояния. Эти меры обсуждаются в работе Уоккера и Лангриба [383]; там же предлагается их обобщение на многомерный случай. Для более полного ознакомления с мерами, представленными в табл. 1.3, отсылаем читателя к работе [383].
|
1 |
Оглавление
|