Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
6.10. ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА6.10.1. ОПРЕДЕЛЕНИЯРассмотрим последовательность разделений уровень соответствует
Рис. 6.15. Дендрограмма иерархической группировки. Вообще группировки такого рода проникают и в другие науки. Для любой иерархической классификации существует соответствующее дерево, называемое дендрограммой, которое показывает, как группируются выборки. На рис. 6.15 представлена дендрограмма для гипотетической задачи, содержащей шесть выборок. Уровень 1 показывает шесть выборок как одиночные группы. На уровне 2 выборки естественным или вынужденным. Для нашего гипотетического примера можно сказать, что объединения на уровнях 4 и 5 естественны, но значительное уменьшение подобия, необходимое для перехода на уровень 6, делает объединение на этом уровне вынужденным. Мы вскоре увидим, как получить такие значения подобия. Благодаря простоте понятий иерархические процедуры группировки находятся среди наиболее известных методов. Процедуры можно разделить на два различных класса: агломеративный и делимый. Агломеративные (процедуры снизу-вверх, объединяющие) процедуры начинают с с одиночных групп и образуют последовательность постепенно объединяемых групп. Делимые (сверху-вниз, разделяемые) процедуры начинают с одной группы, содержащей все выборки, и образуют последовательность постепенно расщепляемых групп. Вычисления, необходимые для перехода с одного уровня на другой, обычно проще для агломеративных процедур. Однако, когда имеется много выборок, а нас интересует только небольшое число групп, такое вычисление должно повториться много раз. Для простоты ограничимся агломеративными процедурами, отсылая читателя к литературе по делимым процедурам. 6.10.2. АГЛОМЕРАТИВНАЯ ИЕРАРХИЧЕСКАЯ ГРУППИРОВКАОсновные шаги в агломеративной группировке содержатся в следующей процедуре: Процедура: Базовая Агломеративная Группировка 1. Пусть Цикл: 2. Если 3. Найти ближайшую пару групп, скажем и 4. Объединить 5. Перейти к Цикл. Описанная процедура заканчивается, когда достигнуто заданное число групп. Однако, если мы продолжим до читателя:
Все эти меры напоминают минимальную дисперсию, и они обычно дают одинаковые результаты, если группы компактные и хорошо разделены. (см. скан) Рис. 6.16. Три примера. Однако, если группы близки друг к другу или их форма в основном не гиперсферическая, могут получиться разные результаты. Мы используем двумерные множества точек, показанные на рис. 6.16, для иллюстрации этих различий. 6.10.2.1. Алгоритм «ближайший сосед»Рассмотрим сначала случай, когда используется Рис. 6.17 показывает результат применения этой процедуры к данным из рис. 6.16. Во всех случаях процедура заканчивалась при (см. скан) Рис. 6.17. Результаты алгоритма «ближайший сосед». 6.10.2.2. Алгоритм «дальний сосед»Когда для измерения расстояния между группами используются (см. скан) Рис. 6.18. Результаты алгоритма «дальний сосед». ближайшие группы объединяются, граф изменяется добавлением ребер между каждой парой вершин в двух группах. Если мы определяем диаметр группы как наибольшее расстояние между точками в группе, то расстояние между двумя группами — просто диаметр их объединения. Если мы определяем диаметр разделения как наибольший диаметр для группы в разделении, то каждая итерация увеличивает диаметр разделения минимально. Как видно из рис. 6.18, это является преимуществом, когда истинные группы компактны и примерно одинаковы по размерам. Однако в других случаях, как, например, в случае вытянутых групп, результирующая группировка бессмысленна. Это еще один пример наложения структуры на данные вместо нахождения их структуры. 6.10.2.3. КомпромиссыМинимальная и максимальная меры представляют два крайних подхода в измерении расстояния между группами. Как все процедуры, содержащие максимумы и минимумы, они оказываются слишком чувствительными к различным отклонениям. Использование усреднения — очевидный путь по возможности избежать этого, и 6.10.3. ПОШАГОВАЯ ОПТИМАЛЬНАЯ ИЕРАРХИЧЕСКАЯ ГРУППИРОВКАМы заметили раньше, что, если группы растут за счет слияния ближайшей пары групп, результат напоминает минимальную дисперсию. Однако, когда мера расстояния между группами выбран а произвольно, редко можно утверждать, что результирующее разделение приводит к экстремуму какой-либо конкретной функции критерия. В действительности иерархическая группировка определяет группу как какой-то результат после применения процедуры группировки. Однако простая модификация позволяет получить пошаговую процедуру оптимизации для получения экстремума функции критерия. Это делается простой заменой шага 3 в элементарной агломеративной процедуре группировки (разд. 6.10.2) на 3. Найти пару разделенных групп Это гарантирует нам, что на каждой итерации мы сделали лучший шаг, даже если окончательное разделение не будет оптимальным. Мы видели ранее, что использование
минимально. Следовательно, при выборе групп для слияния этот критерий учитывает как число выборок в каждой группе, так и расстояние между группами. В общем случае использование приведет к тенденции увеличения размера групп за счет присоединения одиночных или малых групп к большим, а не за счет слияния групп средних размеров. Хотя окончательное разделение может не минимизировать 6.10.4. ИЕРАРХИЧЕСКАЯ ГРУППИРОВКА И СООТВЕТСТВУЮЩАЯ МЕТРИКАПредположим, что мы не имеем возможности снабдить метрикой наши данные, но что можем измерить степень различия
или
то иерархическая процедура группировки даст функцию расстояния для данного множества из Чтобы увидеть, как это происходит, начнем с определения величины При внимательном рассмотрении станет ясно, что как с Теперь можно определить расстояние
Легко видеть, что первое требование удовлетворяется. Самый низкий уровень, на котором Обратно, если
Но так как значения
Это называется ультраметрическим неравенством. Оно даже сильнее, чем неравенство треугольника, так как
|
1 |
Оглавление
|