Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

18.2. ОПИСАНИЕ ПОСТРОЕНИЯ ТИПОЛОГИИ С ПОМОЩЬЮ АЛГОРИТМА ДИНАМИЧЕСКИХ СГУЩЕНИЙ

18.2.1. Основы метода

Описываемый метод состоит по меньшей мере из двух шагов, третий шаг не обязателен. На первом шаге метода динамических сгущений ищут разбиение исходного набора данных на некоторое количество устойчивых форм. Необходимо провести хотя бы несколько (например, пять) прогонов алгоритма для того, чтобы полученные формы были действительно значимы. Число классов, задаваемое a priori при применении метода динамических сгущений, является в данном случае параметром. Вначале берется завышенное значение (в используемой программе — 20) и предполагается, что при дальнейшем, более тщательном анализе имеющихся данных удастся получить более значимые устойчивые формы.

Рис. 18.1

На втором шаге осуществляется восходящая иерархическая классификация с использованием дисперсионного критерия (происходит максимизация дисперсии между классами разбиения), затем проводится выбор разбиения. Наиболее значимое число классов можно определить, исследовав зависимость оценки межклассовой дисперсии от числа классов на различных уровнях иерархии (рис. 18.1).

Известно, что метод иерархической классификации при переходе на более высокий уровень иерархии, по существу, минимизирует потери межклассовой дисперсии. В качестве наиболее значимых берутся уровни, предшествующие перегруппировке со значительным уменьшением межклассовой дисперсии. Так, например, согласно рис. 18.1 будет сохранен уровень с номером 7. В некоторых случаях анализ изменений межклассовой дисперсии не выявляет, бесспорного числа классов, но во всяком случае такой критерий всегда может служить индикатором. Кроме того, критерием может быть качество интерпретации найденных классов по типологическим переменным. Иерархия дает возможность сравнивать разбиения на соседних уровнях с точки зрения их интерпретации. Окончательное число классов всегда выбирается именно из этих соображений.

На третьем шаге осуществляется оптимизация разбиения, найденного на втором шаге. Разбиение, полученное на некотором уровне иерархии устойчивых форм, предполагает иерархическую структуру, которая может и не соответствовать рассматриваемой совокупности. Поэтому, на наш взгляд, основная ценность второго шага состоит в определении наиболее значимого числа классов. Соответствующее разбиение может быть найдено каким-нибудь и неиерархическим методом. Однако весьма вероятно, что разбиение, найденное на некотором уровне иерархии устойчивых форм, окажется достаточно хорошим. Поэтому в большинстве случаев останавливаются на числе классов и разбиении, найденных на втором шаге. На третьем шаге предлагается лишь улучшение этого разбиения в смысле некоторого критерия. Если в качестве критерия использовать межклассовую дисперсию, то можно применить алгоритм обмена, основанный на переносах объектов из класса в класс. Разбиение, полученное на втором шаге, можно улучшить, также взяв его за исходное в методе динамических сгущений. В этом случае критерий выбирается в зависимости от типа применяемого метода.

18.2.2. Оптимизируемые критерии

18.2.2.1. Алгоритм динамических сгущений

Известно, что метод динамических сгущений, применяемый на первом шаге анализа, может использоваться в различных вариантах. Мы предпочтем алгоритм, который кроме стандартного варианта, где ядра формируются из точек, принадлежащих выборке, реализует также метод, при котором в качестве ядер берутся центры тяжести классов. В обоих случаях имеется возможность взвешивания объектов. Выбор функции для обоих случаев описывается в приложении 1. Таким образом, если все веса равны, то в первом случае используется критерий

где разбиение на классы соответствующее представительство центр тяжести множества В. В случае когда в качестве ядер берутся центры тяжести, критерий принимает вид

18.2.2.2. Согласование критериев, оптимизируемых на разных шагах метода

На втором шаге используется критерий межклассовой дисперсии, эквивалентный (2), при этом критерий (1) также убывает. Не следует ли в таком случае на первом шаге применять только метод центра тяжести? Нам кажется, что этот вопрос требует отрицательного ответа. Дело в том, что эффективность метода в целом сильно зависит от того,

насколько значимыми являются устойчивые формы, найденные на первом шаге. Они фактически служат основой для иерархической классификации на втором шаге, где определяется окончательное число классов, а зачастую и разбиение. Какая из модификаций метода динамических сгущений при фиксированном числе прогонов даст нам наиболее значимые устойчивые формы? Мы только знаем, что по сравнению с методом, где классы представляются ядрами, формируемыми из точек выборки, метод центра тяжести может привести к созданию «пустых внутри» классов, у которых все элементы расположены на границе (см. приложение 2). Хорошо заполненные классы нам заранее кажутся более желательными, так как устойчивые формы можно определить в виде пересечений таких классов. Конечно, это только гипотеза, требующая проверки. Тем не менее она кажется разумным оправданием для сохранения возможности применять на первом шаге обе модификации метода динамических сгущений. Практический опыт учит применять главным образом первый вариант для получения устойчивых форм.

Хотя, вообще говоря, нам не кажется оправданным применение метода динамических сгущений с межклассовой дисперсией в качестве критерия (2), на третьем шаге обычно оптимизируется как раз этот критерий при числе классов, определенном на втором шаге. Разбиение, полученное на втором шаге, лишь условно оптимизирует критерий, оставаясь в рамках иерархической структуры (на данном уровне ищется наилучшее, с точки зрения критерия, разбиение из всех, которые можно получить слиянием двух классов разбиения на предыдущем уровне). На третьем шаге можно использовать также и алгоритм переноса. Полученное при этом разбиение доставляет, если не глобальный, то по крайней мере локальный оптимум критерию. Наконец, на третьем шаге можно использовать и другие критерии, например (1), соответствующий одновременному выбору разбиения и системы ядер (поэтому осуществлялись прогоны методом динамических сгущений, использующим ядра из точек выборки в качестве представительств классов; начальное разбиение бралось равным разбиению, полученному на втором шаге).

Замечание. Что касается метрики и весов, соответствующих объектам, то очевидно, что выбранные на первом шаге они должны сохраняться без изменений на последующих шагах. Таким образом, например, при вычислении весов классов, включенных в иерархическую классификацию согласно их дисперсии, учитываются весовые коэффициенты соответствующих объектов.

1
Оглавление
email@scask.ru