Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.3.2. Проблемы, возникающие при выборе метрики «хи-квадрат» в факторном типологическом анализе и предлагаемое решение

В процессе работы алгоритма приходится пересчитывать главные оси инерции классов, полученных разбиением множества индивидуумов, т. е. анализировать подмножества условных вероятностных законов.

Пусть разбиение на К классов. Сгущение имеет центр тяжести

где (см. обозначения в 6. 3. 1).

Сгущению соответствует часть таблицы данных размерности Имеем

Пусть матрица инерции, связанная со сгущением с общим членом

Для решения задачи необходимо вычислить и диагонализовать для каждого класса матрицу где метрика с центром, который выбирается исходя из следующих двух возможностей (см. 6.3.2.1 и 6.3.2.2).

6.3.2.1. Метрика «хи-квадрат» с центром, связанным со всем сгущением

В этом случае следует рассматривать (изоморфное с метрикой

где связанной с Тогда алгоритм будет совпадать с описанным в 6.2.3 и, следовательно, сходиться, но для каждого отдельного класса проведенный анализ не будет совпадать с факторным анализом соответствий, так как выбранный центр метрики являясь центром всего сгущения, вообще говоря, не будет центром этого класса. Ясно, что глобальное сгущение допускает два эквивалентных евклидова представления

Поэтому локальный анализ может рассматриваться как анализ главных компонент преобразованных сгущений:

матрица инерции которых имеет вид

где

Замечание 1.

поскольку равно -полной массе класса

Видно, что диагонализуемая матрица (6) из 6.3.1 не учитывает коэффициент В самом деле, матрица, которую следует диагонализовать, имеет общий член

После несложных вычислений легко убедиться, например, что собственный вектор, отвечающий собственному значению к матрицы является собственным вектором, отвечающим собственному значению к -матрицы (6), рассчитанной по сгущению

Замечание 2. Распределительная эквивалентность при таком выборе центра не имеет места.

Пусть сгущение индексов параметров класса где

Предположим теперь, что существуют такие, что т. е.

тогда

а из равенств, приведенных выше, следует

Распределительная эквивалентность будет иметь место, если

так как тогда

Условие вообще говоря, не выполняется. В дальнейшем мы увидим, что при справедливости гипотезы матрицы, которые следует диагонализовать, будут одни и те же, если выбирать в качестве центра (центр глобального сгущения) или (центр сгущения

Замечание 3. Если выбранным центром является то расстояния между индивидуумами из класса не зависят от принадлежности их к этому классу и равны расстояниям в глобальном сгущении:

В этом случае локальный анализ проводится на подсгущениях глобального сгущения, форма которых (по существу, определяемая метрикой) не меняется в процессе анализа. Это будет не так, если для каждого выбирать соответствующий центр (см. 6.3.2.2).

Замечание 4. Сгущение параметров не может рассматриваться независимо от целей анализа. Существует столько подсгущений, сколько имеется классов:

с

и

с метрикой, задаваемой вектором снабженной аналогичной метрикой

Расстояния между параметрами равны соответственно:

Если гипотеза справедлива, то всегда получают одно и то же представительство для облака параметров, каков бы ни был класс В противном случае параметры играют в анализе класса роль, тем более отличную от их роли в глобальном анализе, чем менее верна эта гипотеза.

6.3.2.2. Метрика «хи-квадрат» с центром, связанным с классом k

Обозначим для каждого через метрику на такую, что

через распределение вероятностей на такое, что

Класс представляет собой сгущение и симметричная матрица, которую следует диагонализовать, чтобы выполнить анализ соответствий этого сгущения, имеет общий член вида (для центральной матрицы инерций)

и (для начальной матрицы инерций)

причем является собственным вектором матрицы соответствующим собственному значению и собственным вектором матрицы соответствующим собственному значению x Если такой вектор, что

то называется собственным нормализованным вектором, где собственное значение.

Таким образом, локальный анализ является факторным анализом соответствий для каждого класса причем, с одной стороны, мы имеем

где удовлетворяет соотношению т. е. локальные анализы проводятся для частных сгущений модифицированной (в зависимости от формы (см. 6.3.2.1, замечание 3). С другой стороны, появляются нежелательные эффекты на этапах 3 и 2 итерационного процесса, описанного в 6.2.3.1.

К этапу 3 таблица (близостей «индивидуумы — классы») построена следующим образом: расстояния индивидуумов, составляющих множество до каждого центра агрегирования вычисляются с помощью метрики и системы масс, связанных с этим центром: всякий индивидуум из не принадлежащий к проектируется на центр агрегирования как дополнительный индивидуум к анализу класса.

При построении нового разбиения каждый индивидуум из относят к тому классу, относительно центра которого он имел бы наименьший момент инерции, если бы принадлежал к этому классу.

Уменьшение критерия гарантировано на этом этапе, чего нельзя сказать, вообще говоря, относительно этапа 2. Более подробно об этом см. в 6.3.3.

Резюме. В первом случае таблица получается более «однородным» образом, т. е. близость вычисляется в с помощью одной и той же метрики без учета принадлежности индивидуума х к классу, что, вообще говоря, не всегда желательно, так как локальные анализы при этом не являются анализами соответствий классов.

Во втором случае локальные анализы являются, конечно, анализами соответствий классов, что для некоторых исследований (см. 6.3.3) кажется необходимым, но тогда возникает проблема сходимости алгоритма (см. 6.3.3.2).

Замечание. Сравнение матриц, которые надо диагонализовать, в указанных случаях показывает, что

и что два описанных подхода полностью эквивалентны в частном случае, когда справедлива гипотеза Так как эквивалентна тому, что то эти два метода эквивалентны лишь тогда, когда центры тяжести классов совпадают с глобальным центром тяжести.

1
Оглавление
email@scask.ru