Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.4.4. Исключение влияния резко выделяющихся точек

6.4.4.1. Эллипсоиды, связанные с p-мерным распределением

С таблицей данных рассматриваемой как выборка, состоящая из реализаций -мерного случайного вектора, можно связать семейство гомотетичных -мерных эллипсоидов, уравнение которых имеет вид

где g и V — соответственно среднее и выборочная матрица ковариаций для

Предполагая, что V имеет ранг получим соответственно при и индикаторный эллипсоид (см. [16, гл. 2.41) и эллипсоид концентрации рассматриваемого случайного вектора.

Замечание 1. Если V имеет ранг то существует ортогональное преобразование такое, что

где — собственные значения матрицы матрица, столбцы которой являются соответствующими собственными векторами. Пусть запись центрированного вектора в базисе собственных векторов

Уравнение (17) в этом базисе имеет вид

Замечание 2. Этим поверхностям можно придать следующий вероятностный смысл. Если то уравнение (17) — это уравнение поверхности индикатрисы, т. е. поверхности, которая получается, если для каждого единичного направляющего вектора А в направлении А отложить дисперсию рассматриваемого случайного вектора. В случае это индикаторный отрезок для это индикаторный эллипс, заданный уравнением

в соответствующем базисе) и гомотетичный эллипсу инерции этого распределения (что неверно для Если то (17) определяет эллипсоид равной дисперсии. Он получен растяжением в раз эллипсоида .

Вероятностный смысл эллипсоида концентрации следующий. Единичная масса, равномерно распределенная в области, ограниченной -мерным эллипсоидом, задаваемым уравнением

имеет те же моменты порядка 1 и 2, что и рассматриваемое распределение.

Отрезок концентрации случайной величины со средним и дисперсией а имеет вид

Эллипс концентрации двумерного случайного вектора в два раза больше индикаторного эллипса:

Частные таблицы связанные с классами, позволяют определить эллипсоиды, уравнения которых в системах локальных координат имеют вид

где вектор координат некоторой точки х из в системе (с началом главных осей инерции класса

Этим поверхностям можно приписать следующий вероятностный смысл. Если например при то поверхность геометрически представляет собой концентрацию «локальных» распределений, связанных со случайным р-мерным вектором Если поверхность представляет собой концентрацию маргинального -мерного распределения, полученного проектированием исходного распределения на подпространство, порожденное Эти поверхности используются в алгоритме факторного типологического анализа для исправления некоторых нежелательных эффектов.

6.4.4.2. Эффект цилиндра

Эффект цилиндра показан на рис. 6.10. В случае начальные оси, выбранные случайным образом, не соответствуют конфигурации данных. Индивидуум далекий от элементов из класса 1, находится очень близко от его вклад в эту ось весьма весомый, что мешает этой оси повернуться в процессе алгоритма. Показанная тенденция к получению цилиндрических классов в случае нашла отражение в названии этого эффекта.

Рис. 6.10

Для модификации алгоритма введем понятие ядра класса.

6.4.4.3. Ядра класса

Определение 1.

Таким образом, ядро — это множество элементов класса, лежащих внутри индикаторного эллипсоида, если и эллипсоида с полуосями в общем случае фиксированного

Определение 2. Ядро порядка имеет вид

Таким образом, ядро порядка это множество элементов класса, которые проектируются на -мерное многообразие главных осей инерции внутрь проекции индикаторного эллипсоида.

Замечание 1. Принадлежность к ядру влечет принадлежность к ядру порядка т. е. внешние точки ядра порядка являются внешними точками индикаторного эллипсоида, обратное неверно.

Замечание 2. Размер эллипсоидов зависит от параметра С. При вероятностной гипотезе, что каждый фактор является случайной величиной можно дать некоторые указания по выбору С.

В самом деле, при справедливости этой гипотезы величина распределена как степенями свободы. Тогда можно вычислить (см. таблицы Фишера в [3, с. 559]), в зависимости от и желаемой вероятности попадания в эллипс, величину такую, что

Пример. Для в соответствии с таблицей Фишера индикаторный эллипс случайного нормального двумерного вектора содержит долю совокупности между 30% и 50% ; эллипс концентрации — между 80% и 90% При эллипс содержал бы 99% совокупности,

6.4.4.4. Модифицированный алгоритм

Новыми основными функциями являются (рис. 6.11), так что

где и -функции, определенные в 6.2.1.

Рис. 6.1.1.

Отображение определено следующим образом:

(N.B. априори неизвестно.) это отображение распространенное на множество

В процесс одной итерации исходного алгоритма включается, таким образом, поиск ядер классов и многообразий главных факторов этих классов, т. е. на каждой итерации и для каждого класса исключают точки, проекции которых на -мерное многообразие лежат вне проекции индикаторного эллипсоида, и, следовательно, эти точки лежат вне этого эллипсоида. Исключение таких точек влечет, вообще говоря, изменение положения осей, особенно в случаях, аналогичных приведенному в 6.4.4.2. В самом деле, для например, если х не принадлежит ядру, то следовательно, вклад точки х в ось 1 важен (по крайней мере он больше среднего вклада других индивидуумов). Исключенные индивидуумы — это те, которые в наибольшей степени «объясняют» ось. Удаление их позволяет видеть, только ли благодаря им ось занимает свое положение.

6.4.4.5. Эффект применения метода в примере, описанном в 6.4.4.2

Рис. 6.12 (см. скан)

Замечание 1. Модифицированный алгоритм не сходится.

Замечание 2. Использование метода, описанного выше, должно быть ограничено и рассматриваться лишь как способ коррекции, возможно, плохого случайного начального выбора разбиения.

Замечание 3. Этот метод применяется только с 3-й итерации и в процессе ограниченного числа итераций, что, как правило, достаточно для исключения эффекта цилиндра. Можно либо фиксировать априори число итераций, либо прекратить использование этой модификации алгоритма, как только критерий перестанет убывать.

Замечание 4. Метод оказывается очень эффективным при обработке данных, представляющих собой узлы на плоскости.

6.4.4.6. Приложение: классификация анонимных индивидуумов

В факторном типологическом анализе поиск классов сопровождается их характеризацией; полученная типология описывается множеством К аффинных многообразий, она может быть также охарактеризована К функциями близости где мера близости индивидуума и аффинного многообразия типологии.

Будем определять принадлежность нового индивидуума к классу, вычисляя и сравнивая значения в точке К функций близости:

Например, согласно исходному определению (см. 6.2.1)

где набор характеризует и где оператор проектирования на ось определенный формулой рассматривается как дополнительный индивидуум при анализе класса).

Заметим, что в этом частном случае типология индуцирует разбиение на К областей разделенных гиперплоскостями так, что

Можно считать, что принадлежность точки х к области С влечет, естественно, принадлежность ее к классу Однако необходимо отметить, что, отождествляя принадлежность к классу и принадлежность к области мы не принимаем во внимание различия в численности, форме и дисперсии классов.

Можно считать более обоснованным отнесение индивидуума к классу если он принадлежит этому классу по предыдущему критерию

и, кроме того, если он при проекции в попадет внутрь эллипсоида концентрации, т. е.

В других случаях при рассмотрении меры близости между можно определить такое наименьшее число что следовательно, знать положение относительно эллипсоидов, гомотетичных индикаторному эллипсоиду. Это позволяет, в частности, решить проблему граничных точек: если и то индивидуум может быть отнесен к даже когда

Тем не менее в принятии решения, куда отнести индивидуум, мера близости предпочтительнее, так как она согласована с алгоритмом, чего нельзя сказать

Замечание. В случае когда разбиение получено с помощью алгоритма ANATYP-B (локальные метрики),

если, кроме того, система масс для каждого класса нормирована, то

и точка, имеющая близкие «расстояния» до двух классов, относится к тому классу, масса которого больше, поскольку

1
Оглавление
email@scask.ru