Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.2. МЕТОД

6.2.1. Основные пространства и функции

Пусть конечное множество классифицируемых объектов, характеризуемых параметрами, т. е. рассматривается как часть аффинного пространства .

Пусть распределение массы на

Пусть метрика на индуцированное расстояние. Пусть (или проще -пространство представительств: множество аффинных подмногообразий размерности

Основу метода составляют следующие четыре отображения. 1) Определим меру близости между элементами и аффинными многообразиями как отображение:

где

Пусть V — направляющее подпространство — некоторая точка А,; если обозначить через оператор -ортогонального проектирования на то

Замечание 1. Когда к имеет размерность (т. е. сводится к одной точке а) у то

Замечание 2. Так как для любой точки существует вектор такой, что у а то

но вектором из V, ближайшим к , является , откуда

где есть оператор проектирования на ось, порожденную вектором базиса подпространства Соотношение (2) используется для практических расчетов.

Замечание 3. Можно интерпретировать как момент инерции точки х относительно аффинного многообразия X (т. е. инерции распределения массы, сосредоточенной в В дальнейшем пусть и распределение определено как в 6.2.1. Если обозначить через инерцию распределения относительно то

Эта величина, которую мы собираемся использовать в дальнейшем, будет также называться моментом инерции класса относительно К.

Замечание 4. Исходя из данных, которые нужно обрабатывать, и из желаемых результатов можно предложить другое определение более общее, чем предыдущее:

при (если то Сходимость алгоритма можно доказать и в этом случае.

2) - «функция» агрегирования, связанная с и определяемая следующим образом:

где

Это определение необходимо уточнить; при переходе от итерации к сталкиваются с одной из трех возможностей:

ситуация такова, что точка х остается в классе, которому она принадлежала на шаге, так как переход ее в другой класс не приводит к улучшению критерия и (2) — это случаи, когда х переходит в другой класс в соответствии со строгим убыванием критерия.

В случае (2) при наличии многих классов, расположенных на равном расстоянии от х, точку х относят к классу с наименьшим индексом. Итак, имеем следующее определение:

Очевидно, что такое определение имеет чисто теоретический интерес, практически же случаи равенства расстояний от точки х до представительств разных классов маловероятны. Но при таком определении каждой модификации разбиения соответствует улучшение критерия определенного ниже. Это позволяет доказать и использовать в 6.3.4.2 свойство ограниченной инъективности функции

Замечание действительно является функцией, так как есть разбиение, однозначно определенное таблицами близости между индивидуумами и центрами агрегирования.

Замечание 2. Интуитивно ясно, что новый класс состоит из точек (число точек класса априори не фиксировано), более «близких» (в смысле расстояния, определенного в 6.2.1) к многообразию чем к любому другому многообразию.

3) Определим меру близости

между классами и аффинными многообразиями следующим образом

Определим также

Нетрудно заметить, что (см. замечание 3 на с. 102) и что аналог меры среднего рассеяния класса вокруг аффинного многообразия будет предполагаться инъективным относительно первого аргумента, т. е.

Предполагается, что распределение масс имеет равную инерцию относительно двух многообразий только в том случае, когда эти многообразия совпадают, что неверно, например, в случае равномерного распределения в области с симметриями. Однако на практике такие распределения маловероятны.

4) g - «функция», связанная с которая позволяет определять К центров агрегирования исходя из -разбиения Она задается следующим образом:

где аффинное многообразие размерности такое, что т. е. это -мерное аффинное многообразие в относительно которого распределение имеет минимальную инерцию.

Воспользуемся следующими известными фактами:

где два «параллельных» аффинных многообразия и по теореме Гюйгенса

Следовательно, есть аффинное многообразие, проходящее через центр тяжести класса

2. Если положить то решение получим при одновременном исследовании двух квадратичных форм: квадратичная форма инерции распределения положительно определенная квадратичная форма, определяющая на евклидову структуру.

Из известных результатов факторного анализа (см. [1]) следует, что

векторное подпространство, порожденное первыми главными осями инерции сгущения Поскольку

имеем

Существование -центра дающего решение задачи на минимум, таким образом, доказано, но, конечно, условие для единственного не обязательно должно выполняться. Известно, что в случае кратных собственных значений подпространство определяется не единственным образом. Следовательно, в общем случае не является функцией. Однако в многочисленных приложениях кратные собственные значения встречаются только как исключение; они «появляются естественным образом только при наличии симметрии геометрической конфигурации». Поэтому мы не обращаем внимания на этот случай.

Замечание. Формализм при использовании локальных метрик. Квадратичная положительно определенная форма определяющая на евклидову структуру, может быть:

выбрана раз и навсегда (алгоритм ANATYP-A, описанный в 6.2.3); связана с анализируемым сгущением (алгоритм ANATYP-B см. 6.3.3.). В этом случае формализм, принятый здесь, следует модифицировать. Новые определения будут даны в 6.3.2.

1
Оглавление
email@scask.ru