Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.3.4. Восстановление данных по ограниченному числу локальных факторов

6.3.4.1. Восстановление данных по ограниченному числу факторов [1, т. II А, с. 33—35]

Для восстановления таблицы данных по результатам локального анализа здесь применяется факторный типологический анализ. Использованы те же обозначения, что и в 6.3.1. Таблице данных соответствуют: таблица (распределение вероятностей на маргинальные законы

сгущения профилей (с центром тяжести расположенных в гиперплоскости пространства ортогональной вектору

Если с помощью факторного анализа соответствий определить главных направлений «вытянутости» сгущения, задаваемых направляющими векторами то

где координата вектора в базисе Исходя из (7) получим две эквивалентные формулы для восстановления данных по факторам:

Если вместо фактора используется только факторов, то (8) и (9) сводятся к приближенным формулам порядка

Восстанавливая данные по этим формулам, получают аппроксимации таблицы

порядка 0, скажем где

или, что является более общим, порядка скажем где

таблица, наиболее близкая к в смысле, который мы сейчас уточним, рассматривают как распределения вероятностей на чтобы оценить точность аппроксимации, множество всех распределений вероятностей на снабжают метрикой с центром Тогда имеем

т. е. полную инерцию сгущекня

т. е. инерцию, не объясненную первыми главными осями инерции

Рассмотрим аппроксимацию порядка и обозначим через ошибку для элемента таблицы:

В качестве глобальной ошибки возьмем норму матрицы

где абсолютный вклад элемента в общую инерцию, и соответствующий нормированный показатель

доля инерции, объясняемая осью a).

6.3.4.2. Восстановление данных по локальным факторам

Данные составляют таблицу чисел с общей суммой ее хотят восстановить по результатам локальных анализов соответствий.

Для каждого рассматривают частную таблицу с общей суммой так что

Рис. 6.3

Определим таблицу

Она имеет общую сумму 1 и маргинальные законы определенные следующим образом:

С этой таблицей связано множество профилей:

Сгущение, которое надо анализировать, имеет, следовательно, вид:

Определяя с помощью факторного анализа соответствий для каждого главные факторы, получим

Таким образом, учитывая (12), (13), для восстановления получим

Пусть — ошибка, сделанная в результате замены элемента таблицы его аппроксимацией порядка полученной исходя из (14).

Пусть ошибка, сделанная при замене его аппроксимацией порядка полученной исходя из (15). Тогда:

откуда

N. В. Ограничение вектора на отлично от это находит отражение в формуле

Для метрики с центром расстояние между исходной таблицей и таблицей-приближением с помощью (15) нулевого порядка равно:

Итак, если через обозначить -мерное аффинное многообразие — центр агрегирования класса (т. е. его центр тяжести), то

аналогично

и, следовательно, для каждого класса представляет собой расстояние в метрике с центром между исходной восстанавливаемой частной таблицей и таблицей-приближением порядка

Восстановление полной таблицы по частям. Рассмотрим множество распределений вероятностей на с метрикой с центром соответствующей матрице где диагональная матрица, соответствующая вектору

Рис. 6.4

Пусть — таблица приближений порядка восстановленная по частям, пусть исходная таблица, причем обе таблицы упорядочены согласно последовательности Имеем

где

Мы видим, что критерий точности аппроксимации представляет собой сумму расстояний между К частными исходными таблицами таблицами их локальных приближений порядка

То же верно для расстояния между полной исходной таблицей и ее аппроксимацией порядка описанной выше.

Теперь можно сравнить расстояние между и таблицей, восстановленной по факторам глобального анализа,

с расстоянием между и таблицей, восстановленной по локальным факторам,

Мы сейчас увидим, что если классы выбраны хорошо, то расстояние может быть значительно меньше

Предложение. Пусть глобальное сгущение; аффинное -мерное многообразие, натянутое на его главные оси инерции; его инерция относительно Пусть разбиение, полученное в результате работы алгоритма исходя из некоторого разбиения из Тогда если то имеют место неравенства

Замечание 1. Поскольку при использовании локальных метрик встает проблема сходимости алгоритма (см. 6.3.3), следует выбирать в подмножестве разбиений, для которых алгоритм сходится.

Напомним, что если метрика не зависит от анализируемого класса, то в противном случае

Замечание 2. В частном случае, когда проводят анализ соответствий, из и имеем:

Доказательство. Пусть имеются разбиения Обозначим через класс из

Положим Тогда

Поскольку

и

то

Повторяя этот прием столько раз, сколько необходимо, докажем неравенство

В самом деле, считая выполненной принятую в 6.2.1 весьма разумную гипотезу инъективности относительно первого аргумента, т. е.

имеем

Итак,

Если то последнее равенство может достигаться лишь в том случае, когда класс расположен симметрично относительно что маловероятно. Следовательно, резонно полагать, что

поэтому

Второе неравенство из формулировки предложения является следствием свойств итеративной процедуры. Более того, оно строгое в том случае, когда начальное разбиение не является несмещенным. В

самом деле, в силу свойства функции о котором мы напоминали в Следовательно, если то Это предложение показывает, что средняя ошибка при восстановлении таблицы данных методом глобального анализа больше средней ошибки при восстановлении методом локальных анализов по классам.

Рис. 6.5. Кривая убывания критерия (ошибки для восстановленных таблиц с помощью аппроксимаций порядка 3)

Первое неравенство может наводить на мысль, что уменьшение ошибки в большей степени происходит благодаря разбиению на классы, а не благодаря действию алгоритма. На самом же деле все рассмотренные авторами примеры показывают, что, хотя критерий убывает при переходе от глобального анализа к анализу К классов некоторого разбиения его значение остается по величине того же порядка

Напротив, применение нашего алгоритма гарантирует быстрое убывание значения критерия до величин, существенно меньших по порядку (см. кривую убывания на рис. 6.5).

1
Оглавление
email@scask.ru