Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

11.3.4. Решение и его свойства

11.3.4.1. Статистическая и алгебраическая интерпретация функции представительства

Оценки коэффициентов регрессионного многочлена, минимизирующие квадрат нормы его отклонения от центра тяжести где номер класса. Пусть С — множество МНК-оценок вектора коэффициентов С, иначе говоря, множество функций от минимизирующих (см. [2]). Оценка С является решением системы нормальных уравнений, имеющих в матричной записи вид

Эта система получается, если приравнять к нулю производную по С выражения

Если ранг матрицы равен 1, то матрица обратима и система имеет единственное решение

Алгебраическая интерпретация многочлена, приближающего центр тяжести класса. Пусть максимальная степень искомого многочлена, Рассмотрим пространства и сопряженные к ним пространства и Предположим, что в введена метрика Пусть базис пространства многочленов многочлен степени а); матрица, столбцами которой являются векторов, принадлежащих с координатами равными значениям базисных многочленов в точках носителя Обозначим через векторное подпространство в порожденное векторами

Наша задача состоит в определении коэффициентов таких, чтобы точка

была наиболее близкой к в метрике Это эквивалентно нахождению вектора такого, что

Известно, что такая точка единственная и является -ортогональной проекцией вектора на Итак, можно сформулировать следующий результат:

Замечание. Несмотря на то что точка единственна, разложение (9) единственно только в том случае, когда столбцы матрицы составляют базис в в противном случае существует сколько угодно разложений такого вида.

Сформулируем лемму и предложения, которые при определенных условиях доказывают существование и единственность регрессионного многочлена в некотором классе.

Лемма. Если А — базис УИ-ортогональных многочленов на носителе то столбцы матрицы составляют УИ-ортогональный базис в подпространстве

Предложение 2. Пусть и А — базис из -ортогональных многочленов с носителем тогда существует единственная точка следовательно, многочлен такой, что

значение полинома определяется формулой (см. обозначения в 11.2)).

Рис. 11.2

Алгебраическая интерпретация оценки величины Матрицу можно рассматривать как линейный оператор ранга действующий из Матрица задает изоморфизм пространств (рис. 11.2). Поскольку в то откуда

и

Положим

Несложно показать, что является идемпотентным и -симметрич-ным оператором, переводящим в Значит, его можно считать УИ-ортогональным проектором. Таким образом, оценка многочленом степени не выше сводится к построению оператора по формуле (11) для каждого класса

Замечание. Далее будет доказано предложение, которое позволит нам для каждого фиксированного записать отображение следующим образом:

где проектор, определяемый согласно при соответственно центр тяжести, метрика и матрица А, ассоциированные с классом

Предложение 3. Регрессионный многочлен степени класса (т. е. многочлен, минимизирующий является МНК-оценкой центра тяжести класса

Доказательство. Вектор коэффициентов С оценивается по формуле (10). Пусть многочлен с этими коэффициентами и

— вектор, координатами которого являются оценок значений многочлена, аппроксимирующего центр тяжести на носителе на носителе По построению X такой, что

Выражение (12) является функцией от X вида

где постоянная, равная первому слагаемому выражения в квадратных скобках, а функция определяется двумя последними слагаемыми. Это можно записать в виде

И предложение 2 может быть сформулировано следующим образом:

Поскольку а — постоянная,

Следовательно,

Итак, многочлен X, минимизируя приводит к минимуму и что и требовалось доказать.

11.3.4.2. Качество регрессии. Подгонка степени многочлена

Постановка задачи. Мы уже рассматривали задачу нахождения многочлена, определяемого коэффициентами такого, чтобы невязка достигала минимального значения. При фиксированном значении решение С существует и единственно. Интересно было бы узнать, какие коэффициенты вносят существенный вклад в аппроксимацию и какими С можно пренебречь (ниже будет уточнен смысл сказанного).

Иначе говоря, можно задаться вопросом, насколько оценка

обозначаемая лучше оценки

где или оценки

обозначаемой где

Заметим, что во всех трех формулах используются одни и те же коэффициенты Это является следствием статистической независимости коэффициентов регрессионного многочлена, что уже было отмечено в 11.3.2.3.

Для определения качества оценки рассмотрим величину

Очевидно, что имеет место разложение

и, следовательно,

Итак, чем выше степень многочлена, тем лучше (в смысле аппроксимация.

Заметим, что критерий (16) не может нас удовлетворить, так как он определяет точность оценки, не принимая во внимание ее сложность. Мы же предпочли бы более простую модель (т. е. оценку многочленом более низкой степени) при условии, что качество оценки меняется незначительно. Если желательно знать, насколько использование многочленов улучшит качество аппроксимации, можно воспользоваться величиной

При заданном доверительном интервале сравнение ее значения с соответствующим значением в таблице позволяет оценить, насколько оценка многочленом степени лучше оценки, когда степень многочлена

Замечание. В случае более общей оценки (14) следует сравнивать все возможные аппроксимации.

Применяемый метод. Мы используем процедуру «восходящего» включения базисных хмногочленов в аппроксимацию. Эта процедура осуществляется одновременно с выбором коэффициентов.

Положим При оценке не используется базисный многочлен степени , тогда величина

измеряет качество аппроксимации относительно аппроксимации многочленом Процесс останавливается, если последний многочлен, включаемый в аппроксимацию, не является значимым согласно статистике

Поскольку при подгонке степени многочлена алгоритм меняется, появляется опасность неубывания последовательности (см. 11.3.3.2). В самом деле, если при переходе от одного шага итерации к другому

степени многочленов для некоторых классов уменьшаются, то расстояния (2) могут только возрастать, даже если мы пользуемся наилучшей аппроксимацией в определенном смысле.

Более точно: пусть два последовательных шага итерации; центр тяжести класса Обозначим через

ошибки, соответствующие оценкам многочленом степени Имеем

Если же на шаге

то всегда если и неравенство (17) может не выполняться. С другой стороны, согласно правилу выбора интуитивно ясно, что исключенные многочлены не вносят существенного (в смысле вклада в объяснение

На ЭВМ была проведена проверка этого явления. Случаи неубывания наблюдались крайне редко и то на начальных шагах итерации. Алгоритм всегда сходился. На самом деле, если при уменьшении степени многочлена имеет место возрастание критерия, то, когда классы и степени стабилизируются (т. е. на конечных шагах итерации), критерий снова начинает убывать и алгоритм сходится. Во всяком случае всегда есть возможность вернуться к оценкам многочленами заданной степени.

11.3.4.3. Применение в геологии

Исследовались данные о содержании руды (железа, никеля, кобальта) на 120 участках. Рассматривалось 25 уровней глубины залегания.

Носитель описывает 25 уровней глубины, причем любые два соседних уровня отличаются на один метр. Исходные данные не содержали пропущенных значений. Мы попытались определить «порог значимости» описанного в этой главе метода. Иначе говоря,

Рис. 11.3

тались найти долю пропущенных данных, при которой результаты очень сильно отличались бы от результатов, полученных по данным без пропусков. Для этого метод типологического сглаживания был применен сначала к исходным данным, а затем к данным с 10 и 20% случайных пропусков. Было проведено 5 прогонов алгоритма, число классов взято равным 5, степень многочленов — тоже 5. Результаты для никеля приведены в виде графиков на рис. 11.3-11.5.

Рис. 11.4 (см. скан)

Было замечено, что при различных прогонах алгоритма объекты очень часто попадали в одни и те же классы. Если сравнить результаты, полученные по полным данным и по данным с 10 и 20% пропусков, можно заметить, что полученные классы мало менялись. Это говорит об определенной эффективности метода.

Рис. 11.5 (см. скан)

1
Оглавление
email@scask.ru