Главная > Идентификация систем. Теория для пользователя
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

Приложение II. Некоторые статистические методы линейной регрессии

Цель этого приложения двоякая: первая — напомнить о статистических методах как о теоретическом фундаменте части II этой книги, вторая - рассмотрение методов, алгоритмов, теоретического анализа и статистических свойств оценок линейной регрессии как прототипов более сложных структур, обсуждаемых в части II. Это приложение можно рассматривать, таким образом, как предварительное ознакомление с идеями и анализом, максимально свободными от технических деталей. Приложение составлено так, что его можно читать независимо от остальной части книги (и наоборот).

11.1. Линейные регрессии и оценка МНК

Линейные регрессии относятся к наиболее часто употребляемым в статистике, а метод наименьших квадратов уходит корнями в классическую работу Гаусса 1809 года [128]. Эти методы изложены во многих учебниках, из которых упомянем книги Рао [335, гл. 4], Дрейпера и Смита [101] и Дениела и Вуда [90].

Понятие регрессии. Статистическая теория регрессии связана с задачей предсказания величины у на основе информации, полученной при измерении других величин Например, зависимая переменная у могла бы представлять собой величину урожая, в то время как независимые переменные (регрессоры) давали бы информацию о количестве выпавших осадков, солнечных дней, качестве почвы и т.п. Известно огромное количество таких ситуаций во всех областях человеческой деятельности. Динамические системы, рассмотренные в части 1, образуют, очевидно, другой пример применения понятия регрессии, в которому — выходная величина

системы (в данное время) а содержат информацию о прошлом поведении. Обозначим

Задача состоит в нахождении функции регрессоров такой, чтобы разность

была мала (т.е. чтобы было хорошим предсказанием для Если у и описываются как случайные величины, можно, например, стремиться к минимизации

Хорошо известно, что функция минимизирующая (11.1), представляет собой условное математическое ожидание у при данных

Эта функция известна также как функция регрессии или регрессия у на

Другой подход состоит в поиске функции имеющей максимальную корреляцию По существу ответом является функция регрессии. См. задачу

Линейные регрессии. Если свойства величину и неизвестны, определить функцию регрессии априори невозможно. Ее приходится оценивать по данным и, следовательно, она должна быть удобным образом параметризована. Наиболее интенсивно изучался случай линейной параметризации. При этому приближается линейной комбинацией величин

Обозначая вектор

(11.3) можно переписать в виде

Замечание. Конечно, можно также рассмотреть близкую функцию

Однако, расширяя регрессоры константой соответственно, вектор параметров в, случай сводим к

Оценки наименьших квадратов. Обычно мы не располагаем точной априорной информацией относительно соотношения между и Вместо этого мы имеем данные истории, набор предыдущих наблюдений соответствующих друг другу величину и Удобно перенумеровать эти величины, используя аргумент

Используя эти данные, можно заменить дисперсию выборочной

В линейном случае имеем, таким образом, вместо

и теперь в удобно выбирать как аргумент, минимизирующий

Это - оценка наименьших квадратов. В качестве функции предсказания, основанного на предыдущих наблюдениях, можно, таким образом, использовать

Отметим, что этот метод выбора в имеет смысл независимо от того, рассматриваем ли мы задачу в рамках стохастического подхода. Параметр в является величиной, дающей наилучшее предсказание по полученным данным. Эту прагматическую интериретацию оценки наименьших квадратов дал еще ее автор К.Ф. Гаусс:

В заключение принцип, по которому сумма квадратов разностей между наблюдаемыми и вычисляемыми величинами должна быть минимальна, может рассматриваться следующим образом независимо от исчисления вероятностей [128].

Важной чертой является то, что эта функция квадратична по в. Следовательно, ее можно минимизировать аналитически (см. задачу Находим, что любая оценка удовлетворяющая уравнению

доставляет глобальный минимум функции Эта система линейных уравнений известна как нормальные уравнения. Если матрица в левой части этого уравнения обратима, получаем выражение оценки наименьших квадратов

Формирование матрицы. Иногда выражения более удобно записывать в матричной форме. Определимых -вектор-столбец

и -матрицу

Тогда критерий можно переписать как

Нормальные уравнения принимают вид

а оценка

В (11.15) можно выделить псевдообратную к (по матрицу:

Таким образом, уравнение дает псевдообратное решение для переопределенной системы линейных уравнений

Геометрическая интерпретация. Решению наименьших квадратов можно дать геометрическую интерпретацию, которая полезна для определения некоторых свойств. Положим

и рассмотрим как векторы в пространстве Задача, выраженная соотношением (11.17), состоит в нахождении линейной комбинации векторов приближающей наилучшим образом.

Рис. II.]. Оптимальное среднеквадратическос решение как ортогональная проекция

Пусть -мерное подпространство, натянутое на векторы Если оказывается, что вектор принадлежит этому подпространству, его можно описать как единственную линейную комбинацию векторов В противном случае, наилучшим приближением в подпространстве является такой вектор в который имеет наименьшее расстояние от т. е., как хорошо известно, ортогональная проекция на См. рис. А

Обозначим эту проекцию Так как это ортогональная проекция, имеем

Это значит, что

и, поскольку имеем для некоторых координат

Отсюда

что в матричной форме имеет вид

Взвешенные наименьшие квадраты. В критерии различным наблюдениям придан одинаковый вес. Иногда приходится рассматривать взвешенный критерий

Это может иметь две причины.

1. Наблюдения у могут быть различной надежности. Некоторые наблюдения могут, например, содержать большие возмущения и, следовательно, должны иметь меньшие веса. (11.20)

2. Наблюдения могут быть изменяющейся информативности. Возможно, нет уверенности, что линейная модель имеет место во всей области изменения

Наблюдение, относящееся к такой подозрительной области, даже если оно точное, должно, следовательно, иметь меньший вес. (11.21)

Обозначив диагональную матрицу

критерий (11.19) можно переписать в виде

Нетрудно проверить, что минимум достигается при значении аргумента

По некоторым причинам можно также использовать критерий (11.23) для произвольной симметрической, положительно определенной матрицы При этом предыдущая формула (11.24) по-прежнему верна. Чтобы понять, что происходит, в терминах исходных измерений, удобно произвести факторизацию

где нижняя треугольная матрица с единицами на диагонали:

диагональная матрица, как в Тогда принимает вид

Элементы этих матриц равны

Таким образом, имеем

Следовательно, влияние общей нормы в (11.23) сводится к тому, что исходные наблюдения должны обрабатываться фильтром

Невязки и ошибки предсказания. Разность

представляет собой ошибку, соответствующую значению в. Будем называть эту ошибку ошибкой предсказания, соответствующей параметру в. Вектор ошибок предсказания равен

а критерии (11.7) и (11.23) являются квадратичными нормами этого вектора. Нормы; не являющиеся диагональными, соответствуют суммам квадратов профильтрованных ошибок предсказания, аналогично

Будем называть

невязками (остатками), связанными с моделью

Рассмотрим теперь дня простоты случай Обозначим вектор невязки

а предсказание выходной величины

Из геометрической интерпретации известно, что Ем и ортогональны. Значит,

что также можно записать в виде

показывающем, каким образом сумма квадратов наблюдений расщепляется на суммы квадратов предсказаний

и невязок

Идеальной представляется ситуация, когда по предсказанным значениям выходной величины ум можно описать и изменение большей части действительных выходных величин. Отношение

является мерой доли общего изменения у, описываемого регрессией. Оно известно как множественный коэффициент корреляции (квадратичный) и часто выражается в процентах. Иногда прежде, чем вычислять среднее значение у вычитают из у и у.

Качество оценки параметров. Чтобы исследовать свойства оценки допустим, что действительные измерения могут быть описаны равенством

где некоторая последовательность возмущений или ошибок пока еще неуказанной природы. Если эта последовательность имеет некоторые приятные (описанные ниже) свойства, естественно называть "истинным параметром”. Если обозначить

можно записать (11.39) как

Подставляя это выражение в получаем

где

что в случае записывается также в виде

Это выражение для ошибки по параметру имеет чисто алгебраическую природу и справедливо для произвольных последовательностей Если и квазистационарны, видно, что при стремящемся к бесконечности, стремится к

где использовано обозначение (2.62). Если матрица (0) обратима (это соответствует предположению, что последовательность имеет полный ранг), а равна нулю (что соответствует определенной независимости между

регрессорами и возмущением), то будет стремиться к истинному значению с ростом числа наблюдений.

Для того чтобы можно было сказать большее относительно свойств естественно описывать последовательность возмущений с вероятностных позиций. Это будет сделано в следующем разделе.

Categories

1
Оглавление
email@scask.ru