Главная > Прикладной регрессионный анализ, книга 2
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

10.5. ГЕОМЕТРИЯ ЛИНЕЙНОГО МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ

Чтобы понять, почему итеративные методы при использовании их в нелинейных задачах не всегда приводят к успеху, полезно рассмотреть в первую очередь геометрическую интерпретацию линейного метода наименьших квадратов. В линейном случае, используя обозначения данной главы, можно записать модель так:

где есть функции от ?. Если наблюдения содержащие ошибки соответствуют значениям переменных при то можно записать модель в альтернативной форме:

где

(Заметим, что можно получить «член в этой модели, полагая, для Поверхность суммы квадратов, соответствующую уравнению (10.1.5), можно записать так:

Продифференцируем это выражение по 0, приравняем результаты к нулю и заменим затем 0 на 0. Получим нормальные уравнения

Если невырожденная матрица, то решение данной системы уравнений выражается формулой

Напомним, что сумма квадратов, обусловленная регрессией, есть а остаточная сумма квадратов выражается формулой Далее,

так как 0 удовлетворяет нормальным уравнениям. Таким образом, есть наименьшее значение величины , и она равна остаточной сумме квадратов в таблице дисперсионного анализа. Мы можем, следовательно, записать

Когда ошибки независимы и каждая из них подчиняется распределению т. е. можно показать, что если модель верна, то верны следующие результаты:

распределены независимо, так что их отношение подчиняется распределению Фишера:

Имеются два различных, но связанных между собой способа исследования контуров, определяемых соотношением Их можно исследовать в выборочном пространстве (в котором существо метода наименьших квадратов объясняется наилучшим образом), а также в пространстве параметров (где ограничиваются указаниями только контуров поверхности суммы квадратов Обсудим оба эти способа.

Выборочное пространство

Выборочное пространство — это -мерное пространство. Вектор наблюдений означает вектор начало которого совпадает с точкой О, а конец — с точкой имеющей

координаты Матрица X имеет столбцов, каждый из которых содержит элементов. Элементы столбца определяют координаты точки в выборочном пространстве, вектор-столбец матрицы X определяет вектор в выборочном пространстве. Множество из векторов определяет подпространство размерности называемое пространством оценок (estimation space), которое содержится в выборочном пространстве. Любая точка этого подпространства может быть представлена с помощью вектора, являющегося линейной комбинацией векторов, порождающих это пространство, т. е. столбцов матрицы Так, например, где представляется -вектором в этом пространстве. Предположим, что вектор определяет точку Т. Тогда квадрат расстояния задается выражением

как было показано ранее. Таким образом, сумма квадратов 5 (0) в выборочном пространстве есть квадрат расстояния от точки У до произвольной точки Т в пространстве оценок. Минимизация по 0 как раз и предполагает отыскание такой величины 0 (обозначаемой буквой 0), которая дает точку Р (определяемую вектором в пространстве оценок, наиболее близкую к точке У. Следовательно, точка Р должна быть основанием перпендикуляра к пространству оценок, проведенного через точку т. е. принадлежать прямой ортогональной ко всем вектор-столбцам матрицы . С помощью векторов, выходящих из начала координат, мы можем записать

где есть вектор остатков. Вектор таким образом, раскладывается на две ортогональные компоненты: 1) вектор принадлежащий пространству оценок, и 2) вектор вектор остатков, принадлежащий пространству, именуемому пространством ошибок. Пространство ошибок определяется как -мерное подпространство, которое содержится в полном -мерном пространстве. Оно представляет собой ортогональное дополнение пространства оценок. Можно показать алгебраически, что ортогональны:

Поскольку 0 удовлетворяет нормальным уравнениям, никакие комментарии к этим выкладкам не требуются. Вектор есть вектор

выходящий из начала координат О. Он имеет длину и при этом данный вектор параллелен вектору

Если Т — произвольная точка в пространстве оценок, а вектор ортогонален к этому пространству, то

или

Таким образом, контуры, для которых соблюдается условие должны удовлетворять соотношению

Следовательно, контуры, определяемые из условия содержат все точки Т в выборочном пространстве, для которых т. е. точки вида лежащие на -мерной сфере в пространстве оценок с центром в точке Р, задаваемой вектором Радиус этой сферы равен Используя приведенное ранее соотношение

можно определить границы -ной доверительной области для точки с помощью равенства

откуда получаем

Это выражение можно представить в форме которая показывает, насколько величина больше, чем минимальная величина суммы квадратов, т. е. . Доверительная область будет, таким образом, включать внутренность сферы в пространстве оценок с центром в точке Р и радиусом, равным

Выборочное пространство при ...

Чтобы проиллюстрировать ранее высказанные соображения, будем исходить из предположения, что Если то возникнет более сложная ситуация, которая не изображается графически. Однако мысленное обобщение результатов, полученных при на случай большей размерности труда не составит.

На рис. 10.9 изображено выборочное пространство для случая, когда координатные оси обозначены индексами 1, 2 и 3, что соответствует трем компонентам вектора

Рис. 10.9. Выборочное пространство при

Мы будем предполагать далее, что имеется параметров и X есть -матрица вида

Столбцы матрицы X определяют две точки с координатами соответственно, а векторы и определяют плоскость, задающую двумерное пространство оценок, в котором должен лежать вектор Точка У лежит вне этой плоскости, и перпендикуляр из точки У на плоскость пересекает плоскость в точке Р. Таким образом, есть

наикратчайшее расстояние от до любой точки в пространстве оценок; точка Р определяется с помощью соотношений Поскольку стандартное разложение, используемое в дисперсионном анализе, можно записать в виде

или

что эквивалентно теореме Пифагора

Если мы теперь построим отрезок проходящий через точку О, равный по длине (так как и параллельный вектору то будет вектором остатков Вектор есть вектор так что мы имеем векторное уравнение

или

Теперь мы можем сказать, что контуры постоянных значений вообще представляются в пространстве оценок сферами. Однако на плоскости контуры представляют собой окружности. Это легко видеть, ибо если Т есть произвольная точка на плоскости, то, означает, что так что Таким образом, мы получаем окружность с центром в точке Р. Одна такая окружность показана на рисунке. Окружность, которая дает -ную доверительную область для точки соответствующей теоретическим значениям параметров, имеет радиус

Это соотношение получается путем подстановки в общую формулу.

Геометрия выборочного пространства, когда модель ошибочна

Предположим, что есть постулируемая линейная модель, содержащая параметров, а истинная линейная модель выражается уравнением

и включает дополнительные слагаемые не учитываемые в постулируемой модели. Поскольку пространство оценок содержит лишь точки вида истинная точка не может лежать в пространстве оценок. В этом случае перпендикуляр из на пространство оценок (основание которого Р задается с помощью соотношения будет длиннее, чем он был бы, если бы

использовалась правильная модель и соответствующее ей пространство оценок. Чтобы проиллюстрировать это, на рис. 10.10 приведено изображение для случая когда истинная модель включает два параметра Эта модель имеет вид

а постулируемая модель получается из нее при Единственный столбец матрицы X определяет точку и линию представляющую собой пространство оценок для постулируемой модели. Отрезок есть перпендикуляр из точки на а Р есть точка Следовательно, наименьший квадрат расстояния среди всех возможных квадратов расстояний от точки до точки на линии представляет собой квадрат длины отрезка Истинная величина определяет неизвестную точку на линии Доверительный интервал для истинной величины может быть построен на и это есть окрестность точки Р.

Рис. 10.10. Выборочное пространство при модель ошибочна

Теперь второй вектор в истинной модели определяет линию а линии определяют плоскость, в которой лежит истинная точка Предположим, что есть перпендикуляр из точки на истинное пространство оценок, задаваемое плоскостью Тогда Р представляет собой точку, которая получилась бы при правильном определении величины если бы использовалась правильная модель. Этот перпендикуляр всегда имеет длину, меньшую или равную длине отрезка так как «перпендикуляр к пространству» (в данном случае к плоскости не может быть длиннее, чем перпендикуляр к подпространству (в нашем случае — к линии Следовательно, если модель неправильна, то будет во всяком случае слишком большой. (Заметим,

что могут совпасть, и тогда величина 5 (0) будет минимальной, какая бы модель ни использовалась. Но такое совпадение может быть лишь случайным.)

Если постулируемая модель правильна, то в общем случае величина имеет математическое ожидание, равное Зная некоторую априорную оценку дисперсии получив ее на основе «чистых» ошибок, можно определить приблизительно величину Одиако если постулируемая модель не адекватна, то величина будет, вероятно, слишком большой. Стандартная проверка адекватности, выполняемая с использованием отношения (2.6.12), предназначается, таким образом, для ответа на вопрос: будет ли квадрат длины отрезка большим, чем это следует ожидать на основании имеющейся информации о величине случайной ошибки эксперимента? Какое именно значение следует считать слишком большим, определяется на основании характеристик распределения, как это делалось прежде.

Геометрическая интерпретация «чистой» ошибки

Геометрическая интерпретация «чистой» ошибки показана на рис. 10.11. В выборочном пространстве точки О соответствует началу координат, есть конец вектора наблюдений основание перпендикуляра, опущенного из точки на пространство оценок, порождаемое вектор-столбцами матрицы

Рис. 10.11. Геометрическая интерпретация чистой ошибки. Символ означает, что вектор который параллелен линии лежит в подпространстве выборочного пространства размерностью

Следовательно, вектор, выражаемый формулой Точка представляет собой конец вектора элемент которого, есть

значение отклика по группе повторных опытов, к которым принадлежит

Если группа содержит всего один опыт и повторения отсутствуют, то Легко видеть, что векторы и ортогональны, так что отрезки и взаимно перпендикулярны. В соответствии с теоремой Пифагора Эти результаты (в несколько иных обозначениях можно обнаружить в ответе к упражнению 8 гл. 1). Таким образом,

квадрат длины вектора остатков т. е. сумма квадратов остатков для подгоняемой модели;

квадрат длины вектора т. е. сумма квадратов, обусловленная «чистой» ошибкой;

квадрат длины вектора т. е. сумма квадратов, определяющая неадекватность модели.

критерий для просерки гипотезы об адекватности модели основан на сопоставлении величины где число степеней свободы для суммы, обусловленной «чистой» ошибкой, — число степеней свободы для суммы, обусловленной неадекватностью модели. Как видно, квадраты длин векторов делятся на размерности подпространств выборочного пространства, в которых лежат эти векторы. Свойства F-распределения опираются на обычное предположение о нормальности случайных ошибок.

Параметрическое пространство

Пространство параметров представляет собой -мерное пространство, точка которого определяется множеством значений параметров Минимальное значение суммы достигается в точке Мы напомним, что

Все величины , удовлетворяющие условию задаются выражением

и можно показать, что это уравнение эллипсоидного контура с центром в точке . Если контур полностью охватывает контур а точка лежит в центре этой последовательности -мерных эллипсоидов -ная доверительная область для вектора истинных, но неизвестных параметров заключена в контуре, который задается уравнением

при условии, что ошибки распределены нормально, Приведенное выражение можно переписать так.

где в правой части стоит величина, определяющая размеры контура.

Параметрическое пространство при p = 2

Проиллюстрируем рассматриваемую ситуацию при На рис. 10.12 показаны некоторые возможные контуры, отвечающие общему уравнению для трех значений правой части при

Внешний контур — это -ный доверительный контур, определенный выше. В двумерном пространстве контуры представляют собой концентрические эллипсы с центром в точке Заметим, что контуры такого типа получаются независимо от того, каким может быть число наблюдений поскольку размерность пространства параметров зависит только от

Рис. 10.12. Контуры поверхности в двумерном параметрическом пространстве

Вообще говоря, важны и ориентация и форма эллипсов. Если оси эллипсов параллельны осям то величина , минимизирующая не зависит от т. е. если зафиксировать на некотором произвольном уровне, то будет получено одно и то же значение обращающее сумму в минимум независимо от значения Это означает, что определенная информация о величине используемая при фиксировании значения этой величины, не оказывает влияния на МНК-оценку . Такая ситуация имеет место, если выражение для можно записать так, чтобы оно не содержало произведения При получаем модель

Таким образом,

где суммирование ведется по индексу

Отсюда ясно, что величина которая удовлетворяет условию и обозначается как не зависит от (и наоборот), если в этом выражении отсутствует член с сомножителем т. е. если или, что то же самое, если столбцы матрицы X ортогональны. Если же столбцы матрицы X неортогональны и в сумму квадратов входит слагаемое с сомножителем то эллипсы ориентированы наклонно по отношению к осям

Форма контуров поверхности характеризует относительную точность оценок На рис. 10.13 проиллюстрированы некоторые варианты. Единственный контур, который там показан, предназначен для того, чтобы изобразить границы -ной доверительной области и точку с координатами , представляющую собой в каждом случае МНК-оценку параметров.

Рис. 10.13. (см. скан) Интерпретация некоторых возможных -ных доверительных областей для параметров : а) определяется плохо, идентифицируется хорошо, оценки независимы. б) идентифицируется хорошо, плохо, оценки и независимы. в) параметрическая функция идентифицируется плохо, функция идентифицируется хорошо, взаимозависимы

1
Оглавление
email@scask.ru