Главная > Прикладной регрессионный анализ, книга 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.1. СВЕДЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ С ДВУМЯ ПРЕДИКТОРНЫМИ ПЕРЕМЕННЫМИ К ПОСЛЕДОВАТЕЛЬНОСТИ ПРОСТЫХ ЛИНЕЙНЫХ РЕГРЕССИЙ

В параграфе 4.0 мы применили метод наименьших квадратов и получили уравнение

Другой путь получения того же решения следующий.

1. Строится регрессия на Эта линейная регрессия уже была получена в гл. 1, и окончательное уравнение имело вид

Оно не предсказывает У точно (см. табл. 1.2). Включение новой переменной, скажем (число рабочих дней), в предсказывающее уравнение может значительно улучшить предсказание. Чтобы достичь этого, мы хотим соотнести число рабочих дней с необъясненным разбросом данных после того, как исключен («снят») эффект температуры воздуха. Однако если вариации температуры воздуха так или иначе связаны с вариацией, обусловленной числом рабочих дней, то следует прежде всего внести поправку на это. Таким образом, нам предстоит определить зависимость между необъясненным разбросом в количестве используемого пара (после того, как исключено влияние температуры воздуха) и остаточным разбросом в числе рабочих дней «(после исключения из него эффекта температуры воздуха).

Рис. 4.1. Прямая метода наименьших квадратов для регрессии на

2. Строится регрессия на вычисляются остатки График зависимости от показан на рис. 4.1. Используя обозначения и методы из гл. 2, получим оценки

коэффициентов регрессии:

Отсюда а остатки показаны в табл. 4.1.

Таблица 4.1. Остатки:

Отметим, что два остатка имеют абсолютные значения, существенно большие, чем остальные. Они приходятся на те месяцы, когда число рабочих дней было необычно мало, — одиннадцать в каждом случае. Мы можем, конечно, сделать заключение, что это «выбросы» и что месяцы со столь малым числом рабочих дней не должны даже рассматриваться при анализе. Однако если мы хотим получить удовлетворительное уравнение для предсказания, пригодное для всех месяцев, независимо от числа рабочих дней, то важно учесть эти частные результаты и построить уравнение, позволяющее включить эту информацию. Как можно видеть из данных рис. 4.1 и табл. 4.2,

Таблица 4.2. Отклонения от соответственно

если игнорировать эти месяцы, то кажущееся влияние числа рабочих дней на отклик будет слабым. Это может быть не следствием несущественности фактора, а следствием того, что фактически наблюдаемая вариация его значений была слишком мала, чтобы фактор смог проявить сколько-нибудь ощутимое влияние на отклик. Если некий фактор значимо влияет на отклик в одном исследовании и незначимо в другом, то вполне возможно, что варьирование в первом множестве данных было в более широком диапазоне, чем во втором. В этом, между прочим, один из недостатков использования производственных данных в том виде, «как они поступают». Часто размах варьирования фактора так мал, что влияние на отклик не обнаруживается, даже когда фактор в более широких интервалах имеет отчетливый эффект. Поэтому планируемый эксперимент, в котором уровни назначаются шире, чем при нормальной работе объекта, часто обнаруживает эффекты, не замеченные ранее.

3. Теперь строим регрессию на подбирая модель

Заметим, что член отсутствует в этой модели первого порядка, так как мы используем два множества остатков, суммы которых равны нулю, и, таким образом, линия должна пройти через начало координат. (Если включить член то мы найдем, что в любом случае.) Для удобства оба множества остатков, используемых как данные, извлечены из табл. 1.2 и 4.1 и представлены в табл. 4.2. График этих остатков показан на рис. 4.2.

Используя формулы из гл. 1, найдем

Тогда уравнение прямой будет иметь вид

В скобки можно подставить как функции и, перенеся члены, содержащие в левую часть, получить полную зависимость в виде

или

Рис. 4.2. График зависимости для остатков из табл. 4.2

Прежний результат был

Теоретически эти результаты должны быть идентичными; практически, как мы можем видеть, они немного расходятся вследствие ошибок округления. Игнорируя пока ошибки округления, покажем геометрически на простом примере, что оба метода должны давать одинаковые результаты. (Конец этого параграфа при первом чтении можно пропустить.)

Геометрическая интерпретация

Рассмотрим пример. Предположим, мы имеем наблюдения отклика а именно которые получены в трех множествах условий Тогда, взяв трехмерное пространство с осями координат, обозначенными 1, 2 и 3 и с началом координат в нуле, можно построить точки:

Геометрическая интерпретация регрессии выглядит следующим образом. Чтобы получить регрессию У на X, опускаем перпендикуляр на Координаты точки Р — это предсказанные значения Квадрат длины отрезка это сумма квадратов, обусловленная регрессией, полная сумма квадратов и остаточная сумма квадратов. По теореме Пифагора что соответствует разложению суммы квадратов в дисперсионном анализе (см. рис. 4.3).

Если мы построим параллелограмм, который имеет диагональ а стороны и то получится параллелограмм Тогда координаты Р будут значениями остатков для регрессии переменной на переменную В векторной форме можно записать:

или в «статистической» векторной записи

Этот результат справедлив и для общего -мерного случая. (Мы рассматриваем всего лишь из-за возможности построить картинку.)

Рис. 4.3. Геометрическая интерпретация регрессии на X

Положим, что мы хотим построить регрессию для переменной на переменные одновременно. Прямые и определяют плоскость в трехмерном пространстве. Мы опускаем перпендикуляр на эту плоскость. Тогда координаты точки Т есть значения Для этой регрессии. сумма квадратов, обусловленная регрессией, остаточная сумма квадратов н -полная сумма квадратов. Снова по теореме Пифагора что дает разложение суммы квадратов, которое мы видим в таблице дисперсионного анализа. Построение параллелограмма с диагональю и сторонами дает вектор остатков этой регрессии, а координаты Т дают остатки регрессии на одновременно. Снова в векторной записи

или в «статистической» векторной записи

для этой регрессии (см. рис. 4.4).

Как мы видели выше в численном примере, те же самые окончательные остатки получаются (если игнорировать ошибку округления), когда мы строим регрессии: на X и на X, а затем

регрессию остатков (1) на остатки (2). Справедливость этого можно показать геометрически. На рис. 4.5 построены три параллелограмма в трехмерном пространстве:

Рис. 4.4. Геометрическая интерпретация регрессии на

Рис. 4.5. Построение регрессии на можно рассматривать и как двухступенчатую процедуру, описанную в тексте

Теперь регрессия остатков (1) на остатки (2) достигается с помощью перпендикуляра из Р на Положим, точка встречи есть точка Тогда прямая из О, параллельная длиною будет остаточным вектором двухступенчатой регрессии на X и на Однако точки лежат в плоскости , определяемой прямыми и Так получается точка Поскольку параллелограмм, а отрезки и перпендикуляры к плоскости , то по длине. Из того, что следует, что Однако и все параллельны друг другу и перпендикулярны к плоскости Следовательно, параллелограмм, откуда вытекает, что вектор остатков для двухступенчатой регрессии. Поэтому результаты для регрессии на получаемые независимо двумя методами, должны быть эквивалентны. Таким образом, мы можем видеть, что «плоскостная» регрессия на одновременно может рассматриваться как совокупность последовательных линейных регрессий:

3) остатков (1) на остатки (2).

Если поменять ролями, то получится то же самое. Все линейные регрессии могут быть разложены, таким образом, на серии простых регрессий.

1
Оглавление
email@scask.ru