2.4. Перебор и недобор факторов в регрессии

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

2.4. Перебор и недобор факторов в регрессии

Как правило, исследователю неизвестна истинная модель регрессии, т. е. неизвестно, какие факторы входят в регрессию. Поэтому ошибка перебора факторов или их недобора является весьма вероятной. Исследуем, к чему приводят эти ошибки спецификации, а также выясним, какие из них ведут к более серьезным последствиям. Перебор. Истинная модель есть

или

относительно которой выполнены все предположения Мы предполагаем, что

или

где Оценкой МНК в (2.33) является

Докажем, что несмещенно оценивает а. Другими словами, если обозначим то вектор-столбцы размерности соответственно. Обозначим тогда по формуле Фробениуса ХРТГХХ]

что доказывает несмещенность (2.34). Математическое ожидание оценок «лишних» параметров равно нулю, т. е. они также оцениваются несмещенно.

Можно доказать, что оценка является несмещенной оценкой

Докажем, что оценка МНК в случае перебора является также состоятельной. Для этого предположим, что матрица сильно регулярна. Таким образом, накладываем ограничение на матрицу дополнительных переменных Р: в пределе лишние переменные линейно независимы с истинными переменными Итак, пусть

при Найдем сначала предельную ковариационную матрицу «лишних» параметров Учитывая формулу 2.35), получим

Корректность этого выражения следует из того, что Далее, предельная матрица для невырождена в силу разложения определителя по формуле Таким образом,

Теперь распишем ковариационную матрицу для параметров

это также невырожденная матрица, т. е.

Итак, вектор в среднем квадратичном сходится к истинному значению

Оценка, получаемая в регрессиях с «лишними» независимыми переменными, как было показано, обладает по-прежнему рядом оптимальных свойств. Однако точность при переборе теряется. Покажем, почему это происходит. Матрица ковариаций оценки МНК для истинной модели равна а матрица ковариаций оценки для модели (2.33) с использованием (2.35) равна:

Матрица неотрицательно определена, так как где симметричная идемпотентная, а значит, и неотрицательно определенная матрица. Неотрицательная определенность влечет и неотрицательную неопределенность второго слагаемого в (2.36), т. е.

Нетрудно заметить, что если «лишнее» множество независимых переменных ортогонально истинному набору переменных, т. е. то Отсюда можно сделать вывод: если круг основных независимых переменных очерчен, то дополнительные переменные (которые могут оказаться лишними) надо стараться вводить в уравнение (2.32) так, чтобы они не «коррелировали» сильно с основным множеством переменных. Тогда потери точности

при переборе будут незначительны. Наоборот, если лишние переменные сильно сопряжены с исходным множеством переменных то потери точности будут велики (матрица а значит и будет принимать большие значения).

Недобор. В этом случае истинным уравнением является (2.32), а мы оцениваем регрессию

или

другими словами, входят в регрессию (2.37), а остальные переменных в регрессии отсутствуют. Докажем, что тогда используемая оценка

в общем случае является смещенной. Действительно,

где подвекторы вектора размерности соответственно. Перемножая члены в последнем равенстве, получим

Поскольку второе слагаемое в уравнении (2.39) отлично от нуля, делаем вывод, что оценка (2.38), т. е. оценка МНК для регрессии с недобором (2.37), является смещенной оценкой подвектора Оценка будет несмещенной, когда матрицы переменных ортогональны, т. е.

Случай ортогональности является идеальным для двух рассмотренных возможностей: перебора и недобора. Однако на практике независимые переменные сильно сопряжены. Если же в планируемом эксперименте мы полностью контролируем значения независимых переменных, то их желательно брать близко к ортогональным.

Объясним суть смещения (2.39). Прежде всего заметим, что столбец матрицы формально является оценкой МНК в регрессии Рассмотрим для примера случай Тогда смещение равно где первая вектор-строка матрицы оценка МНК неизвестной в предыдущей регрессии. Ничего нет удивительного в том, что оценка МНК в регрессии с недобором является смещенной: неучтенная часть уравнения регрессии равномерно распределяется в оценке с помощью «довесков». Суть этих «довесков» — регрессия неучтенных факторов на учтенные (2.37).

Теперь сравним, какая из оценок — или является более приемлемой с точки зрения точности оценивания истинного параметра а. Поскольку несмещенно оценивает а, то дается выражением (2.36). В качестве оценки а в регрессии (2.37) фактически выбирается поэтому

Но

поэтому

Окончательно

Сравнивая эту матрицу с матрицей (2.36), делаем вывод: в общем случае нельзя утверждать, что (2.36) меньше или больше (2.40). Например, если то легко видеть, что разница между (2.36) и (2.40) будет положительно

определена. Значит, если достаточно близко к 0, то оценка предпочтительнее. Наоборот, при матрица (2.40) неограниченно возрастает и оценка лучше. Таким образом, единственное, что можно утверждать, это то, что в некоторой окрестности лучше (2.34), вне этой окрестности наоборот (2.34) лучше (2.38). Здесь наблюдается такая же ситуация, как в параграфе 1.4. Для любой несмещенной оценки можно найти тривиальную смещенную оценку, которая в некоторой окрестности неизвестного параметра будет лучше несмещенной.

Докажем, что оценка МНК в случае недобора является несостоятельной. Доказательство для простоты будем проводить в условиях сильной регулярности матрицы Итак, предположим

Тогда

Таким образом,

при и оценка не состоятельна.

Подведем итоги: в случае перебора оценка МНК теряет в эффективности, зато остается несмещенной и состоятельной; в случае же недобора оценка МНК является смещенной и несостоятельной. По изложенным выше причинам недобор считаем более существенной ошибкой спецификации, чем перебор, так как он ведет к более тяжелым последствиям.

Проблема оптимального выбора множества независимых из данного набора переменных исследуется в [114, 93, 157, 182, 28,].

В качестве показателя правильности выбора множества переменных в [61] предлагается брать статистику Результат основывается на следующем: пусть, как и ранее, (2.32) будет истинной моделью, тогда как мы предполагаем, что модель имеет вид:

Строим оценки где — оценки МНК для регрессий (2.41) и (2.32) соответственно. Показано, что Поэтому для неправильно специфицированных моделей в среднем оценка будет больше, чем для правильно специфицированных (см. также [52]). Изложенный результат может быть применен к частным случаям неправильно специфицированных моделей: перебору и недобору. И в том, и в другом случае оценка будет (в среднем) больше оценки

<< Предыдущий параграф

Следующий параграф >>

Оглавление

Предисловие
Часть первая. ЛИНЕЙНАЯ РЕГРЕССИЯ КАК БЕЗУСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ
Глава 1. КЛАССИЧЕСКАЯ РЕГРЕССИЯ. СВОЙСТВА ОЦЕНКИ МНК
1.2. Геометрия МНК
1.3. Обсуждение предпосылок классической регрессии
1.4. Методология статистического оценивания
1.5. Теорема Гаусса-Маркова
1.6. Коэффициент детерминации и его интерпретация
1.7. Состоятельность и асимптотическая нормальность оценки МНК
1.8. Свойства оценки МНК при нормальных отклонениях
1.9. Общие принципы проверки статистических гипотез и построения доверительных интервалов
1.10. Проверка гипотез и доверительное оценивание в линейной регрессии
1.11. Доказательства
Глава 2. ДРУГИЕ ВОПРОСЫ ЛИНЕЙНОЙ РЕГРЕССИИ
2.1. Взвешенный МНК. Оценка Эйткена
2.2. Прогноз по регрессии
2.3. Регрессия с ограничениями на параметры
2.4. Перебор и недобор факторов в регрессии
2.5. Псевдонезависимые регрессии
2.6. Вычислительные трудности МНК
Часть вторая. АЛЬТЕРНАТИВНЫЕ СХЕМЫ И МЕТОДЫ ОЦЕНИВАНИЯ
Глава 3. РЕГРЕССИЯ КАК УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ
3.2. Свойства оценки МНК
3.3. Схема случайной выборки
3.4. Доказательства
Глава 4. ОШИБКИ В НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ
4.1. Постановка задачи. Оценка МНК
4.3. Метод максимального правдоподобия
4.4. Метод группировки
4.5. Метод инструментальных переменных
4.6. Оценка Картни-Вайссмана
4.7. Сравнение оценок
4.8. Доказательства
Глава 5. РОБАСТНЫЕ ОЦЕНКИ
5.1. Робастные оценки параметра положения
5.2. Простейшие методы робастного оценивания регрессии
5.3. Lv-оценки
5.4. Оценки Хюбера, Андрюса и Рамсея
5.5. Сравнение оценок методом статистических испытаний
Глава 6. МУЛЬТИКОЛЛИНЕАРНОСТЬ. СМЕЩЕННЫЕ ОЦЕНКИ
6.2. Строгая мультиколлинеарность
6.3. Смещенные оценки
6.4. Ридж-оценки
6.5. Редуцированные оценки
6.6. Оценка метода главных компонент
6.7. Оценка Марквардта
6.8. Оценка Хокинса [124]
6.9. Сравнение оценок методом статистических испытаний
Часть третья. НЕЛИНЕЙНАЯ РЕГРЕССИЯ
7.2. Существование оценки МНК
7.3. Метод Ньютона-Гаусса и его модификации
7.4. Метод Левенберга-Марквардта
7.5. Единственность оценки МНК
7.6. Сведение нелинейной регрессии к линейной
7.7. Доказательства
Глава 8. СТАТИСТИЧЕСКИЕ СВОЙСТВА ОЦЕНКИ МНК
8.1. Непрерывность и асимптотические свойства оценки МНК
8.2. Оценка смещения МНК
8.3. Проверка статистических гипотез и доверительное оценивание
8.4. Псевдонезависимые нелинейные регрессии
8.5. Доказательства
Приложение. Некоторые дополнительные формулы
Список использованной литературы