6.3. МЕТОД ИСКЛЮЧЕНИЯ
Метод исключения более экономичен, чем метод всех регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных 4. Основные шаги этого метода сводятся к следующему.
1. Рассчитывается регрессионное уравнение, включающее все переменные.
2. Вычисляется величина частного
-критерия для каждой предикторной переменной в предположении как будто бы она была последней. переменной, введенной в регрессионное уравнение.
3. Наименьшая величина частного
-критерия, обозначаемая, скажем, как
сравнивается с заранее выбранным критическим значением, например
а) Если
то переменная
которая обеспечила достижение только уровня
исключается из рассмотрения и производится перерасчет уравнения регрессии с учетом остающихся переменных; затем переходят к следующему шагу.
б) Если
то регрессионное уравнение оставляют таким, как оно было рассчитано.
На тех же данных Хальда
, что и в предыдущем параграфе, мы проиллюстрируем теперь этот метод. Поскольку никакие преобразования предикторных переменных здесь не используются,
мы будем применять те же обозначения для переменных X, что и ранее.
Сначала получим полное регрессионное уравнение для всех предикторных переменных. В примере, который рассмотрен в 6.1, мы таким образом нашли МНК-уравнение
Анализ этой модели показан в приложении Б, с. 301. Поскольку матрица
невырожденная, полученная в итоге остаточная дисиерсия служит хорошей оценкой величины
в асимптотическом смысле, как об этом говорилось в связи с рис. 6.1. Метод исключения по существу реализует попытку удалить все ненужные переменные X без существенного увеличения значения «асимптотической» оценки
Чтобы проверить переменные на этом шаге, необходимо определить вклад каждой переменной из набора
в регрессионную сумму квадратов так, как будто данная переменная была включена в уравнение последней. Значения частных
-критериев, служащих мерами вкладов этих переменных, указаны в последнем столбце машинной распечатки.
Теперь мы выберем наименьшую величину частного
-критерия и сравним ее с критическим значением
-статистики, основанным на определенном уровне значимости а. В данном случае критическая величина, например, для
равна
Наименьшее значение частного
-критерия отвечает переменной
и равно
Так как вычисленное значение
меньше критической величины, равной 3,46, переменная
исключается.
Затем найдем МНК-уравнение
Оно показано на с. 298. Полный
-критерий для уравнения равен
Эта величина статистически значима, поскольку она превосходит
Исследуя это уравнение с целью последующего возможного исключения переменных, мы увидим, что величине
соответствует наименьшее значение частного
-критерия, и эта переменная является кандидатом на исключение. Процедура такого элиминирования подобна описанной выше с одним лишь отличием:
критическое значение величины F составляет
Поскольку рассчитанная величина частного
-критерия, связанного с
равна 1,86 (что меньше 3,36), мы исключаем
Теперь мы найдем МНК-уравнение
показанное на с. 289. Полное уравнение статистически значимо, поскольку соответствующая ему величина F равна 229,50 и превосходит критическое значение
При этом значимы обе переменные
безотносительно к порядку, в котором они входят в модель, поскольку частные
-критерии в обоих случаях превосходят 14,91. Таким образом, процедура выбора уравнения методом исключения закончена и получено уравнение
Мнение. Это вполне удовлетворительная процедура, особенно для статистиков, которые любят видеть все переменные в уравнении, чтобы «чего-то не упустить». Этот метод значительно более экономичен по затратам машинного времени и труда, чем метод всех регрессий. Однако если из исходных данных получается плохо обусловленная матрица
т. е. почти вырожденная, то уравнение может быть бессмысленным из-за ошибок округления. Если использовать современные методы обращения матриц, то это обычно не становится серьезной проблемой. Важно иметь в виду, что, как только переменная исключается из уравнения с помощью этого метода, она элиминируется безвозвратно. Таким образом, все другие методы, основанные на использовании исключаемых переменных, здесь непригодны.
(Примечание. Резюмируем положения, о которых шла речь в тексте.
1) В некоторых программах, базирующихся на этом методе, вместо F-критерия используется
-критерий, представляющий собой корень квадратный из величины частного F-критерия. Это связано с тем фактом, что если
случайная величина, подчиняющаяся F-pacпределению с 1 и v степенями свободы,
случайная величина, подчиняющаяся
-распределению с
степенями свободы, то
(см. с. 138, кн. 1).
2) В некоторых программах используется термин
-критерий для исключения» («F to remove»). Он идентичен используемому нами термину «частный F-критерий» (см. с. 138, кн. 1.)