8.7. Отбор существенных переменных в задачах линейной регрессии
8.7.1. Влияние отбора переменных на оценку уравнения регрессии.
Один из подходов к оцениванию параметров уравнения регрессии при наличии мультиколлинеарности состоит в сокращении количества входящих в модель предсказывающих переменных путем отбора подмножества предсказывающих переменных, существенных для прогноза значений переменной у. Каким бы способом ни проводился отбор переменных, число обусловленности уменьшается с уменьшением числа регрессоров. Процедура отбора существенных переменных, рассматриваемая как процедура выбора модели, полезна и когда исходная матрица ХХ хорошо обусловлена. Но особенно она эффективна в условиях мультиколлинеарности, когда объясняющие переменные сильно коррелированы. Так, если две какие-либо переменные сильно коррелированы с у и друг с другом, то часто бывает достаточно включения в модель одной из них, а дополнительным вкладом от включения другой можно пренебречь.
Отбор существенных переменных в пространстве главных компонент рассмотрен в п. 8.3. Как там показано, он приводит к следующим результатам: с одной стороны, к некоторому увеличению наблюдаемого значения нормированной суммы квадратов отклонений но одновременно к уменьшению среднеквадратического отклонения от соответствующих истинных значений параметров и к уменьшению средней ошибки прогноза для векторов X не входящих в матрицу плана X (т. е. в обучающую выборку, см. п. 11.3). Последнего можно достичь и при отборе существенных переменных в исходном пространстве (опять-таки за счет увеличения нормированной суммы квадратов отклонений на обучающей выборке). Фактически отбор переменных означает, что исходное множество из переменных делится на два подмножества и , состоящих из таких и q переменных, что коэффициенты регрессии при переменных, входящих в первое подмножество, полагаются равными нулю, а коэффициенты при q переменных из второго подмножества оцениваются по мнк (по окончании процедуры отбора для оценки можно использовать и методы, изложенные в § 8.2-8.5).
В предположении, что матрица данных X является неслучайной, возможны две точки зрения на оценку уравнения регрессии, полученную после отбора существенных предсказывающих переменных.
Первая точка зрения исходит из того, что модель регрессии (8.1) является истинной, и несмещенная оценка коэффициентов регрессии получается мнк путем решения системы уравнений (8.3) (в условиях мультиколлинеарности эта оценка может быть неудовлетворительной, но тем не менее несмещенной). Тогда принудительное приравнивание части коэффициентов регрессионного уравнения к 0, что и происходит при отборе переменных, естественно, приводит, если матрица S недиагональна, к смещенным оценкам коэффициентов при оставшихся переменных, т. е. мы приходим к классу смещенных оценок, рассмотренных в § 8.3.
С другой стороны, процесс отбора существенных переменных можно рассматривать как процесс выбора истинной модели из множества возможных линейных моделей, которые могут быть построены с помощью набора предсказывающих переменных, и тогда полученные после отбора оценки коэффициентов можно рассматривать как несмещенные, хотя сама процедура отбора вводит некоторое смещение [931. Этой точки зрения мы будем придерживаться далее.
Для случая, когда переменные — случайные величины, вопрос о правильности (истинности) модели не возникает. Все, что мы ищем в этом случае, — это модель, сохраняющую ошибку предсказания на разумном уровне, при ограниченном количестве переменных.