11.3. Исследование точности регрессионной модели в реалистической ситуации
Неточный выбор общего вида функции регрессии, приводящий к нарушению базового допущения (11.21), на которое существенно опираются все выводы по оцениванию точности регрессионной модели, может заключаться как в неполном или избыточном представлении набора объясняющих переменных
так и в искажении самой структуры модели. Наиболее неприятные последствия влечет второй тип ошибки. В этом можно убедиться при рассмотрении примера 6.2, а также примера, представленного в табл. 6.2 и на рис. 6 2. Действительно, анализируя данные табл. 6.1 (в которой представлены результаты расчетов по примеру 6.2), мы видим, в частности, что при использовании формально-аппроксимационных вариантов регрессионной модели (т. е. в ситуации
оценки среднеквадратической ошибки остатков (а), полученные по формуле (11.27) по данным той же самой выборки, по которой вычислены и оценки в неизвестных параметров модели, дают более чем в 3 раза заниженные (по сравнению с действительными) значения (см. графы 4 и 6). Более того, из примера, представленного на рис. 6.2 (и в табл. 6.2), следует, что значение выборочного критерия адекватности
(пропорционального величине
) вообще может быть нулевым (!), в то время как ошибки восстановления неизвестных значений функции регрессии
или результирующего показателя
по заданной величине предиктора
могут быть практически сколь угодно велики (ср. поведение
при
[7; 14] и при
).
Подмеченные в рассмотренных примерах особенности аппроксимационных вариантов регрессионных моделей (так мы будем называть варианты, в которых истинная функция регрессии
приводят к следующим основным положениям исследования точности статистических выводов в регрессионном анализе в данной ситуации:
1) при анализе точности аппроксимационных вариантов регрессионных моделей не следует претендовать на построение сколько-нибудь точных доверительных интервалов ни для неизвестных значений параметров 0 (они, как правило, не имеют в данной ситуации самостоятельной содержательной интерпретации), ни для функции регрессии
или результирующего показателя
(поскольку, пользуясь аппроксимацией
, отличающейся по структуре от истинной функции регрессии
, мы не можем иметь достоверной априорной информации о вероятностной природе остатков
2) имеющуюся выборку наблюдений
целесообразно разбить (одним или несколькими различными способами) на две непересекающиеся подвыборки объемов
обучающую
на основании наблюдений которой строятся мнк-оценки
неизвестных параметров аппроксимационной функции регрессии
, и экзаменующую (или контрольную) Вкзу по наблюдениям которой оцениваются основные характеристики точности анализируемой модели (в первую очередь регрессионные остатки
);
3) основной
по существу, единственной) характеристикой точности аппроксимационного варианта регрессионной модели является оценка о среднеквадратической ошибки аппроксимации а, вычисляемая по формуле
где подразумевается, что имеющаяся выборка наблюдений
разбита k различными способами на две непересекающиеся подвыборки — обучающую
и экзаменующую (или контрольную) Вэкз соответственно объемов
а мнк-оценки
неизвестных параметров
построены только по
данным, входящим в состав обучающей выборки
Знание о позволяет оценить максимально возможную погрешность аппроксимации неизвестной функции регрессии
(в пределах обследованного диапазона значений X) приблизительно величиной порядка
, а результирующего показателя
величиной порядка
;