8.7.2. Критерии качества уравнения регрессии.
Любой алгоритм отбора существенных регрессоров выполняет следующую последовательность действий:
генерацию подмножеств переменных;
сравнение этих подмножеств по некоторому критерию качества уравнения регрессии, построенного по этим переменным;
проверку конца генерации (остановки алгоритма). Рассмотрим наиболее употребительные критерии качества уравнения регрессии. Почти все они основаны на измерении средней величины ошибки прогноза, на векторах X, не вошедших в обучающую выборку (матрицу данных X), при тех или иных предположениях о распределении или способе формирования этих векторов.
1. Коэффициент детерминации (квадрат коэффициента множественной корреляции)
Максимизация
эквивалентна минимизации нормированной остаточной суммы квадратов
В этом смысле
можно рассматривать как меру согласия модели с данными.
Однако, поскольку в выражение для
входит и дисперсия переменной у, при анализе двух различных совокупностей данных (матриц
) может иметь место ситуация, когда одна из регрессий имеет меньшее значение
и в то же время меньшее значение
за счет увеличения дисперсии
. В случаях задачи отбора переменных это обстоятельство можно не учитывать, поскольку матрица данных не меняется и
можно рассматривать как относительную меру качества уравнения регрессии.
Недостаток
как критерия качества уравнения регрессии состоит в том, что значение коэффициента детерминации не убывает (по крайней мере) с ростом числа предсказывающих переменных, входящих в модель. Таким образом, модели, в которых больше переменных, будут более предпочтительными, если для сравнения использовать
Однако для сравнения уравнений регрессии с одинаковым числом зависимых переменных величина
является вполне подходящей. Некоторые из перечисленных ниже критериев являются монотонными функциями от
которые в то же время зависят от числа включенных в модель регрессоров q и объема выборки
и могут убывать с ростом
2. Скорректированный коэффициент детерминации. Чтобы ввести скорректированный коэффициент детерминации, вспомним, что при
имеет место равенство
или
Для конечного объема обучающей выборки несмещенной оценкой для
является величина
(q — число регрессоров в модели), а для
— величина
Определим теперь скорректированный коэффициент детерминации из равенства
После несложных преобразований получаем связь между обычным и скорректированным коэффициентами детерминации:
В отличие от обычного скорректированный коэффициент дерерминации может уменьшаться с ростом числа предсказывающих переменных
если в результате введения дополнительной переменной изменение
оказывается недостаточным для компенсации увеличения отношения
.
В отличие от обычного коэффициента детерминации скорректированный уменьшается с ростом числа предсказывающих переменных q, если в результате введения дополнительной переменной изменение
оказывается недостаточным для компенсации увеличение отношения
.
3. Статистика Мэллоуза
. В [225] предложено использовать так называемую
статистику как меру качества уравнения регрессии с q предсказывающими переменными. В принятых здесь обозначениях
4. Средний квадрат ошибки предсказания СКОП. Этот критерий предлагается в [24] (см. также [164, 42, 52]). При введении этого критерия предполагается, что переменные
являются случайными величинами и имеют в совокупности
-мерное распределение. Таким образом, матрица данных (X, Y) представляет собой выборку объема
из
-мерного нормального распределения.
Пусть теперь
— функция регрессии, основанная на q из
возможных предсказывающих переменных, и
— мнк-оценка вектора регрессионных коэффициентов для набора из q переменных,
-мерный вектор средних значений для переменных
принадлежащих набору
. Пусть теперь уравнение регрессии используется для предсказания значения переменной у для некоторого нового случайного вектора X.
Величина СКОП определяется как
где математическое ожидание берется по всем случайным пере менным, в том числе и по «новому» наблюдению X. Если использовать понятия обучающей и контрольной выборки, то можно сказать, что СКОП определяет среднюю квадратическую ошибку прогноза на контрольной выборке.
В [251] показано, что
где
— условная дисперсия у относительно q переменных, входящих в уравнение регрессии. При применении этого критерия неизвестное значение дисперсии
заменяете ее оценкой максимального правдоподобия:
Окончательно используемая как критерий оценка имеет вид
5. Несмещенная оценка коэффициента множественной корреляции. Если переменные
имеют в совокупности многомерное нормальное распределение, то оценка квадрата коэффициента множественной корреляции
является смещенной. Несмёщенная оценка (с точностью до членов
) определяется с помощью выражения
Эта величина также может быть использована как критерий качества уравнения регрессии.