6.7. ГРЕБНЕВАЯ (РИДЖ) РЕГРЕССИЯ
Процедура с использованием «следа гребня» (ridge trace) была впервые предложена Херлом в 1962 г. и обсуждалась через некоторое время Херлом и Кеннардом в статье: Hoerl А. Е., Kennard R. W. Ridge regression: biased estimation for nonorthogonal problems. - Technometrics, 1970, 12, p. 55-67. Вторая статья этих авторов с примерами была опубликована в том же номере журнала на с. 69—82. Эта процедура предназначена для «плохо обусловленных» ситуаций, когда имеются значительные корреляции между разными предикторами, входящими в модель, вследствие чего матрица
становится почти вырожденной и оценки параметров — неустойчивыми. Оценки могут иметь, например, неправильный знак или иметь значения, которые намного превосходят те, что приемлемы из физических или практических соображений. С обсуждением такого рода ситуации можно познакомиться в статье Мулле: Mullet G. М. Way regression coefficients have the wrong sign.- Journal of Quality Technology, 1976, 8; p. 121-126.
Метод гребневой регрессии в его простейшей форме состоит в следующем. Пусть
представляет собой подходящим образом центрированную и нормированную матрицу X, соответствующую случаю, когда исследуемая регрессионная задача выражена в «корреляционной форме» (см. обсуждение в гл. 5). Тогда для модели, содержащей все возможные
предикторов
можно получить оценки параметров
по формуле
где 0 — положительное число. (В приложениях эта величина обычно лежит в интервале
Исключения описаны в статье Брауна и Пэйна (Вгоwn R. J., Раупе С. Election night forecasting.- Journal of Royal Statistical Society, A-138, p. 463-483, с дискуссией на с. 483—498). Заметим, что в формуле (6.7.1) вектор
представлен в обычной, а не в корреляционной форме,
есть
-вектор, не содержащий оценки свободного члена. Легко понять, что никакой поправки на свободный член не требуется, поскольку замена
в уравнении (6.7.1) на
(где
совсем не влияет на результаты, поскольку «центрирование» предикторов обеспечивает выполнение соотношения
Как указано на с.
поскольку вектор
выражен не в корреляционной форме, коэффициент
использовать не надо, и мы можем выполнить преобразования
где
чтобы получить вектор
размерностью
. При
компоненты этого вектора
обычные МНК-оценки, как это вытекает из уравнения (6.7.1) при подстановке в него
Выделяя сомножитель
из правой части (6.7.1), мы можем выразить ридж-оцениватель через МНК-оцениватель
а именно
так что ридж-оценки оказываются линейными комбинациями МНК-оценок с коэффициентами, определяемыми матрицей
Мы можем теперь построить график зависимости
или
от 0 для
и исследовать его. Точка пересечения кривой с осью ординат обычно не изображается. Такой график называют следом гребня (ridge trace). Обычно этот график строится в «корреляционных» единицах (т. е. используются величины
, чтобы можно было проводить прямое сравнение относительных эффектов различных коэффициентов и исключить влияние масштаба измерения для различных X, от которого зависят значения первоначальных коэффициентов. В нашем примере ниже мы привели, однако, график к исходным единицам (т. е. мы использовали величины
так что если
то мы получим МНК-оценки, соответствующие
ненормированным исходным величинам
По мере увеличения параметра
оценки уменьшаются по абсолютной величине и стремятся к 0, когда 0 стремится к бесконечности. Затем выбирается определенная величина 0, которую обозначим, скажем, буквой 0. Херл и Кеннард (Hoerl, Kennard. - Technometrics, 1970, 12, p. 65) на этот счет говорят следующее:
«При выборе величины 0 можно руководствоваться следующими обстоятел ьствами:
1. При определенном значении 0 система стабилизируется и приобретает обычные свойства ортогональной системы.
2. Коэффициенты не могут иметь непомерно высокие абсолютные значения по сравнению с факторами, по отношению к которым они представляют собой скорости изменения.
3. Коэффициенты с явно неправильными знаками при
могут быть изменены, чтобы знак стал подходящим.
4. Остаточная сумма квадратов не должна увеличиваться до непомерно высоких значений. Она не должна быть слишком большой по отношению к минимальной остаточной сумме квадратов или по отношению к той величине, которой соответствуют приемлемые вариации процесса».
После того как значение 0 выбрано (равным 0, величины
(0 используются в предсказывающем уравнении. Результирующее уравнение содержит оценки, которые не являются оценками метода наименьших квадратов, имеют смещение, но оказываются более устойчивыми в указанном выше смысле. Они (как можно надеяться, см. уравнение (6.7.6) далее) приводят к более низкому значению полного среднего квадрата ошибки, поскольку вызванное ими уменьшение дисперсии ошибок будет больше того, которое нужно для компенсации введенного смещения.
(Заметим, что оценки, выбираемые согласно процедуре Маллоуза, смещены из-за коэффициентов, не учтенных в подгоняемой модели. Оценки, полученные согласно процедуре Херла и Кеннарда, оказываются смещенными, когда в выражения для них входит величина 0, и это смещение имеет место даже если постулируемое уравнение включает все «правильные» предикторные переменные. Иными словами, две указанные разновидности смещения имеют разную природу.)
Средний квадрат ошибки
Гребневую регрессию нередко оправдывают тем, что это практический прием, с помощью которого при желании можно получить меньшее значение среднего квадрата ошибки. Основной результат состоит в следующем (см., например, статью Херла и Кеннарда в журнале Technometrics, 1970, 12, р. 62). Средний квадрат ошибки для гребневого оценивателя может быть записан в виде
Чтобы получить этот результат, надо воспользоваться выражением
(6.7.4), где
Затем надо выделить квадратичную форму относительно
, а оставшиеся члены перегруппировать и выполнить некоторые упрощения. Применяя далее матричные результаты приложения
получим
Первый член есть сумма квадратов диагональных элементов матрицы
т. е. он представляет собой сумму дисперсий элементов гребневой оценки
Второй элемент — «квадрат гребневого смещения». (Заметим, что если
то
и первый член становится суммой дисперсий МНК-оценок коэффициентов, в то время как второй обращается в ноль. Величина, которая при этом достигается, равна
Имеет место теорема, в силу которой всегда существует такое
что
Особенность этого результата состоит в том, что величина 0 зависит от
которые неизвестны. Таким образом, хотя 0 и существует, нет способа, позволяющего при решении конкретной практической задачи убедиться, что перед нами значение, которому отвечает величина
меньшая, чем
Гребневая регрессия для данных Хальда
Теперь мы применим этот метод к данным Хальда, чтобы проиллюстрировать его особенности. Из-за связей между четырьмя предикторными переменными эти данные могут привести к повышению неустойчивости оценок, как это уже обсуждалось выше.
Рис. 6.4. Гребневый след для данных Хальда в интервале
(по материалам доктора Кеннарда)
На рис. 6.4 показан гребневый след для данных Хальда в интервале
а на рис. 6.5 дана детализация этого графика для интервала
Какое значение 0 следует выбрать?
Один возможный автоматический способ выбора величины 0 был предложен Херлом, Кеннардом и Болдуином в работе: Ноег1 А. Е., Kennard R. W., Baldwin К. F- Ridge regression: some simulation.- Communications in Statistics, 1975, 4, p. 105-123. Они показали, что целесообразно выбирать эту величину согласно формуле
где
число параметров в модели, не считая
остаточный средний квадрат, входящий в таблицу дисперсионного анализа и получаемый в стандартной МНК-процедуре;
(На практике эти выражения могут слегка отличаться из-за ошибок округления.)
(Заметим, что 0 в уравнении (6.7.7) есть
(оценка величины
деленная на среднее значение квадрата МНК-оценок
Рис. 6.5. Гребневый след для данных Хальда в интервале
(по материалам доктора Кеннарда)
Последняя величина может рассматриваться как оценка
дисперсии истинных, но неизвестных величин
Поэтому с байесовской точки зрения (см. с.
выбор величины 0 согласно (6.7.7) выглядит разумным.)
Для этих данных мы имеем
(см. с. 302) и
, так что
Полученному значению величины 0 соответствует вертикальная линия на рис. 6.5, а значения коэффициентов можно
прочитать прямо на рисунке или вычислить более точно. В итоге получаем уравнение
Это уравнение можно сразу применять в таком виде.
Возможно использование гребневой регрессии как процедуры выбора. Можно высказать соображения о том, как удалить одну или несколько предикторных переменных. Очевидно, в первую очередь следует выбрать
Коэффициент
наименьший по абсолютной величине. К тому же переменная
такова, что максимальное (по абсолютной величине) изменение отклика от вариации
составляет всего лишь
По-видимому, наиболее разумно, чтобы первый шаг состоял в исключении
с последующим исследованием гребневого следа для уравнения, содержащего
Мы не будем продолжать эту процедуру дальше, а рекомендуем читателю обратиться к приложениям в статье Херла и Кеннарда (Technometrics, 1970, 12, р. 69-82), где содержатся замечания на этот счет. Следует заметить, что на практике гребневая регрессия обычно не применяется как процедура выбора наилучшего уравнения. Мы упоминаем об этом только как о некоторой возможности.
Имеются другие способы выбора величины 0. Один из них состоит в использовании итерационной процедуры. Основная идея этого метода состоит в следующем. При выборе 0 по методу, указанному выше, в знаменателе берется величина
По этой причине обозначим ее как
Рассмотрим итерационную формулу
Подставим величину
в правую часть этой формулы и найдем
которая, в свою очередь, может быть подставлена в правую часть, чтобы получить
и т. д. Процедура продолжается до тех пор, пока не будет выполняться неравенство
где
малое число, выбранное априори. Для более полного знакомства с этой процедурой см. статью Херла и Кеннарда: Ноег1 А. Е., Kennard R. W. - Communications in Statistics, 1976, A5, p. 77- 87. Эти авторы показывают, что всегда
так что
и предлагают выбирать подходящее значение
по формуле
которую они обосновывают в своей статье на с. 79—80.
Заметим, теперь что в общем не существует какого-то наилучшего способа выбора параметра
Как мы уже отмечали, уравнение (6.7.7) является до некоторой степени эмпирическим, поскольку оно может трактоваться как формула для грубой оценки отношения
применяемого в байесовском подходе, о чем речь пойдет ниже. (Итеративная формула (6.7.10) также может рассматриваться как формула, дающая другую такую оценку.)