11.3.2. ФОРМУЛЫ МОДЕЛЕЙ ДЛЯ ЛИНЕЙНОГО ПРЕДИКТОРА
Линейный предиктор представляет собой линейную комбинацию предикторных переменных вида (Зрхр. Для дальнейшего чрезвычайно полезно иметь более сжатую запись для линейного предиктора, в частности такую, где в явном виде отсутствуют
коэффициенты. В качестве такой записи можно принять
где генерирует подпространство всех возможных линейных комбинаций заданных векторов.
Спецификация или в векторной форме используемая в биномиально-логистической модели, для данных о смертности мышей может быть записана как
Иногда связь между ожидаемым числом смертей и дозой х может иметь более сложный вид. Возможная разумная процедура улучшить подгонку данных состоит в расширении модели за счет включения члена, квадратичного по х, т. е. нужно подгонять
где Сравнение девиаций для этих двух моделей дает тест для проверки нелинейности.
Дальнейшее упрощение формул может быть получено за счет использования X, если положить (Такое использование прописных латинских букв отличается от их стандартного применения в статистике, когда X обозначает случайную величину.) Рассмотренная выше квадратичная модель может тогда быть записана в виде
Вообще, если модель вида ррхр эквивалентна Причина, по которой требуется, чтобы связана с возможным наличием индикаторных переменных, которые появятся позднее. Введенные обозначения проясняют взгляд на линейные модели как на подпространства, к которым принадлежат линейные предикторы.
Стандартные модели
Пример. Регрессия с двумя переменными. Вернемся к примеру с деревьями и объемом древесины. Пусть у—вектор -вектор и -вектор Тогда линейный предиктор для множества «идеальных» деревьев будет
Чтобы проверить, насколько адекватно эти коэффициенты позволяют описать наши данные, оценим и сравним оцененные коэффициенты с и 1. Может возникнуть вопрос: если бы между радиусом и высотой имелась точная корреляционная связь, так что знание радиуса однозначно определяло бы высоту, то модель была бы информативна так же, как модель или как модель Какая из этих моделей даст наилучший предиктор, когда радиус и высота не полностью коррелированы?
Этот пример приводит к рассмотрению диаграммы для четырех моделей:
Связывающие линии указывают, какое из подпространств вложено в другое. На практике подобные диаграммы дают удобную форму представления оцененных моделей.
С ростом числа переменных эти диаграммы быстро становятся сложными. Диаграмма
представляет все подмодели для линейного предиктора с тремя переменными.
Число степеней свободы, ассоциированное с некоторой моделью М, есть просто где — минимальное число векторов, требуемое для