Главная > Прикладной регрессионный анализ, книга 2
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.8. ПРЕСС

ПРЕСС-процедура выбора предикторных переменных была предложена в работе Аллена: Allen D. М. The prediction sum of squares as a criterion for selecting predictor variables.- University of Kentucky, Department of Statistics, Technical Report 1971, 23. Это комбинация метода всех возможных регрессий, анализа остатков и метода перепроверки. (Последний метод обсуждается в гл. 8.)

Предположим, что модель содержит параметров, включая и имеется всего измерений. Основные вычисления сводятся к следующему:

1. Вычеркнем условия и результаты первого опыта, т. е. соответствующие значения предикторных переменных и значение отклика.

2. Построим все возможные регрессионные модели, используя условия и результаты оставшихся опытов.

3. По каждой модели подсчитаем предсказываемое значение отклика в условиях первого опыта и вычислим предсказываемое расхождение

4. Повторим шаги 1, 2 и 3, исключив из обработки условия и результаты второго опыта, чтобы получить значения Затем исключается третий опыт и находятся значения для каждой модели. И так вплоть до исключения последнего опыта.

5. Для каждой регрессионной модели вычислим сумму квадратов предсказываемых расхождений:

6. Выберем «наилучшую» регрессионную модель. Она должна иметь сравнительно малую сумму квадратов предсказываемых расхождений, но не включать слишком много предикторов.

Чтобы проиллюстрировать, как работает этот алгоритм, исследуем результаты его применения к данным Хальда, собранным в табл. 6.2.

Таблица 6.2. Значения сумм квадратов предсказываемых расхождений (округленные до целых чисел) для всех возможных моделей по данным Хальда

В данном случае можно сделать совершенно однозначный выбор. «Наилучшей моделью» следует признать модель, включающую предикторы Этой модели отвечает одно из самых малых значений суммы квадратов предсказываемых расхождений, равное 95. Имеются еще три суммы, которые даже меньше, но они получены для моделей, содержащих уже три предиктора. К тому же эти суммы совсем ненамного меньше.

Мы можем теперь получить дополнительную информацию, исследуя слагаемые, входящие в сумму для модели с предикторами Эти результаты содержатся в табл. 6.3.

Таблица 6.3. Вклады 13 слагаемых, образующих сумму квадратов предсказываемых расхождений для модели с предикторами которые вычислены по даииым Хальда

Из таблицы видно, что наблюдение 6 хуже всего предсказывается по модели, содержащей предикторы и и построенной по остальным точкам. Наблюдения 11 и 13 также плохо предсказываются. При одном наборе исходных данных это может свидетельствовать о наличии выбросов. В других случаях это может служить указанием на то, что подобные точки чрезвычайно информативны. Они не должны бездумно выбрасываться из набора данных, поскольку содержат много информации о согласии модели с экспериментальными данными 9. В данном случае, сопоставляя шестое наблюдение с откликом 109,2 в точке (11; 55; 9; 22) с третьим наблюдением, где отклик равен 104,3 при значениях предикторов (11; 56; 8; 20), можно предположить, что результат шестого опыта несколько завышен.

Мнение. ПРЕСС-процедура имеет то преимущество, что дает массу детальной информации об устойчивости различных построенных в пространстве данных моделей и позволяет сконцентрировать внимание на наиболее важных точках в пространстве предикторов. Основной недостаток процедуры — необходимость выполнения громадного объема вычислений. К тому же нет точных правил для выбора наилучшей модели. (Другие процедуры тоже имеют свои недостатки.) Мы считаем, что для решения типовых задач выбора модели на практике все эти работы вовсе не обязательны. Однако устойчивые вычисления могут дать полезную дополнительную информацию, как только модель выбрана. Важно стремиться к более полному пониманию проблемы. Некоторые другие относящиеся к данному вопросу обсуждения содержатся в гл. 8.

1
Оглавление
email@scask.ru