Главная > Прикладной регрессионный анализ, книга 2
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.4. ШАГОВЫЙ РЕГРЕССИОННЫЙ МЕТОД

Метод исключения начинается с наиболее полного уравнения, включающего все переменные, и состоит в последовательном уменьшении числа переменных до тех пор, пока не принимается решение об использовании уравнения с оставшимися членами. Шаговый метод представляет собой попытку прийти к тем же результатам, действуя в обратном направлении, т. е. включая переменные по очереди в уравнение до тех пор, пока уравнение не станет удовлетворительным. Порядок включения определяется с помощью частного коэффициента корреляции как меры важности переменных, еще не включенных в

уравнение. Основная процедура состоит в следующем. Прежде всего выбирается величина наиболее сильно коррелированная с Y (предположим, что это и находится линейное, первого порядка регрессионное уравнение Затем мы проверяем, значима ли эта переменная. Если это не так, то мы должны согласиться с выводом, что наилучшая модель выражается уравнением В противном случае мы должны найти вторую предикторную переменную которую следует включить в модель. Мы определяем частные коэффициенты корреляции для всех предикторов, не включенных в уравнение на этом шаге, а именно для с учетом поправки на В математическом отношении это эквивалентно нахождению корреляции между (1) остатками от регрессии и (2) остатками от каждой из регрессий (которые мы фактически не определяли). Теперь выбирается величина (предположим, что это которая имеет наибольшее значение частного коэффициента корреляции с и находится второе регрессионное уравнение Полное уравнение проверяется на значимость. Отмечается улучшение величины и исследуются частные F-критерии для обеих переменных, содержащихся в уравнении, а не только для той, которая только что была введена в уравнение. Наименьшая величина из этих двух частных F-критериев сравнивается затем с подходящей процентной точкой F-распределения. Соответствующая предикторная переменная сохраняется в уравнении или исключается из него в зависимости от результатов проверки. Такая проверка «наименее полезного предиктора в уравнении на данном этапе» проводится на каждом шаге этого метода. Может оказаться, что предиктор, который на предыдущем шаге был наилучшим кандидатом для включения в уравнение, на более позднем шаге оказывается ненужным. Это может быть вызвано теми связями, которые существуют между этой и другими переменными, содержащимися теперь в уравнении. Чтобы проверить это, на каждом шаге для каждой предикторной переменной, содержащейся в уравнении, вычисляется частный F-критерий и находится наименьший из них (он может быть связан с любой предикторной переменной, включенной в модель только что или ранее),

который затем сравнивается с заранее выбранной процентной точкой соответствующего -распределения. Это позволяет судить о вкладе наименее ценной переменной в регрессию на данном шаге в предположении, что она только что была введена в модель безотносительно к тому, как это было на самом деле. Если проверяемая переменная показывает незначимый вклад в регрессию, она исключается из уравнения. После этого регрессионное уравнение пересчитывается с учетом всех оставшихся в нем предикторных переменных. Наилучшие переменные из тех, которые не вошли на данном шаге в модель (т. е. те, для которых коэффициент частной корреляции с при наличии предикторов в уравнении получился наибольшим), затем проверяются, чтобы убедиться, удовлетворяют ли они частному -критерию для включения. Если удовлетворяют, их включают в уравнение и снова возвращаются к проверке всех частных для переменных. Если же они не выдерживают этой проверки, переходят к следующей операции исключения. В конечном счете (если только уровень значимости а не выбран плохо, что приводит к зацикливанию) процесс прекращается, если никакие из переменных, содержащихся в текущем уравнении, не удается исключить из него, а ближайший наилучший предиктор-претендент не в состоянии занять место в уравнении. Когда переменная включается в регрессию, ее влияние на квадрат множественного коэффициента корреляции, обычно указывается в машинной распечатке.

Мы снова воспользуемся данными Хальда, чтобы проиллюстрировать, как работает шаговая процедура. (См. распечатку, где указано, что ) Для обоих критериев включения и исключения принят уровень значимости

1. Вычислим коэффициенты корреляции между каждой предикторной переменной и откликом. Выберем в качестве первой переменной для включения в регрессию ту, которая коррелирована с откликом наиболее сильно. Исследование корреляционной матрицы в приложении Б показывает, что наиболее сильно коррелирована с откликом или Следовательно, это первая переменная, которая должна быть включена в регрессионное уравнение.

2. Построим регрессию в зависимости от и получим МНК-уравнение, приведенное на с. 288. Полный -критерий показывает, что регрессия значима. Таким образом, переменная сохраняется в уравнении.

3. Вычислим частные коэффициенты корреляции между всеми переменными, не входящими в уравнение, и откликом. Их квадраты указаны внизу на с. 288. Выберем в качестве следующей переменной

для включения в регрессионное уравнение переменную с наибольшим значением частного коэффициента корреляции. Это переменная

4. Получим МНК-уравнение содержащее как так и см. с. 291. Этому уравнению соответствует и оно явно значимо, поскольку величина полного -критерия равна . А это превосходит То, что новая переменная дает значимое снижение остаточной суммы квадратов, показывает ее частный -критерий, который равен 108,22, что превосходит величину Таким образом, остается в уравнении. Мы проверим также вклад в предположении, что величина будто бы была включена в модель первой, а переменная второй. Поскольку величина частного -критерия равна 159,295 (см. с. 291), что значительно превосходит переменная сохраняется в уравнении. (На практике в большинстве программ не проверяются обе переменные, как это делается здесь, а выбирают переменную с наименьшим значением частного -критерия и проверяют ее. Принимается решение об исключении или сохранении соответствующей предикторной переменной. При исключении уравнение пересчитывается, а при сохранении ищется следующий кандидат.)

5. Согласно шаговому методу теперь для включения в уравнение выбирается следующая переменная, которая имеет наиболее высокий частный коэффициент корреляции с откликом (при условии, что переменные уже содержатся в регрессии). Как видно, это переменная (Квадрат частного коэффициента корреляции предиктора с откликом равен 0,358 — см. с. 291.)

6. Новое уравнение приведено на с. 298. Квадрат множественного коэффициента корреляции, выраженный в увеличился с 97,2 до 98,2 %. Затем на этом шаге исследовались частные -критерии для переменных Наименьшее значение (см. с. 298) соответствует И поскольку эта величина меньше, чем переменная отвергается. В уравнении, которое пересчитывается , сохраняются переменные как значимые.

7. Единственная остающаяся переменная, которая может рассматриваться на этом этапе, есть Поскольку эта переменная немедленно отвергается, шаговая регрессионная процедура заканчивается, и как наилучшее выбирается уравнение показанное на с. 289, а именно

Мнение. Мы считаем этот метод одним из лучших среди обсуждавшихся выше и рекомендуем его применять. Он наиболее экономичен при обработке данных на ЭВМ. К тому же он позволяет избежать манипуляций с большим числом предикторов, чем это необходимо, хотя уравнение продолжает улучшаться с каждым шагом. Однако шаговый метод может легко стать обузой для

профессионального статистика. Как и во всех других обсуждавшихся методах, здесь требуются все же разумные суждения при первоначальном выборе переменных и при критическом анализе модели путем исследования остатков. Можно полагать, что использование этого метода для автоматического выбора наилучшего уравнения с помощью ЭВМ будет слишком затруднительным. Обсуждение этого метода дано в статье: Efroymson М. A. Multiple regression analysis, в книге: Mathematical Methods for Digital Computers/Ralston A. and Wilf H. S., ed.- New York: J. Wiley, 1962.

1
Оглавление
email@scask.ru