Главная > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

Приложение 2В. НАСКОЛЬКО ЗНАЧИМОЙ ДОЛЖНА БЫТЬ РЕГРЕССИЯ?

Резюме. Приложение работы Бокса и Ветца (см. параграф 2.6) к регрессионной ситуации вкратце состоит в следующем. Для «полезной» в отличие от «значимой» регрессии наблюдаемая величина -отношения для регрессии должна в несколько раз превосходить обычную процентную точку. Однако точно указать во сколько раз нельзя. Эта величина произвольна, поскольку произволен выбор уровня значимости. Однако по этому поводу все же можно дать некоторые указания.

Критерий Ym

В регрессионных задачах, когда неадекватность не обнаруживается, проверка значимости регрессионных параметров обычно проводится с помощью -отношения, в котором в числителе стоит сумма квадратов, обусловленная регрессией при наличии а в знаменателе — остаточный средний квадрат Эта величина сравнивается с соответствующей верхней а -ной точкой , где соответственно числа степеней свободы для числителя и знаменателя -статистики. Если -отношение статистически значимо, т. е. если , предполагается, что большая часть вариаций в данных относительно среднего отклика обусловлена регрессионным уравнением. Отсюда не следует, однако, что полученное уравнение приемлемо для предсказания в том смысле, что размах предсказываемых откликов заметно превосходит стандартную ошибку отклика. При этом возникает вопрос, как можно различить статистически значимые и ценные для предсказания уравнения среди статистически значимых уравнений, имеющих ограниченную ценность?

Некоторые работы, где даются ответы на этот вопрос, существенно опираются на появившуюся в 1964 г. в Висконсинском университете диссертацию Ветца «Критерий для суждения об адекватности при оценивании с помощью функции отклика». (Существует также одноименный отчет: Box G. Е. P., Wetz J. U. W. Statistics Department Technical Report, No 9, 1973.) Суть этого подхода сводится к следующему.

Предположим, что с помощью метода наименьших квадратов мы подбираем модель

где часть модели, подлежащая проверке с помощью «теста для регрессии», а описывает такие эффекты, как среднее, блоковые переменные, временные дрейфы и т. д., которые мы хотим исключить из вариации данных, но которые в остальном не представляют интереса. Предположим также, что Изменения величин откликов экспериментальных точках можно

охарактеризовать с помощью величины

где истинный отклик в наблюдении, а элемент вектора Если исключается только коэффициент то среднему из

Мы можем сравнить величину с ошибками, которые можно совершить при оценивании разностей МНК-оцениватель для величины есть т. е. элемент вектора (см. выражение

матрица дисперсий-ковариаций для этого вектора имеет вид

где ввиду того что симметричная и идемпотентная матрица. Следовательно, есть диагональный элемент матрицы, а среднее значение по этим дисперсиям, которое может служить полной мерой того, как мы оцениваем величины выражается соотношениями

Это соотношение справедливо, поскольку

где число параметров, или число элементов вектора Р (т. е. число степеней свободы для суммы, обусловленной регрессией). Отсюда вытекает, что разумное сравнение размеров вариаций ошибок их оценок можно выполнить с помощью корня квадратного из отношения а именно:

На рис. 2В.1 показана ситуация для одной предикторной переменной. Критерий позволяет сравнить отклонения жирной линии от среднего разброса их оценок, распределения которых показаны при разных значениях Насколько большой должна быть величина для того, чтобы построенная регрессия была практически полезной в отличие от регрессии, только статистически значимой? Эта величина в значительной степени произвольна, так как произволен выбираемый статистический уровень значимости. (Однако для того, чтобы появились какие-либо идеи, возьмем , так чтобы мы смогли исследовать ряд значений и выбрать подходящее. Допустим, что есть минимально приемлемый уровень для В таком случае Бокс и Ветц показали, что надо найти определенное значение

зависящее от и если обычное регрессионное отношение F превосходит эту величину то мы будем считать, что достаточно велико для того, чтобы считать регрессию полезной в практическом отношении. Бокс и Ветц показали далее, что критическое значение приблизительно равно

где число степеней свободы для остаточной дисперсии и где

Рис. 2В.1. Отклонения «истинных» величин относительно среднего по сравнению с размахами оценок Для одной переменной X

Иными словами, для того, чтобы регрессия была стоящей в практическом отношении, надо, чтобы выполнялось условие Конечно, нетрудно определить величины для конкретных случаев, но более целесообразно анализировать отношение

для данных значений и различных значений и а. В табл. показаны значения этого отношения, округленные до целых чисел для и 4 соответственно при Из этих таблиц видно следующее. Если при данном уровне вероятности принять за критическое значение, при котором регрессия может считаться достаточно информативной для наших целей, то необходимо, чтобы наблюдаемое -отношение было по крайней мере в 4 раза больше, чем обычная процентная точка -распределения.

Если же мы согласимся принять за критическое значение то величина F должна быть по крайней мере в 6—10 раз больше, чем обычная процентная точка. Переходя к табл. мы видим, что с увеличением выбранного значения отношения также увеличиваются, но при этом наблюдаются большие расхождения между ними. (Для картина почти та же, значения отношений или такие же, или на 1 или 2 единицы меньше приведенных.)

(кликните для просмотра скана)

В общем, ясно, что наблюдаемое значение F-отношения должно быть по меньшей мере в 4—5 раз больше обычной процентной точки. На практике, вероятно, целесообразно ориентироваться на цифры, приведенные в табл. Чаще всего их желательно достигать или превосходить. Во всяком случае надо гарантировать, чтобы Однако выбор подходящего доверительного уровня в значительной мере зависит от вкусов исследователей, поэтому приведенные таблицы надо расценивать как указания для такого выбора. Эти результаты были получены, исходя из -статистики для полной регрессии. Однако аналогичные результаты справедливы для подмножества коэффициентов подгоняемой модели. Такое же правило пригодно для F-статистики, составленной для любого подмножества коэффициентов. (См.: Eller ton R. R. W. Is the regression equation adequate - a generalization.- Technometrics, 1978, 20, p. 313-315.)

Categories

1
Оглавление
email@scask.ru