6.5. НЕДОСТАТОК, КОТОРЫЙ СЛЕДУЕТ ПОНЯТЬ, НЕ ПРИДАВАЯ ЕМУ СЛИШКОМ БОЛЬШОГО ЗНАЧЕНИЯ

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

6.5. НЕДОСТАТОК, КОТОРЫЙ СЛЕДУЕТ ПОНЯТЬ, НЕ ПРИДАВАЯ ЕМУ СЛИШКОМ БОЛЬШОГО ЗНАЧЕНИЯ

Как метод исключения, так и шаговый регрессионный метод страдают недостатком, который не очевиден на первый взгляд. Так, например, в шаговой процедуре проверка по частному -критерию на стадии включения переменной производится для того предиктора, который имеет наибольшее значение частного F среди всех предикторов, не входящих в регрессию в данный момент. Корректное «нуль-распределение» (т. е. распределение в случае справедливости нулевой гипотезы) этой статистики, как мы полагаем, будет отнюдь не обычным -распределением и для выборочной, и для теоретической статистики, а получить его очень трудно, за исключением нескольких простейших ситуаций. Исследования показывают, например, что в некоторых случаях, когда проверка с помощью -критерия при включении переменных производилась при уровне значимости а, соответствующая вероятность была равна где число кандидатов на включение, которые имелись на этой стадии. Что можно сделать в связи с этим? Одна возможность состоит в определении правильных уровней значимости для любого данного случая. Другая заключается в использовании иных статистических критериев вместо частного -критерия. Обе эти возможности обсуждались в недавних публикациях, но к моменту написания нашей книги проблема полностью и надлежащим образом еще не была решена, в том смысле, чтобы можно было гарантировать улучшение процедуры. Пока такое решение не найдено, мы предлагаем читателю применять процедуры в описанном виде, не придавая слишком большого значения действительным уровням вероятности, а просто рассматривая весь метод как проведение серии сравнений, которые позволяют выявлять, по-видимому, наиболее полезные наборы предикторов. Для тех, кто желает углубиться в проблему более основательно, мы приводим в конце книги некоторые избранные ссылки. Этим читателям следует также просмотреть последние выпуски основных статистических журналов, где могут содержаться другие работы.

Преодолеть указанную выше трудность проще всего, назначив в программах заранее значения для включения и исключения (так, например, можно принять Такой подход описывается Форсайтом в сборнике программ (BMDP-79, Biomedical Computer Programs, P-Series/Diхоп W. J., Brown М. B., Eds.-Berkeley: University of California Press, 1979, Appendix C, p. 855) следующим образом:

«Некоторые пользователи, применяющие программы шагового регрессионного и дискриминантного анализа, спрашивают: почему мы всюду используем термины для включения» и для исключения» вместо того, чтобы просто называть их величинами Другие

предлагают, чтобы мы запрашивали у пользователя уровень значимости а и имели программу, позволяющую преобразовать эту величину в соответствующее значение Составить такую программу для ЭВМ в принципе достаточно просто, но это нелегко сделать статистически корректно, поскольку при выборе «наилучшей» переменной обычные таблицы -критерия неприменимы. Подходящее критическое значение есть функция числа вариантов, числа переменных и, к несчастью, характера коррелированности предикторных переменных. Это означает, что уровень значимости, соответствующий -критерию для включения, зависит от конкретного набора данных. Так, например, в случае нескольких сотен опытов и 50 потенциальных предикторов -критерий для включения, равный 11, приближенно соответствовал бы если бы все 50 предикторов были некоррелированными. В обычно используемых -таблицах ошибочно предлагается величина , равная 4.»

(Добавим к этому, что использование значения, равного 4, не будет неправильным, если просто принимать а более высоким, чем мы обсуждали ранее. Однако зачастую принимают значения по существу более высокие. Так, например, в указанном выше случае при номинальном значении (50 некоррелированных предикторов) «действительная» величина а, определяемая по формуле 1 — равнялась бы 0,923. Эта формула может быть полезна в качестве грубого ориентира. Заметим, что пакет программ BMDP периодически пересматривается. В более поздних версиях учитываются возможные изменения метода.)

<< Предыдущий параграф

Следующий параграф >>

Оглавление