Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике 6.2. МЕТОД ВЫБОРА «НАИЛУЧШЕГО ПОДМНОЖЕСТВА» ПРЕДИКТОРОВСуществуют прекрасные вычислительные алгоритмы выбора наилучших наборов предикторных переменных в регрессии. Среди них популярен алгоритм, предложенный в статье: Furnival G. М., Wilson R. W. Regression by leaps and bounds. - Technometrics, 1974, 16, p. 499-511. В этом алгоритме обрабатывается только часть всех возможных регрессий при определении наилучшего набора, включающего К уравнений, так называемого «-подмножества». Для определения этого наилучшего -подмножества могут использоваться три критерия, а именно: 1) максимум величины 2) максимум приведенной величины (см. уравнение 3) критерий Маллоуза. В пакете BMDP (см. с. 60) соответствующая программа обозначена как P9R, All Possible Subsets Regression. Пользователь назначает число К, т. е. число отбираемых наилучших регрессий, и сам критерий, по которому будет производиться отбор. Программа определяет наилучшее подмножество, включающее К регрессий, из всего множества возможных регрессий. (На машинных распечатках указываются все три критерия, но выбор наилучшего подмножества производится на основе какого-нибудь одного из них.) В распечатке приводятся также наилучшие выборы из К регрессий, включающих одну, две и более предикторных переменных. Вплоть до единственного уравнения, содержащего все предикторные переменные. В каждом из этих частных подмножеств выделяется наилучшее уравнение (уравнения), из которых формируется наилучшее общее подмножество, содержащее К регрессий. Если выбранное число К превосходит число уравнений, из которых может быть образовано некоторое частное подмножество, то в -подмножество включаются все эти уравнения. Это будет ясно из примера, построенного на данных Хальда (см. приложение Б), где мы выбрали Там приведены значения всех трех критериев, но выбор наилучших уравнений производится с помощью критерия В конце программа указывает характеристики наилучшего уравнения из всех наилучших -подмножеств. По данным Хальда при с помощью программы получена следующая машинная распечатка. Критерии приведенный регрессионные коэффициенты и их -статистики указываются для пяти наилучших наборов предикторов. Критерии вычислены также для многих других наборов, некоторые из которых могут быть также довольно хорошими. Однако они не обязательно лучше, чем некоторые из наборов, которые здесь не отражены. (см. скан) (см. скан) регрессий. Было выполнено 38 умножений и делений (исключая вычисления, связанные с ковариационной матрицей). (см. скан) Мнение. Эта процедура имеет некоторые недостатки: (1) Она имеет склонность к выбору уравнений (входящих в наилучшее общее подмножество), которые содержат слишком много предикторов. (2) Если величина К выбирается малой, то наиболее подходящее уравнение может не войти в наилучшее общее подмножество моделей, хотя оно может фигурировать где-то в машинной распечатке. (3) В распечатке не содержится никакой подходящей информации относительно того, как получались различные наборы. Однако если принять во внимание эти особенности процедуры, программа такого типа может иметь большую ценность, и мы рекомендуем использовать этот метод в сочетании с методом шаговой регрессии, если желательно исследовать уравнения, «близкие» к наилучшему.
|
1 |
Оглавление
|