6.6. ВАРИАЦИИ ПРЕДЫДУЩИХ МЕТОДОВ
Хотя обсуждавшиеся ранее методы и не обеспечивают с абсолютной точностью выбор наилучшей модели, обычно они тем не менее позволяют выбрать подходящую модель. Поэтому для улучшения выбора модели были предложены некоторые другие методы, основанные на комбинации рассмотренных приемов. Обсудим теперь два таких метода.
1. Первое предложение сводится к следующему: проведите шаговую регрессионную процедуру с заданными уровнями значимости для включения и исключения. По окончании процедуры определите число переменных в итоговой модели. Используя это число, равное, например,
найдите возможные наборы, содержащие
переменных из
исходных переменных, и выберите наилучший набор.
Мнение. Этот метод позволяет обнаружить ситуацию, отмеченную при обсуждении данных Хальда для двухфакторных случаев, а именно когда имеются два «кандидата для включения в модель» вместо одного. Если это имеет место, то можно сказать, что данные содержат недостаточно информации для однозначного выбора. Чтобы окончательно выбрать модель, требуются дополнительные априорные соображения и здравый смысл экспериментатора. Этот метод становится также несостоятельным, если модель можно улучшить за счет добавления переменных, которые не исследовались с помощью
данного алгоритма. Наш опыт показывает, что преимущества, которые дает эта процедура, незначительны, а дополнительных вычислений здесь много.
2. Второе предложение состоит в использовании шагового метода с менее ограниченными уровнями значимости для включения и исключения (т. е. с большими значениями а), что приводит к включению в модель нескольких дополнительных переменных сверх тех, которые были бы включены при меньших значениях уровней значимости. Это позволяет исследовать дополнительные переменные, которые не включаются в модель при использовании обычного шагового метода, и может привести к получению другой итоговой модели.
Мнение. В некоторых случаях такая процедура оказалась полезной, т. е. она приводила к получению другой модели с приблизительно такими же характеристиками в смысле предсказания. Наш опыт, однако, показывает, что это имеет место, если задача почти не допускает решения из-за очень высокой взаимной корреляции между предикторными переменными
и, следовательно, требует большего, чем только использования статистических методов, отсеивания. См. также комментарии в § 6.5.