1.4.3. Схемы последовательного испытания наборов признаков.
Общая логическая схема рассуждения здесь традиционна:
выбирается функция потерь
;
для каждого набора переменных, порождаемого с помощью какой-либо пошаговой процедуры, строится наилучший (в смысле Q) критерий классификации;
среди всех построенных наборов отбирается тот (те), в который входит наименьшее число переменных и при котором Q минимально.
Схемы генерации наборов переменных, по существу, аналогичны схемам, используемым при отборе переменных в регрессионном анализе [12, п. 8.7.4] и опираются на эвристическое предположение, что наилучший набор из
переменных часто содержит в себе наилучший набор из k переменных. Однако в общем случае так же, как и в регрессии, это предположение неверно, и пошаговые процедуры не гарантируют получения оптимального набора переменных, т. е. в общем случае без дополнительных предположений полный перебор неизбежен (см, п. 1.4.2). Практические аспекты отбора переменных в условиях дефицита выборочной информации обсуждаются во второй и третьей главах.