1.4. Отбор информативных переменных
Любое практическое исследование с применением методов статистической классификации включает в себя в виде специального этапа отбор информативных для классификации переменных. Дело здесь заключается не столько в экономии затрат на сбор не- или малоинформативных признаков, сколько в том, как увидим в следующей главе, что включение в решающее правило в условиях дефицита выборочной информации малоинформативных признаков ухудшает
среднюю эффективность классификации. В этом параграфе рассматриваются два принципиально отличных подхода к отбору переменных. В первом из них делаются сильные математические предположения о характере классифицируемых распределений и это позволяет четко и однозначно ответить на вопросы, следует или нет включать рассматриваемую переменную в решающее правило и если нет, то почему.
Во втором подходе специальных предположений не делается, предлагаются некоторые эвристические итеративные процедуры, каждый шаг которых разумен, но общий результат их применения осмыслить и изучить трудно.
1.4.1. Модель Фишера с дополнительными предположениями о структуре зависимостей признаков.
Рассмотрим сначала простейшую математическую модель двух нормальных распределений с независимыми переменными
Решающее правило и расстояние Махаланобиса между
согласно (1.12), (1.39) имеют вид
Естественно считать неинформативными переменные, у которых не отличаются средние, т. е. соответствующие
и малоинформативными переменные, у которых
где
— некоторое число. Таким образом, в простейшей математической модели об информативности переменной можно судить по ее одномерным распределениям при
. В общем случае это неверно, так как даже переменные, имеющие идентичные одномерные распределения при
, и
могут нести существенную информацию о проверяемых гипотезах в силу взаимозависимости переменных. В качестве примера вернемся к рис. 1.1. Распределения
при обеих гипотезах совпадают, однако эта переменная в совокупности с
существенна для классификации.
Рассмотрим теперь модель Фишера с древообразной структурой зависимостей (ДСЗ) переменных [12, п. 4.2.3]
, где S имеет ДСЗ. Внедиагональные элементы
отличны от нуля тогда, когда они принадлежат G — графу структуры зависимостей распределений. На основании (1.12)