Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
2.5. Отбор переменных
2.5.1. Увеличение ООК малоинформативными признаками.
Один из очевидных выводов из формул § 2.3 состоит в том, что включение в прогностическое правило малоинформативных переменных может заметно ухудшить его качество. Рис. 2.4 показывает это наглядно.
Рис. 2.4. Зависимость отношения сигнал/шум от числа отобранных параметров: — отношение сигнал/шум для к первых переменных
Каждый признак наряду с положительным вкладом в разделение несет в себе в силу ограниченности выборки и шумовую (случайную) составляющую. Если много малоинформативных признаков, то отношение сигнал/шум значительно лучше для группы высокоинформативных признаков, чем для всей выборки. Тот же вывод подтверждают и числовые данные.
Из анализа данных табл. 2.2 видно, что при известной ковариационной матрице 2 обучаемость подстановочного алгоритма заметно лучше, чем в общем случае, когда 2 неизвестна. Однако и при известном 2 роль отношения
существенна.
Поэтому при относительно небольшом объеме выборки малоинформативные признаки в прогностическое правило лучше не включать. Однако заранее информативность признаков обычно не известна и отбор наилучших среди них производится по выборке, но здесь мы сталкиваемся с новым явлением — отбор признаков может заметно ухудшить обучаемость алгоритма.
2.5.2. Влияние выборочных флуктуаций на результаты отбора признаков.
Задача формирования наилучшей системы признаков трудна сама по себе как с технической, так и с методологической стороны даже в случае полностью определенных распределений (см. § 1.4). В дискриминантном анализе она усугубляется еще и выборочными флуктуациями. Для представления масштаба возникающей проблемы снова обратимся к модельному примеру. Пусть в модели Фишера с известной единичной ковариационной матрицей
средние случайны:
При моделировании сначала получают значения
далее моделируются независимые выборки объема
каждая из
и по ним с помощью изучаемого алгоритма А строится правило классификации. Поскольку значения
известны, нетрудно оценить
— асимптотическую ошибку классификации, которая, естественно, зависит от
Подбирая величину
можно добиться того, что значение
будет достаточно близко к любому числу
Пусть А — подстановочный алгоритм, действующий в
и порождающий правило вида
где с подбирается в каждой серии так, чтобы УОК была минимаксной. Пусть далее В — аналогичный подстановочный, алгоритм, но с предварительным отбором
признаков из
. При этом отбор переменных проводится по величине модуля разности
так, что переменные с разностью, большей некоторого порога, включаются как «информативные», а с меньшей — нет. В табл. 2.3 показаны три отношения
, полученные методом статистического моделирования.
Таблица 2.3 [133]
(см. скан)
Общий вывод, который можно сделать из табл. 2.3, следующий: в рассматриваемой модели, когда объем обучающей выборки ограничен и число отобранных признаков в 4—8 раз меньше числа исходных переменных, ожидаемая ошибка алгоритма с отбором признаков по обучающей выборке заметно больше ожидаемой ошибки алгоритма без отбора. Правда, в качестве примера взята модель ситуации, весьма трудной для отбора.
2.5.3. Изучение эффекта отбора признаков в асимптотике растущей размерности.
Основное добавление к предположению (2.9) асимптотики растущей размерности при изучении эффекта отбора состоит в том, что
— число отбираемых признаков — пропорционально
, т. е. что
Естественно также потребовать, чтобы расстояние между классифицируемыми распределениями оставалось ограниченным при росте
, т. е. чтобы
Поскольку априори известно, что признаки независимы и нормально распределены с единичной дисперсией, переменную i включаем в число отобранных, когда
где
определяется из условия
. Условие (2.52) выполняется, так как
. Пусть
где для i, не удовлетворяющих условию суммирования, положено
Согласно (2.3) АОК
Найдем математическое ожидание одного, отличного от нуля, слагаемого в (2.55):
Число отличных от нуля слагаемых асимптотически равно
поэтому для больших
Обозначим
условное математическое ожидание по наблюдению X при условии, что 1)
и 2) обучающая выборка фиксирована Пусть далее в соответствии с предположением (2.53)
тогда согласно (2.57) для
(соответствующие значения Травны 1,53; 1,15; 0,674) для получения
должно быть соответственно равным 43,1; 29,9; 23,3 и для
. Для подсчета асимптотического значения УОК по конечной выборке при отборе и обучении надо найти в изучаемой асимптотике (2.9), (2.52), (2.49), (2.50), (2.58) предел отношения
Он существует, так как в силу закона больших чисел существуют конечные пределы числителя и знаменателя. Обозначим его
тогда
Теперь для значений
, указанных в табл. 2.3, можно найти соответствующие предельные значения
(табл. 2.4).
Таблица 2.4
Качественное соответствие данным табл. 2.3 полное. Однако численно изучаемый эффект более сильно выражен в асимптотической теории.
В близкой постановке ошибку классификации при отборе переменных изучал В. И. Сердобольский [140].