Макеты страниц
7.7.4. ОЦЕНКА ДИСКРИМИНАНТНОЙ ОШИБКИ С ПОМОЩЬЮ МЕТОДА ЦИКЛИЧЕСКОЙ ПОДСТАНОВКИ ЛАХЕНБРУХАДо сих пор качество правила классификации мы оценивали, в зависимости от частоты ошибки, по обучающей выборке, т. е. мы проверяли само правило на классификации тех же индивидов, что и при его выводе. Но, применяя дискриминантный анализ, прежде всего важно знать, с какой вероятностью будут правильно классифицированы новые, независимые индивиды, о принадлежности которых к определенным группам ничего не известно. Оценка ошибки по обучающей выборке дает, в общем, чересчур оптимистичный результат; доли ошибок получаются довольно незначительными. Самый простой путь для получения несмещенной оценки ошибки — разделить имеющиеся выборки из отдельных групп на две части. Затем одну часть рассматривать как обучающую выборку, т. е. только для вывода решающего правила, а другую — как контрольную, т. е. только для оценивания ошибок классификации. Но поскольку объемы выборок при этом сильно уменьшаются, этот метод имеет смысл использовать в исключительных случаях, П. А. Лахенбрух [38] предложил метод, который без значительного уменьшения объемов выборок делает возможным реалистическую оценку ошибки. Метод состоит из Доля в В связи с тем, что метод Лахенбруха требует вычислений не превосходил объема вычислений при оценке ошибки на обучающей выборке. В этом варианте определяется не сама доля ошибки по Лахенбруху, а верхняя граница этой ошибки. Истинную величину ошибки Лахенбруха следует искать в интервале между ошибкой, определенной на обучающей выборке, и вычисленной верхней ее границей. Для практических применений мы рекомендуем наш упрощенный, «пессимистический» метод оценивания ошибки, между прочим, еще и потому, что наряду с неточностями в оценке параметров на величине ошибки сказываются еще другие, неучитываемые факторы (например, выбор признака и шкалы его измерения, постоянное изменение условий эксперимента). Исследуем конкретно дискриминантное правило, когда индивид у приписывается группе, для которой величина
минимальна. Это правило соответствует процедуре, описанной в разделе 7.7.1, с той лишь разницей, что здесь не. годятся значения дискриминантных признаков. Упрощенный вариант метода Лахенбруха заключается в следующем: чтобы узнать, верно ли идентифицирован с помощью дискриминантного правила индивид
или же хотя бы одно из этих неравенств нарушается. Если выполняются все неравенства, то индивид правильно идентифицирован. С индивидами других групп нужно проделать то же самое. Очевидно, что этот вариант метода Лахенбруха дает по меньшей мере столько же дискриминантных ошибок, сколько их получается при проверке по обучающей выборке. С вычислительной точки зрения эти методы требуют одинаковых затрат труда. Дополнительные операции с матрицами не нужны. Далее приведем обоснование этой процедуры. При реализации настоящего метода Лахенбруха следует проверить, действительно ли для всех
где Используя (2.30), можно вывести формулы:
Благодаря этим формулам приведенное выше неравенство может быть преобразовано в
или
В обоих неравенствах заключенные в квадратные скобки выражения неотрицательны; вычеркивая их, получаем легко интерпретируемое изменение дискриминантного правила: в первом неравенстве доля ошибок при вычеркивании увеличивается, во втором — уменьшается. Это и приводит к тому, что истинная ошибка по Лахенбруху должна лежать между ошибкой, определенной по нашему упрощенному правилу, и ошибкой, определенной по обучающей выборке. Пример. Продемонстрируем метод Лахенбруха на данных по гипертиреозу. Рассмотрим три версии классификации, а именно со всеми 10 признаками (см. скан) Мы видим, что доля ошибок по Лахенбруху имеет тенденцию, обратную доле ошибок по обучающей выборке. В то время как эта последняя уменьшается с увеличением числа признаков, метод Лахенбруха показывает, что идентификация нового независимого индивида при большом числе признаков может быть ошибочна. В разделе 6.2.4 мы уже познакомились с этим феноменом. Резкое различие между результатами этих трех методов определения ошибок классификации объясняется крайне малыми объемами выборок по сравнению с числом признаков. Тот факт, что число ошибок на обучающей выборке не полностью совпадает с числом ошибок в табл. 6, связан с тем, что в данном разделе классификация была произведена без понижения размерности. Теперь становится ясно, что для успешного применения дискриминантного анализа желательно оперировать выборками большего объема.
|
1 |
Оглавление
|