Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
7.7.4. ОЦЕНКА ДИСКРИМИНАНТНОЙ ОШИБКИ С ПОМОЩЬЮ МЕТОДА ЦИКЛИЧЕСКОЙ ПОДСТАНОВКИ ЛАХЕНБРУХАДо сих пор качество правила классификации мы оценивали, в зависимости от частоты ошибки, по обучающей выборке, т. е. мы проверяли само правило на классификации тех же индивидов, что и при его выводе. Но, применяя дискриминантный анализ, прежде всего важно знать, с какой вероятностью будут правильно классифицированы новые, независимые индивиды, о принадлежности которых к определенным группам ничего не известно. Оценка ошибки по обучающей выборке дает, в общем, чересчур оптимистичный результат; доли ошибок получаются довольно незначительными. Самый простой путь для получения несмещенной оценки ошибки — разделить имеющиеся выборки из отдельных групп на две части. Затем одну часть рассматривать как обучающую выборку, т. е. только для вывода решающего правила, а другую — как контрольную, т. е. только для оценивания ошибок классификации. Но поскольку объемы выборок при этом сильно уменьшаются, этот метод имеет смысл использовать в исключительных случаях, П. А. Лахенбрух [38] предложил метод, который без значительного уменьшения объемов выборок делает возможным реалистическую оценку ошибки. Метод состоит из шагов, в общем соответствующих векторам наблюдений всех групп. При каждом шаге дискриминантное правило строится по множеству из векторов наблюдений, а затем проверяется на единственном исключенном наблюдении. Доля в шагах неправильно классифицированных векторов наблюдений дает приблизительно вероятность ошибок решающего правила. Уменьшение объема выборки на 1 при этом циклическом методе подстановки для оценки ошибки играет второстепенную роль. В связи с тем, что метод Лахенбруха требует -кратного составления дискриминантного правила, объем расчетов увеличивается. Поэтому мы предлагаем более простой вариант метода с тем, чтобы объем вычислений не превосходил объема вычислений при оценке ошибки на обучающей выборке. В этом варианте определяется не сама доля ошибки по Лахенбруху, а верхняя граница этой ошибки. Истинную величину ошибки Лахенбруха следует искать в интервале между ошибкой, определенной на обучающей выборке, и вычисленной верхней ее границей. Для практических применений мы рекомендуем наш упрощенный, «пессимистический» метод оценивания ошибки, между прочим, еще и потому, что наряду с неточностями в оценке параметров на величине ошибки сказываются еще другие, неучитываемые факторы (например, выбор признака и шкалы его измерения, постоянное изменение условий эксперимента). Исследуем конкретно дискриминантное правило, когда индивид у приписывается группе, для которой величина
минимальна. Это правило соответствует процедуре, описанной в разделе 7.7.1, с той лишь разницей, что здесь не. годятся значения дискриминантных признаков. Упрощенный вариант метода Лахенбруха заключается в следующем: чтобы узнать, верно ли идентифицирован с помощью дискриминантного правила индивид из группы 1, надо проверить, для всех ли выполняется соотношение
или же хотя бы одно из этих неравенств нарушается. Если выполняются все неравенства, то индивид правильно идентифицирован. С индивидами других групп нужно проделать то же самое. Очевидно, что этот вариант метода Лахенбруха дает по меньшей мере столько же дискриминантных ошибок, сколько их получается при проверке по обучающей выборке. С вычислительной точки зрения эти методы требуют одинаковых затрат труда. Дополнительные операции с матрицами не нужны. Далее приведем обоснование этой процедуры. При реализации настоящего метода Лахенбруха следует проверить, действительно ли для всех
где — оценка вектора средних значений группы 1 без наблюдения — оценка ковариационной матрицы, тоже без Используя (2.30), можно вывести формулы:
Благодаря этим формулам приведенное выше неравенство может быть преобразовано в
или
В обоих неравенствах заключенные в квадратные скобки выражения неотрицательны; вычеркивая их, получаем легко интерпретируемое изменение дискриминантного правила: в первом неравенстве доля ошибок при вычеркивании увеличивается, во втором — уменьшается. Это и приводит к тому, что истинная ошибка по Лахенбруху должна лежать между ошибкой, определенной по нашему упрощенному правилу, и ошибкой, определенной по обучающей выборке. Пример. Продемонстрируем метод Лахенбруха на данных по гипертиреозу. Рассмотрим три версии классификации, а именно со всеми 10 признаками с тремя признаками и классификацию только по одному Получаются следующие числа ошибок: (см. скан) Мы видим, что доля ошибок по Лахенбруху имеет тенденцию, обратную доле ошибок по обучающей выборке. В то время как эта последняя уменьшается с увеличением числа признаков, метод Лахенбруха показывает, что идентификация нового независимого индивида при большом числе признаков может быть ошибочна. В разделе 6.2.4 мы уже познакомились с этим феноменом. Резкое различие между результатами этих трех методов определения ошибок классификации объясняется крайне малыми объемами выборок по сравнению с числом признаков. Тот факт, что число ошибок на обучающей выборке не полностью совпадает с числом ошибок в табл. 6, связан с тем, что в данном разделе классификация была произведена без понижения размерности. Теперь становится ясно, что для успешного применения дискриминантного анализа желательно оперировать выборками большего объема.
|
1 |
Оглавление
|