6.2.4. ОПРЕДЕЛЕНИЕ ОШИБКИ ДИСКРИМИНАЦИИ
Для применений дискриминантного анализа важно знать, каковы ошибки классификации. При этом следует иметь в виду, что ошибка дискриминации величина случайная. Ошибка зависит от соответствующих оценок средних значений и матрицы ковариации
Рассмотрим два правила идентификации.
Правило 1: относить индивида к той группе, для которой меньше
Правило 2: относить индивида к той группе, для которой меньше
Правила идентичны при
При
математическое ожидание ошибки классификации по правилу 1 является функцией «истинного» расстояния Махаланобиса
(см. [79]). Для группы 1 средняя вероятность ошибки
для группы 2
где
функция стандартного нормального распределения
. В этих формулах отсутствует число степеней свободы
так как при
оценка дисперсии не оказывает влияния на идентификацию. Для
и для правила 2 ошибку классификации можно определить только приблизительно.
Метод Деева для произвольного p
Деев [12] дал асимптотическое представление вероятностей ошибок для правил 1 и 2. Средняя ошибка правила 1:
Средняя ошибка правила 2:
Здесь
число степеней свободы оценки ковариационной матрицы
При
ошибки классификации для обоих правил совпадают.
С помощью приведенных формул можно показать, что при постоянном расстоянии Махаланобиса
средняя ошибка увеличивается с ростом числа признаков
Например, при
получаем следующие вероятности ошибок:
(см. скан)
Отсюда видно, что решающие правила в задачах классификации не должны использовать избыточных признаков, т. е. каждый лишний признак может существенно увеличить расстояние Махаланобиса. Благодаря избыточным признакам вероятность ошибочной классификации увеличивается.
Метод Окамото для любого числа признаков p
М. Окамото 156] указал асимптотические формулы для вероятностей ошибок решающего правила 2. Он представил вероятность ошибки в виде полинома 2-й степени от
с коэффициентами, зависящими от
Приведем эти формулы, опуская члены второго порядка:
Здесь
функция, а
плотность нормального распределения
Приведенная выше таблица ошибок классификации показывает эффективность применения этих формул.
Оценочные формулы Мак-Лахлана
В приведенных выражениях для ошибок классификации участвовало расстояние Махаланобиса
Для случая, когда
неизвестно, но имеется его оценка
Г. Мак-Лахлан [50], [51] предложил использовать асимптотически несмещенную оценку средней ошибки решающего правила 2;
Ошибка
выглядит аналогично. Для правила 1 соответствующие формулы отсутствуют. А. Д. Деев рекомендует в этом случае для оценки ошибки применять формулы (6.42) и (6.43), подставляя в них вместо
несмещенную оценку
Пример. По данным примера из раздела 6.2.1 имеем
. По формуле
Оценки ошибок отнесения индивидов к группам 1 и 2 для правила
1 по формулам Деева (6.42) и (6.43):
. Для решающего правила 2 по формуле Мак-Лахлана (6.48) оценки ошибок:
Метод Лахенбруха
Р. А. Лахенбрух 138] предложил метод оценивания ошибки без каких-либо предположений о виде закона распределения, в отличие от обсуждавшихся выше.
Более подробно этот метод мы рассмотрим в разделе 7.7.4.