Главная > Многомерный дисперсионный анализ
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

6.2.4. ОПРЕДЕЛЕНИЕ ОШИБКИ ДИСКРИМИНАЦИИ

Для применений дискриминантного анализа важно знать, каковы ошибки классификации. При этом следует иметь в виду, что ошибка дискриминации величина случайная. Ошибка зависит от соответствующих оценок средних значений и матрицы ковариации Рассмотрим два правила идентификации.

Правило 1: относить индивида к той группе, для которой меньше

Правило 2: относить индивида к той группе, для которой меньше

Правила идентичны при

При математическое ожидание ошибки классификации по правилу 1 является функцией «истинного» расстояния Махаланобиса

(см. [79]). Для группы 1 средняя вероятность ошибки

для группы 2

где

функция стандартного нормального распределения . В этих формулах отсутствует число степеней свободы так как при оценка дисперсии не оказывает влияния на идентификацию. Для и для правила 2 ошибку классификации можно определить только приблизительно.

Метод Деева для произвольного p

Деев [12] дал асимптотическое представление вероятностей ошибок для правил 1 и 2. Средняя ошибка правила 1:

Средняя ошибка правила 2:

Здесь число степеней свободы оценки ковариационной матрицы При ошибки классификации для обоих правил совпадают.

С помощью приведенных формул можно показать, что при постоянном расстоянии Махаланобиса средняя ошибка увеличивается с ростом числа признаков Например, при получаем следующие вероятности ошибок:

(см. скан)

Отсюда видно, что решающие правила в задачах классификации не должны использовать избыточных признаков, т. е. каждый лишний признак может существенно увеличить расстояние Махаланобиса. Благодаря избыточным признакам вероятность ошибочной классификации увеличивается.

Метод Окамото для любого числа признаков p

М. Окамото 156] указал асимптотические формулы для вероятностей ошибок решающего правила 2. Он представил вероятность ошибки в виде полинома 2-й степени от с коэффициентами, зависящими от Приведем эти формулы, опуская члены второго порядка:

Здесь функция, а плотность нормального распределения Приведенная выше таблица ошибок классификации показывает эффективность применения этих формул.

Оценочные формулы Мак-Лахлана

В приведенных выражениях для ошибок классификации участвовало расстояние Махаланобиса Для случая, когда неизвестно, но имеется его оценка

Г. Мак-Лахлан [50], [51] предложил использовать асимптотически несмещенную оценку средней ошибки решающего правила 2;

Ошибка выглядит аналогично. Для правила 1 соответствующие формулы отсутствуют. А. Д. Деев рекомендует в этом случае для оценки ошибки применять формулы (6.42) и (6.43), подставляя в них вместо несмещенную оценку

Пример. По данным примера из раздела 6.2.1 имеем . По формуле Оценки ошибок отнесения индивидов к группам 1 и 2 для правила

1 по формулам Деева (6.42) и (6.43): . Для решающего правила 2 по формуле Мак-Лахлана (6.48) оценки ошибок:

Метод Лахенбруха

Р. А. Лахенбрух 138] предложил метод оценивания ошибки без каких-либо предположений о виде закона распределения, в отличие от обсуждавшихся выше.

Более подробно этот метод мы рассмотрим в разделе 7.7.4.

1
Оглавление
email@scask.ru