Главная > Прикладная статистика: Классификации и снижение размерности
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

2.1.2. Основные виды ошибок.

Базовым понятием, как и в гл. 1, остается вероятность ошибочной классификации конкретного правила. Теперь, однако, это уже случайная величина, зависящая от выборки, алгоритма, объема обучающей выборки. Итак, пусть для — условная вероятность ошибочной классификации (УОК) нового (не входящего в обучающую выборку) наблюдения из класса в при данной обучающей выборке объема и алгоритме А. Пусть Е — символ математического ожидания по обучающим выборкам объема , тогда называют ожидаемой ошибкой классификации (ООК) алгоритма на выборке объема . Естественно также ввести предел ООК при росте числа наблюдений: называют асимптотической ожидаемой ошибкой классификации (АОК).

Часто оказывается, что при и УОК сходится по вероятности к неслучайному пределу. В этом случае этот предел совпадает с РА. Тем самым пропуск второй буквы в сокращении АОК оправдан. Обычно ООК больше АОК, и отношение

характеризует относительное качество обучения алгоритма на выборке объема я. Это очень важный показатель, широко используемый в теоретических и прикладных исследованиях, ввел его Ш. Ю. Раудис, внесший весомый вклад в и лучение свойств алгоритмов в условиях дефицита выборочной информации.

Для того чтобы проиллюстрировать масштаб возникающих проблем, в табл. 2.1 приведены значения для одного из основных алгоритмов дискриминантного анализа — линейной дискриминантной функции, используемой, когда распределения в классах предполагаются многомерными нормальными (см. п. 2.1.1). При этом предполагается также, что в обучающей выборке имеется ровно по я наблюдений из каждого класса. Параметр d в таблице — это корень из расстояния Махаланобиса между классами (см. п. 1.2.4).

1
Оглавление
email@scask.ru