1.1.4. Функция потерь.
В предшествующих томах справочного издания [11, 12] уже неоднократно сталкивались с методическим приемом, когда для характеристики решения некоторой статистической задачи вводится подходящая функция потерь Q, а наилучшее (в смысле Q) решение определяется как решение, на котором при заданных ограничениях достигается минимум Q. Укажем основные функции потерь, используемые в задаче классификации двух статистических распределений.
(см. скан)
Рис. 1.2. Разделяющая поверхность кусочно-линейного классификатора по минимуму расстояния для трех случаев расположения классов
Вероятность ошибочной классификации (8). Пусть, как в п. 1.1.1,
— априорная вероятность гипотезы
тогда
Ввиду важности введенного понятия дадим его параллельное определение. Пусть
в случае, когда верна гипотеза
— решающая функция, которая тоже принимает два значения:
когда принимается гипотеза
, тогда
может быть определена так же, как
где математическое ожидание берется с учетом априорного распределения гипотез.
Частный случай формулы (1.31), получаемый при
дает полусумму ошибок (а
Как увидим в следующем параграфе, эта величина является удобной мерой разделения статистических совокупностей в случае модели Фишера.
На практике ошибки первого и второго рода не всегда эквивалентны. Так, например, при диспансеризации населения пропуск возможного заболевания более опасен, чем ложная тревога. Так возникает взвешенная ошибка классификации
где
— штраф за ошибку, когда верна гипотеза
Пусть у и
определены как выше и пусть
тогда по аналогии с (1.31')
С точностью до постоянного множителя (1.32) эквивалентно (1.31), но с другим априорным распределением