1.2. Характеристики качества классификации
Как уже выше сказано, с математической точки зрения задача классификации наблюдения X в одно из двух известных распределений
сводится к проверке простой гипотезы «X принадлежит
(или, короче,
) против простой альтернативы
принадлежит
. Известно [11, § 9.2-9.4], что качество решения в этом случае описывается ошибками первого и второго рода. Однако ввиду высокой содержательной важности рассматриваемой задачи на практике используются более сложные формы заключений, такие, например, как трехградационное решение
«отказ от классификаций».
или указание условной вероятности
Соответственно видоизменяются и показатели качества классификации. В общем случае статистический критерий классификации может быть представлен в форме
, где у — известная функция
— порог критерия. При изложении материала этого параграфа наряду с нейтральной математической терминологией будет использоваться терминология, «окрашенная» спецификой конкретных приложений.
1.2.1. Случай простого правила.
Будем для удобства называть объекты первой совокупности «случаями» (случай брака, случай заболевания и т. п.), а объекты второй совокупности-«не случаями». Пусть далее принимается гипотеза, что объект с характеристикой X является случаем, если
и гипотеза, что объект является не случаем, если
Результаты классификации изучаемой группы объектов удобно представить в виде табл. 1.1, в которой указано число объектов, удовлетворяющих условиям, наложенным на соответствующие строки и столбцы.
Таблица 1.1
В практической (особенно медицинской) работе широко используют следующие характеристики, получаемые с помощью чисел, определенных в табл. 1.1.
Частота случаев —
.
Чувствительность критерия в обнаружении (предсказании) случая
, т. е. доля случаев, для которых
чувствительностью связано введенное ранее понятие ошибки первого рода (а) в проверке гипотезы, что изучаемый объект есть случай. Чувствительность
.
Специфичность критерия
, т. е. доля не случаев, для которых
. Специфичность равна
, где Р — ошибка второго рода в проверке гипотезы, что изучаемый объект случай.
Относительный риск — отношение вероятности быть случаем при условии, что гипотеза «случай» принята, к вероятности быть случаем при условии, что эта гипотеза отвергнута
Доля ложноположительных —
, т. е. доля не случаев среди объектов, признанных случаями.
Доля ложноотрицательных —
, т. е. доля случаев среди объектов, признанных не случаями.
Среди введенных характеристик только три независимых, остальные могут быть получены из них простым пересчетом. Представляется целесообразным выбрать в качестве ведущих частоту случаев (как параметр, связанный с выборочной схемой) чувствительность и специфичность (как параметры, связанные с разделимостью распределений случаев и не случаев) или, что то же самое, частоту случаев и ошибки первого и второго рода. Никакие две из указанных характеристик не дают полного представления о ситуации. В прикладных исследованиях об этом часто забывают и сообщают только общий процент ошибочных диагностических заключений. При этом близость к нулю этого процента при низкой частоте случаев вообще не гарантирует высокую чувствительность критерия. Неполные наборы характеристик встречаются даже в высшей степени интересных работах [49, с. 262].