2.6. ВЕРОЯТНОСТИ ОШИБОК И ИНТЕГРАЛЫ ОШИБОК
Представляя классификатор как устройство для разбиения пространства признаков на области решений, можно глубже разобраться в работе байесовского классификатора.
Рис. 2.6. Составляющие вероятности ошибки.
Рассмотрим сначала случай двух классов и предположим, что классификатор разделяет пространство на две области
Возможны два типа ошибок классификации: когда наблюдаемое значение х попадает в область
в то время как истинное состояние природы есть
либо когда х попадает в
, а истинное состояние природы —
. Так как эти события взаимоисключающие и составляют полное множество событий, то
Этот результат для одномерного случая иллюстрируется рис. 2.6. Два слагаемых в этом выражении, по существу, представляют площади, накрываемые «хвостами» функций
. В силу
произвольного выбора
вероятность ошибки в примере не столь мала, как могла бы быть. Ясно, что, смещая границу области решений влево, можно свести на нет площадь темного «треугольника» и тем самым уменьшить вероятность ошибки. Вообще, если
, то выгоднее иметь х в области
чтобы вклад в интеграл был меньше; именно это и достигается применением байесовского решающего правила.
В случае многих классов больше возможностей допустить ошибку, чем оказаться правым, так что проще вычислять вероятность верного решения. Ясно, что
Полученный результат остается в силе независимо от способа разбиения пространства признаков на области решений. Байесовский классификатор делает эту вероятность максимальной за счет выбора областей, для которых интегрируемые величины наибольшие, так что никакое другое разбиение не приведет к меньшей вероятности ошибки.