ВЫВОДЫ
1. Среди критериев классификации в одно из двух известных распределений с заданной ошибкой первого рода а наименьшую ошибку второго рода Р имеет критерий отношения правдоподобия вида (1.1). Байесовский классификатор определяется с помощью формулы (1.2). Он минимизирует вероятность ошибочной классификации. При выборе между двумя многомерными нормальными распределениями с общей ковариационной матрицей (модель Фишера) i раница критической области критерия является гиперплоскостью в пространстве наблюдений, зависящей от параметров распределений по формуле (1.12 ). Наряду с критерием отношения правдоподобия на практике широко используются правила классификации, критические области которых находятся путем минимизации заданной функции потерь при данных ограничениях на границу критической области. При этом функцию потерь и ограничения на границу критической области обычно выбирают так, чтобы в случае, когда верна одна из базовых теоретических моделей классификации, построенный критерий совпадал с критерием отношения правдоподобия.
2. Для характеристики простого правила классификации при двух классах в условиях полностью известных распределений необходимо использовать не менее двух чисел-вероятностей ошибок
. К ним часто добавляют третье число — вероятность того, что наблюдение извлечено из одного из классов. Все остальные характеристики правила получаются простым пересчетом из указанных трех базовых.
На практике широко используется прием, когда классификация проводится с переменным порогом и для каждого диапазона значений отношения правдоподобия указывается условная вероятность, что наблюдение принадлежит одному из классов при условии, что оно попало в данный диапазон. В этом случае в качестве базовой характеристики критерия рассматривается кривая
, где с — порог критерия. Ее называют кривой «чувствительность — специфичность», В модели Фишера при специальном выборе масштаба на координатных осях все кривые «чувствительность — специфичность» превращаются в параллельные прямые, идущие под углом 135° к оси абсцисс и отстоящие от прямой
на расстояние, пропорциональное d, где
— расстояние Махаланобиса, определенное формулой (1.39).
3. Наряду с аналитическим описанием распределений в классах используется также прием задания распределений путем указания соответствующих генеральных совокупностей. Его можно рассматривать как теоретическое представление большой выборки. Все основные показатели распределений могут быть оценены и в этом случае. Вместе с тем прямое задание генеральных совокупностей позволяет использовать при классификации методы, осуществление которых невозможно или крайне затруднительно при аналитическом задании распределений. Одним из примеров здесь являются древообразные или логические классификаторы.
Они обладают рядом привлекательных свойств: просты, легко интерпретируемы, при увеличении числа ветвей сводятся к классификатору, минимизирующему заданную функцию потерь.
4. При построении классификационного правила часто производится отбор информативных для разделения классов координат. При этом используются два методических подхода. В первом из них на взаимозависимость переменных накладываются сильные упрощающие предположения, но сам отбор не требует чрезмерных вычислений, и всегда можно ответить на вопрос, почему берется или отвергается переменная. Второй подход связан с минимизацией некоторой функции потерь и проводится путем последовательного испытания наборов признаков. При этом широко используются различные эвристические соображения, направленные на то, чтобы уменьшить перебор. Они часто хорошо оправдываются на практике, однако встречают серьезные теоретические возражения. Четкого ответа на вопрос, почему включена или отвергнута переменная, при втором подходе дать нельзя.
5. В случае
классов построение байесовского классификатора сводится к построению байесовских классификаторов для всех пар классов. Наиболее распространенная модель в этом случае — это предположение, что
, где матрица
одна и та же для всех классов. Особый интерес представляет случай, когда можно предположить, что классы упорядочены по какому-либо признаку. В этом случае каждому классу приписывается некоторое число в так, чтобы расстояние между последовательными числами отвечало интуитивной идее исследователя о расстоянии между классами.
Далее строится
оценка
для наблюдения X, и классификация проводится по величине