Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ)
В предыдущей главе распределения векторов X внутри классов предполагались известными: они задавались аналитически или с помощью перечисления всех возможных значений X. С использованием этой информации строилось правило (критерий) классификации. В этой и последующих двух главах распределения X внутри классов определяются лишь частично. При этом используются два вида информации: предположения о свойствах распределений (гладкость, принадлежность к некоторому известному параметрическому классу) и обучающая выборка. Совокупность алгоритмов, порождающих на основании предположений и выборки конкретное правило классификации, называют дискриминантным анализом (ДА). Построенное правило классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно. Это затрудняет сравнение алгоритмов ДА.
Цель главы — познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретического исследования свойств алгоритмов в условиях дефицита выборочной информации.
2.1. Базовые понятия дискриминантного анализа
2.1.1. Выборка, предположения, алгоритм, оценка качества дискриминации.
В дальнейшем предполагается, что случайная выборка представляет собой последовательность независимых, пар наблюдений вида (1.46)
где
трактуется как номер класса, которому принадлежит наблюдение
— неизвестная вероятность, что X будет извлечено из
класса; число классов k известно исследователю,
все X, принадлежат одному и тому же пространству наблюдений; X; — такие, что
одинаково распределены с неизвестной исследователю функцией распределения
.
Число
в выборке будем обозначать
и называть объемом выборки из
класса. Предположения о характере распределений
в наиболее информативном случае утверждают, что
принадлежат некоторому известному семейств) распределений, зависящему от неизвестного векторного параметра
.
В модели Фишера предполагается, что
Имеются всего два класса
имеют многомерные нормальные распределения с общей невырожденной ковариационной матрице
. В этом случае каждое из
определяют одним
-мерным вектором средних, своим для каждого распределения, и
— параметрами ковариацион ной матрицы, общими для обоих распределений.
Иногда предполагается с точностью до неизвестных параметров аналитический вид отношения правдоподобия и, наконец, самый слабый вид предположений — постулирование непрерывности
Формальная процедура, использующая часть информации предположений и выборку для получения конкретного классификационного правила, называется алгоритмом. Приведем примеры описания алгоритмов.
Пример 2.1. Имя: Подстановочный алгоритм с независимой оценкой параметров
Применяется: вслучаях, когда предполагается, что
1)
2)
не имеют общих значений координат. Вычисления над выборкой: независимо для каждого из
строятся оценки максимального правдоподобия
[12, гл. 8]. При этом при оценке
используются
наблюдений из первого класса, при оценке
наблюдений из второго.
Прогностическое правило:
где
— плотности соответственно распределений
— гипотеза о том, что новое наблюдение извлечено из
класса.
Пример 2.2. Имя: Подстановочный алгоритм в задаче Фишера. Применяется: в случаях, когда предполагается, что
неизвестны. В отличие от предшествующего примера матрица
— общая для обоих распределений.
Вычисления над выборкой: строятся оценки максимального правдоподобия для
Прогностическое правило:
где
Оценка качества построенного правила классификации— завершающая операция ДА В ней используются оценки определенных в гл. 1 показателей качества разделения. Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предположений и выбора алгоритма ДА.
В гл. 1 объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порождающие конкретные правила. В приведенных выше описаниях
случайны, следовательно, случайны и правила.