Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ)
В предыдущей главе распределения векторов X внутри классов предполагались известными: они задавались аналитически или с помощью перечисления всех возможных значений X. С использованием этой информации строилось правило (критерий) классификации. В этой и последующих двух главах распределения X внутри классов определяются лишь частично. При этом используются два вида информации: предположения о свойствах распределений (гладкость, принадлежность к некоторому известному параметрическому классу) и обучающая выборка. Совокупность алгоритмов, порождающих на основании предположений и выборки конкретное правило классификации, называют дискриминантным анализом (ДА). Построенное правило классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно. Это затрудняет сравнение алгоритмов ДА.
Цель главы — познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретического исследования свойств алгоритмов в условиях дефицита выборочной информации.
2.1. Базовые понятия дискриминантного анализа
2.1.1. Выборка, предположения, алгоритм, оценка качества дискриминации.
В дальнейшем предполагается, что случайная выборка представляет собой последовательность независимых, пар наблюдений вида (1.46)
где трактуется как номер класса, которому принадлежит наблюдение — неизвестная вероятность, что X будет извлечено из класса; число классов k известно исследователю, все X, принадлежат одному и тому же пространству наблюдений; X; — такие, что одинаково распределены с неизвестной исследователю функцией распределения .
Число в выборке будем обозначать и называть объемом выборки из класса. Предположения о характере распределений в наиболее информативном случае утверждают, что принадлежат некоторому известному семейств) распределений, зависящему от неизвестного векторного параметра .
В модели Фишера предполагается, что Имеются всего два класса имеют многомерные нормальные распределения с общей невырожденной ковариационной матрице . В этом случае каждое из определяют одним -мерным вектором средних, своим для каждого распределения, и — параметрами ковариацион ной матрицы, общими для обоих распределений.
Иногда предполагается с точностью до неизвестных параметров аналитический вид отношения правдоподобия и, наконец, самый слабый вид предположений — постулирование непрерывности Формальная процедура, использующая часть информации предположений и выборку для получения конкретного классификационного правила, называется алгоритмом. Приведем примеры описания алгоритмов.
Пример 2.1. Имя: Подстановочный алгоритм с независимой оценкой параметров Применяется: вслучаях, когда предполагается, что
1)
2) не имеют общих значений координат. Вычисления над выборкой: независимо для каждого из строятся оценки максимального правдоподобия [12, гл. 8]. При этом при оценке используются наблюдений из первого класса, при оценке наблюдений из второго.
Прогностическое правило:
где — плотности соответственно распределений — гипотеза о том, что новое наблюдение извлечено из класса.
Пример 2.2. Имя: Подстановочный алгоритм в задаче Фишера. Применяется: в случаях, когда предполагается, что
неизвестны. В отличие от предшествующего примера матрица — общая для обоих распределений.
Вычисления над выборкой: строятся оценки максимального правдоподобия для
Прогностическое правило:
где
Оценка качества построенного правила классификации— завершающая операция ДА В ней используются оценки определенных в гл. 1 показателей качества разделения. Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предположений и выбора алгоритма ДА.
В гл. 1 объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порождающие конкретные правила. В приведенных выше описаниях случайны, следовательно, случайны и правила.