19.4. Проекционные индексы для дискриминантного анализа
Как направления проецирования в ДА можно использовать канонические направления по
Таким образом, в качестве ПИ выступает отношение
(19.3). В случае двух классов придем к единственному направлению — дискриминантной функции Фишера (см. п. 1.1.2). Однако использование канонических направлений эффективно только тогда, когда соответствующая структура может быть описана смесью вида (19.2), (19.2) с равными матрицами внутрикомпонентного рассеивания и, что, пожалуй, самое главное, расстояния Махаланобиса между классами должны быть достаточно велики. Кроме того, оценка матрицы ковариаций W и средних чувствительны к наличию аномальных наблюдений.
Предлагаемые в п. 19.4.1, 19.4.2 подходы позволяют иногда построить направления проецирования, которые дают картину взаимного расположения объектов из разных классов в ситуациях, отличающихся от модели (19.2), (19.2).
19.4.1. Проекционные индексы для линейных классификаторов.
Пусть
-мерная выборка X разбита на две подвыборки
. В рамках классической модели ДА (построение линейного классификатора) наиболее интересной одномерной проекцией этой выборки является решение задачи ЦП для ПИ:
(19.16)
где
-средний вектор выборки
— среднеквадратическое отклонение проекции выборки
. В качестве робастного варианта такого ПИ рассматривается
Здесь
— медиана,
— медиана абсолютных отклонений, например,
— медиана последовательности
где
пробегают выборку
. В [246] П. Хьюбер особо рекомендует следующую модификацию ПИ:
В тех случаях, когда нет оснований для классической модели ДА даже в робастном варианте, желательно использовать проекционные индексы, опирающиеся на более детальную информацию о распределении разностного вектора
.
Рассмотрим проекционный индекс
, где X - задаваемый, априорный порог разрешимости и
Он относится к тем ПИ, для которых критерий выразительности непосредственно заложен в их построение.
Пусть
— плотность распределения случайного
-мерного вектора
— индуцированная плотность распределения проекции
. Тогда проекция разностного вектора
имеет плотность распределения
и поэтому можно записать
где
— плотность равномерного распределения на отрезке
. Таким образом, в теоретическом случае при малых X ПИ
близок к ПИ:
Сравним выборочные варианты этих ПИ. Пусть, как и выше, заданы две обучающие выборки
Тогда в качестве
— выборочного варианта ПИ
— возьмем
где
— частота,
построим следующим образом:
выберем оценку плотности
в виде
, где
Тогда
(19.19)
Здесь
Заметим, что
, поэтому
(19.19)
Сравнивая формулы (19.19) и (19.19), приходим к следующему результату:
(19.20)
Докажем формулу (19.20). Для любых
непосредственное вычисление показывает, что
Разделив (19.21) на и просуммировав по
получаем формулу (19.20).
В многоклассовой задаче, когда
, где
-мерная обучающая выборка объема
; обозначим через
массив разностных векторов
Положим
(19.22)
Ясно, что
где
. Таким образом, ПИ (19.24) является скаляризацией матрицы критериев
. На основе скаляризации этой матрицы строятся и другие ПИ, например,
(19.25)
где
— матрица штрафов за ошибки неправильной классификации.
Обозначим через
набор
, где
. Тогда (19.28) можно переписать в виде
где
размах набора
представителей выборок
. Всего таких наборов, очевидно,
.
Имеем
Следовательно, ПИ
связан с ПИ
соотношением
(19.30)
Проекционные индексы (19.19), (19.19), (19.24) хорошо зарекомендовали себя при решении задач технической и медицинской диагностики (распознавании образов) и используются с начала 70-х годов [38, 39, 70, 104].
Для поиска «выразительной» проекции
доставляющей минимум этим ПИ, в [104] был применен пошаговый алгоритм условной оптимизации, в котором после того, как найдены векторы
следующий вектор
ищут как решение задачи:
где
— символ ортогональности, Z — разностный вектор, а условие
означает, что в построении очередного вектора
участвуют только те разностные векторы Z, длина проекции которых на подпространство с базисом
меньшей.
Когда объемы
выборок
велики, алгоритм применяется к выборкам их типичных представителей, полученным предварительно, например, при помощи процедур автоматической классификации. В этом случае часто удается получить результат при помощи ПИ:
(19.31)
где Z пробегает разностные векторы типичных представителей.
Алгоритмы поиска выразительных проекций, реализующие методы безусловной оптимизации сразу на всем многообразии всех ортогональных проекций из
разработаны в [37—39]. В [38] дано детальное описание алгоритма минимизации ПИ (19.31), основанного на методе градиентного спуска в задаче векторной оптимизации.
19.4.2. Проекционные индексы и направления в задаче классификации нормальных распределений с неравными ковариационными матрицами.
Здесь рассматривается случай
классов. В этом случае, если матрицы ковариаций классов равны, существует единственное направление проецирования (размерность
для ДП
равна 1). И это направление есть дискриминантный вектор Фишера (см. гл.1). В принятых здесь обозначениях
(19.32)
В случае, когда матрицы внутриклассового рассеивания не равны
направление (19.32) можно получить, используя матрицу
Однако в этой ситуации возможно построить и другие направления проецирования. Более того, можно получить направления проецирования и для случая, когда
(центры групп совпадают).
Один из способов получения вектора
предложен в [301]. В качестве
используется вектор, получаемый из условия максимума ПИ
(19.33)
при дополнительном условии ортогональности
, т. е.
В результате получается следующее выражение для
Недостаток этого подхода состоит в том, что вектор
определен и тогда, когда
хотя для нормальных распределений в этом случае имеется только одно направление проецирования — вектор Фишера.
Еще один подход, отличный от предлагаемого далее для построения векторов
дополнительных к вектору Фишера, дан в работе [101].
Рассмотрим процедуру построения проекционных векторов для ПИ, зависящих от моментов первого и второго порядка для первого и второго классов (так как нормальные распределения отличаются только по этим характеристикам). Ограничимся построением только одного вектора
. Более полное изложение дано в [67].
Меру расстояния для одномерных распределений, соответствующих проекциям компонент
на вектор V и зависящую от первых двух моментов, можно записать в виде
, где
.
В качестве
можно выбрать расстояние Махаланобиса, дивергенцию Кульбака [91], расстояние Бхаттачария и др. (см. гл. 1). Для того чтобы построить ПИ, введем понятие условного расстояния и среднего условного расстояния.
Условное расстояние между проекциями компонент (классов) на вектор V, когда проекция точки X на некоторый другой вектор U равна
определяется как расстояние между соответствующими условными нормальными распределениями с параметрами
Заметим, что дисперсии
не зависят от конкретного значения z, а зависят только от направления U [67], т. е. можно записать:
. В то же время величина
есть линейная функция
Дадим теперь определение среднего условного расстояния между проекциями компонент на вектор V:
где
— плотность нормального распределения с параметрами
Величина
и является проекционным индексом.
Пусть в качестве вектора
выбираем вектор Фишера (19.32) (это только один из возможных вариантов).