2.7. НОРМАЛЬНАЯ ПЛОТНОСТЬ
Структура байесовского классификатора определяется в основном типом условных плотностей
Из множества исследованных функций плотности наибольшее внимание было уделено многомерной нормальной плотности распределения. Следует признать, что это вызвано в основном удобством ее аналитического вида. Вместе с тем многомерная нормальная плотность распределения дает подходящую модель для одного важного случая, а именно когда значения векторов признаков х для данного класса
представляются непрерывнозначными, слегка искаженными версиями единственного типичного вектора, или вектора-прототипа,
. Именно этого ожидают, когда классификатор выбирается так, чтобы выделять те признаки, которые, будучи различными для образов, принадлежащих различным классам, были бы, возможно, более схожи для образов из одного и того же класса. В данном разделе приводится краткое описание свойств многомерной нормальной плотности распределения, причем особое внимание уделяется тем из них, которые представляют наибольший интерес для задач классификации.
и
Ковариационная матрица
всегда симметрична и положительно полуопределена. Ограничимся рассмотрением случаев, когда
положительно определена, так что ее детерминант строго положителен
. Диагональный элемент
есть дисперсия
а недиагональный элемент
есть ковариация
Если
статистически независимы, то
Если все недиагональные элементы равны нулю, то
сводится к произведению одномерных нормальных плотностей компонент вектора х.
Нетрудно показать, что любая линейная комбинация нормально распределенных случайных величин также распределена нормально. В частности, если А есть матрица размера
есть
-компонентный вектор, то
. В частном случае, если А есть вектор единичной длины а, то величина
является скаляром, представляющим проекцию вектора х на направление а. Таким образом,
есть дисперсия проекции х на а. Вообще знание ковариационной матрицы дает возможность вычислить дисперсию вдоль любого направления.
Многомерная нормальная плотность распределения полностью определяется
параметрами — элементами вектора среднего значения
и независимыми элементами ковариационной матрицы
. Выборки нормально распределенной случайной величины имеют тенденцию попадать в одну область или кластер (рис. 2.7). Центр кластера определяется вектором среднего значения, а форма — ковариационной матрицей. Из соотношения (23) следует, что точки постоянной плотности образуют гиперэллипсоиды, для которых квадратичная форма
постоянна. Главные оси этих гиперэллипсоидов задаются собственными векторами
, причем длины осей определяются собственными значениями. Величину
иногда называют квадратичным махаланобисовым расстоянием от х до
. Линии постоянной плотности, таким образом, представляют собой гиперэллипсоиды постоянного махаланобисова расстояния до
Объем этих гиперэллипсоидов служит мерой разброса выборок относительно среднего значения. Можно показать, что объем гиперэллипсоида, соответствующего махаланобисову расстоянию
, равен
(см. скан)
Рис. 2.7. Представление нормальной плотности а — в виде функции двух переменных, б — на диаграмме разброса.
где
есть объем
-мерной единичной гиперсферы, равный
Таким образом, при заданной размерности разброс выборок изменяется пропорционально величине