19.6. Выделение нелинейных структур в многомерных данных
Значительный интерес при анализе многомерных данных вызывает наличие в них нелинейных структур, т. е. концентрации распределения в окрестности некоторого нелинейного многообразия размерности
.
Разумеется, столь же интересно наличие и линейных многообразий, в окрестности которых концентрируется распределение. Однако линейные многообразия достаточно хорошо могут быть выделены с помощью, например, метода главных компонент. Здесь же рассмотрим применение ЦП для выделения нелинейных многообразий.
В качестве ПИ может быть использован любой критерий независимости. Действительно, пусть
— базис пространства отображения, причем векторы
выбраны так, чтобы случайные величины
были линейно независимы (нескоррелированы), т. е.
Для этого необходимо и достаточно, чтобы векторы
были попарно
-ортогональными, поскольку
Тогда наличие какой-либо структуры в пространстве отображения означает, что переменные
должны быть зависимы. При этом, поскольку исключили линейную зависимость между переменными
эта структура не может быть описана с помощью линейных функций от них.
При выборе критериев независимости, подходящих в качестве ПИ, нужно учитывать еще следующие факторы: возможность получения выборочной оценки критерия, простой в вычислительном отношении (ибо именно она будет на практике использоваться в качестве ПИ), и возможность быстрой оценки градиента ПИ.
Предлагаемые ниже ПИ основаны на использовании определения независимости набора случайных величин [11]: случайные величины
распределены независимо тогда и только тогда, когда их совместная функция распределения может быть представлена в виде произведения маргинальных функций распределения
(19.38)
где
маргинальная функция распределения для
Из (19.38) можно получить аналогичные соотношения для плотностей и т. д.
Перейдем теперь к формулировке ПИ.
19.6.1. Интегральное квадратичное расхождение.
Для непрерывных случайных величин в качестве ПИ можно использовать следующую величину:
(19.39)
где
— плотность распределения одномерной проекции
— плотность совместного распределения;
— матрица ковариаций для Z, диагональная в силу выбора
ПИ (19.39) инвариантен относительно преобразований масштаба в пространстве Z и аффинноинвариантен относительно преобразований в пространстве X. Однако относительно вращений в пространстве Z этот ПИ неинвариантен, поскольку при этом могут меняться маргинальные функции плотности
Можно получить некоторую «разумную» аффинноинвариантную относительно преобразований Z разновидность ПИ (19.39), заменив маргинальные плотности
плотностями нормального распределения. При этом, учитывая инвариантность (19.39) относительно линейных преобразований X, можно заранее перейти в пространстве X к махаланобисовой метрике (см. § 5.2). Векторы
будем выбирать ортонормированными. Соответствующий критерий будет иметь вид
(19.40)
где
— плотность стандартного нормального распределения.
Этот критерий направлен на поиск
-мерных проекций, индуцированное распределение для которых наиболее сильно отличается от стандартного
-мерного нормального распределения с независимыми компонентами.
Поскольку, как указывалось в § 19.1, известно, что невыразительные проекции имеют, при широких предположениях, нормальное распределение, критерий (19.40) будет обладать достаточной общностью. Для поиска одномерных проекций такой критерий предлагается в [65].
Нормальное распределение с независимыми компонентами в (19.40) выступает, таким образом, в качестве эталона бесструктурности.
Возможна дальнейшая полезная модификация критерия (19.40) на основе следующего приема. Если случайные величины z распределены по закону
то случайные величины
(19.41)
где
— функция нормального стандартного распределения, распределены равномерно в единичном кубе с вершинами
и т. д. Интеграл (19.40) после преобразования (19.41) переходит (с точностью до множителя, не зависящего от неизвестных векторов
) в
(19.42)
где
— плотность распределения, а область интегрирования — единичный куб.
Здесь в качестве эталона однородности выступает равномерное распределение в единичном кубе.
Элементарное преобразование (19.42) приводит снова к критерию типа среднего значения степени плотности
(19.42)
поскольку проекции, максимизирующие (19.42) и (19.42), совпадают. Критерий, аналогичный (19.42), предложен в [227].
19.6.2. «Наивные» ПИ на основе параметризации вида зависимости.
Хотя сами случайные величины
линейно независимы (т. е.
)
при
, можно попытаться установить наличие зависимости между ними, используя некоторые функции от них и изучая линейную зависимость между этими функциями.
Пусть
Будем искать функции
такие, чтобы коэффициент корреляции между
был бы максимальным. Решение этой задачи дано в § 18.3.
Однако, если ограничиться конкретным классом функций, например полиномов от
можно получить решение задачи максимизации коэффициента корреляции в аналитическом виде, что, конечно, существенно удобнее для реализации вычислительных процедур по максимизации критерия.
В частности, ограничиваясь двумя степенями от
, можно использовать такие ПИ:
(19.43)
где
— соответствующий коэффициент корреляции.
Приведем аналитическое выражение как функцию компонент векторов проецирования, например для
Для упрощения обозначений положим, что
. Кроме того, будем считать, что
(махаланобисова метрика). Тогда
Далее
Коэффициент корреляции
Отсюда получаем
(19.45)
где значение
определяется формулой (19.44). Аналогичные формулы получаются и для остальных коэффициентов корреляции. Это дифференцируемые функции от компонент U и У. Для вычисления производных нужно знать значения смешанных третьих и четвертых моментов компонент вектора X (на практике используются их оценки)