10.5. Визуализация многомерных данных
10.5.1. Постановка задачи.
Как указывается в § 1.1, собранные в исследовании данные часто можно рассматривать в качестве набора векторов (точек) в соответствующем многомерном пространстве. В случае когда математическая модель изучаемой ситуации известна, можно с той или иной степенью точности заранее представить себе, как точки — наблюдения будут расположены в этом пространстве. Однако более типичной является ситуация, когда исследование геометрии расположения точек предшествует формированию гипотез и построению моделей.
Математические методы, используемые, при изучении расположения точек, опираются на понятие расстояния между ними. Различные примеры расстояний можно найти в [8]. Общими для всех методов визуализации данных являются два интуитивно принимаемых предположения:
1) «реальная размерность изучаемой ситуации» значительно ниже размерности выборочного пространства и
2) правильное представление о многомерном расположении точек может быть получено при довольно широком наборе расстояний. Определенного пояснения требуют взятые в кавычки слова «реальная размерность ситуации». Мы не будем давать им точного определения, но постараемся выявить их смысл на примере.
Пример 10.3. Для выявления различия между двумя группами объектов в -мерном выборочном пространстве и выработки правила отнесения нового наблюдения к одной из рассматриваемых групп часто используется линейный дискриминантный анализ Фишера [8, 12, 129, 140]. В этом случае предполагается, что -мерные распределения объектов в каждой из групп являются выборками из двух р-мерных нормальных распределений с общей ковариационной матрицей, но с разными векторами средних. Тем самым все многообразие распределения исходных данных сводится к двум точкам в пространстве наблюдений — средним соответствующих групп и одной ковариационной матрице, т. е., по существу, к одномерной задаче. Это обстоятельство значительно упрощает дальнейшую работу с данными и позволяет легко оценить вероятность принадлежности нового наблюдения к одной из групп.
Методы визуализации данных основаны на переходе от большого числа исходных признаков к новой системе признаков, являющихся функциями от исходных. Желательно, чтобы небольшое число q (для целей визуализации q может быть равно либо 1, либо 2, либо 3) новых признаков сохраняло наиболее существенные черты структуры изучаемой матрицы данных, например наличие «сгустков» (кластеров) объектов, «цепочек», объектов, далеко отстоящих от основной совокупности, и других образований.
В общем виде задача перехода (с наименьшими потерями информации) от набора исходных признаков к новому набору описана в § 1.2 как экстремальная задача, в которой подбор новых показателей подчинен максимизации некоторой экзогенно заданной меры информативности
Конкретный выбор функционала зависит от целей визуализации и имеющейся дополнительно априорной информации о структуре изучаемой совокупности объектов. Если такая информация отсутствует, то используются критерии информативности, нацеленные на максимальное сохранение информации, содержащейся в исходной матрице данных — так называемые критерии автоинформативности. На применении критериев такого типа основаны рассматриваемые далее метод главных компонент и его нелинейные обобщения. В качестве априорной информации наиболее часто выступает информация о неоднородности совокупности объектов, т. е. о принадлежности объектов к различным группам, например к группе больных или здоровых лиц, что приводит к критериям дискриминантного анализа, нацеленным на сохранение этой информации.
Как указано в § 1.1, исходные данные могут быть заданы не только в виде матрицы данных, но и в виде матрицы близости (расстояний) между объектами. Задача визуализации данных в этом случае тесно связана с методами так называемого многомерного метрического шкалирования [37], при котором стремятся построить некоторую матрицу данных (конфигурацию точек) возможно меньшей размерности, «объясняющую» имеющуюся матрицу расстояний.
Ниже рассматриваются два метода визуализации многомерных данных:
1) метод главных компонент, сводящийся к построению проекций точек на двумерные плоскости, натянутые на первые собственные векторы их общей ковариационной матрицы;
2) представление матрицы близости между объектами (см. § 1.1) системой точек в пространстве малой размерности.