Раздел IV. РАЗВЕДОЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И НАГЛЯДНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ
В настоящем разделе рассматривается совокупность моделей и методов, позволяющих анализировать многомерные данные с помощью их отображения в пространство низкой размерности с сохранением существенных для исследователя их структурных особенностей.
В некоторых случаях структура данных оказывается такой сложной, что небольшого числа таких проекций будет недостаточно для их представления и возникает потребность описания этой структуры на основе агрегирования информации, содержащейся в достаточно большом числе таких низко размерных проекций. Типичной задачей такого класса является задача восстановления плотности многомерной случайной величины.
Такая ситуация имеет место при некоторых конфигурациях расположения классов в задаче дискриминантного анализа, когда число классов превышает размерность выборки, и т. п.
Рассматриваемые модели и методы, естественно, делятся на два класса, в зависимости от размерности q пространства, куда отображаются данные. Если q=1, (в крайнем случае 3), то они в первую очередь относятся к собственно разведочному анализу (РА), когда по некоторому критерию при помощи вычислительной процедуры оптимизации ищут отображения, дающие наиболее выразительные проекции, а окончательное решение принимается визуально путем анализа, например на экране дисплея, гистограмм отображенных данных q = 1 или их диаграмм рассеивания для q = 2. Здесь наибольший успех можно ожидать в задачах разделения смесей, кластеризации, т. е. когда ищется явно выраженная структура. Успеха можно достичь и в задачах обнаружения неинформативных признаков.
К этому же классу относятся модели и методы решения тех задач, когда исходным статистическим материалом является не описание объектов в виде вектор-признаков, а описание в виде наборов линейных функций от этих вектор-признаков.
Типичной задачей этого вида являются задачи статистического анализа по результатам косвенных измерений. Если
, то соответствующие методы можно рассматривать как один из подходов к снижению размерностей, например для целей кластер-анализа.
В этом разделе в основном рассматриваются методы, связанные с линейным проецированием данных. Совокупность таких методов в последнее время получила большое развитие и известна в статистической литературе как «projection pursuit» (РР). Ряд других методов, которые можно отнести к РАД, рассмотрен в предыдущих главах. Это метод главных компонент, кластер-анализ, методы многомерного шкалирования, а в случае неколичественных переменных — анализ соответствий.