ВЫВОДЫ
1. В исследовательской и практической статистической деятельности часто приходится иметь дело с исходными данными высокой размерности, т. е. с ситуациями, когда число регистрируемых на каждом из статистически обследованных объектов показателей составляет несколько десятков, а иногда — сотни и даже тысячи. В подобных ситуациях легко объяснимо желание исследователя существенно снизить размерность анализируемого признакового пространства, т. е. перейти от исходного набора показателей к небольшому числу вспомогательных переменных (которые либо отбираются из числа исходных, либо строятся по определенному правилу по совокупности исходных показателей), по которым впоследствии он мог бы достаточно точно воспроизвести интересующие его свойства анализируемого массива данных. Одним из наиболее распространенных методов снижения размерности исследуемого признакового пространства является метод главных компонент.
2. Имеется по меньшей мере три основных типа принципиальных предпосылок, обусловливающих возможность практически «безболезненного» перехода от большого числа исходных показателей состояния (поведения, качества, эффективности функционирования) анализируемого объекта к существенно меньшему числу наиболее информативных переменных.
Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными показателями-, во-вторых, неинформативность показателей, мало меняющихся при переходе от одного объекта к другому (малая вариабельность показателя), в-третьих, возможность агрегирования, т. е. простого или взвешенного суммирования некоторых физически однотипных показателей.
3. Первой главной компонентой
исследуемой системы показателей
называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций переменных
обладает наибольшей дисперсией. И далее:
главной компонентой
исследуемой системы показателей X называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с
предыдущими главными компонентами и среди всех прочих нормированно-центрированных и не коррелированных с предыдущими
главными компонентами линейных комбинаций переменных
обладает наибольшей дисперсией.
4. В оптимизационной постановке задачи снижения размерности решение, получаемое с помощью метода главных компонент, максимизирует критерий информативности, определяемый суммарной дисперсией заданного (небольшого) числа искомых вспомогательных переменных (при соответствующих условиях их нормировки). Для вычисления
главной компоненты
следует найти собственный вектор
ковариационной матрицы
исходного набора показателей
, т. е. решить систему уравнений
)
, где
по величине корень (при их расположении в порядке убывания) характеристического уравнения
Компоненты
собственного вектора
являются искомыми весовыми коэффициентами, с помощью которых осуществляется переход от исходных показателей
к главной компоненте
, т. е.
5. Основные числовые характеристики вектора
главных компонент могут быть выражены через основные числовые характеристики исходных показателей и собственные числа их ковариационной матрицы
.
В частности,
6. Вектор
первых главных компонент
обладает рядом экстремальных свойств, среди которых отметим следующие.
а) свойство наименьшей ошибки автопрогноза или наилучшей самовоспроизводимости: с помощью
первых главных
компонент
исходных показателей
достигается наилучший (в определенном смысле) прогноз этих показателей среди всех прогнозов, которые можно построить с помощью
линейных комбинаций набоь
из
произвольных признаков, б) свойство наименьшего искажения некоторых геометрических характеристик совокупности исходных многомерных наблюдений
при их проецировании в пространство меньшей размерности, натянутое на
первых главных компонент
7. Главные компоненты, построенные не по истинной ковариационной матрице 2 вектора исходных показателей
а по ее выборочному аналогу (оценке) S, называются выборочными главными компонентами и в определенных (достаточно широких) условиях обладают (вместе с собственными числами и векторами матрицы 2) всеми традиционными свойствами «хороших» оценок: состоятельностью, асимптотической эффективностью, асимптотической нормальностью (в условиях растущей размерности, т. е. в «асимптотике А. Н. Колмогорова», анализируемые выборочные характеристики могут вести себя некоторым специальным образом).
8 Геометрически определение первой главной компоненты равносильно построению новой координатной оси
таким образом, чтобы она шла в направлении наибольшего разброса исходных данных, т. е. — в направлении вытянутости анализируемого «облака» многомерных наблюдений. Затем среди направлений, перпендикулярных к
отыскивается направление «наибольшей вытянутости»
и т. д.
Очевидно, если характер вытянутости анализируемого «облака» данных в исходном признаковом пространстве суще ственно отличен от линейного, то линейная модель главных компонент может оказаться неэффективной. В подобных ситуациях исследователь должен обратиться к нелинейным версиям метода главных компонент (см., например, § 13.6). 9. Главные компоненты используются при решении следующих основных типов задач анализа данных:
1) упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации с целью облегчения счета и интерпретации получаемых статистических выводов;
2) наглядное представление (визуализация) исходных многомерных данных, получаемое с помощью их проецирования в пространство, натянутое на первую, первые две или первые три главные компоненты,
3) предварительная ортогонализация объясняющих переменных в задачах построения регрессионных зависимостей как средство «борьбы» с мультиколлинеарностью [12, гл. 8];
4) сжатие объемов хранимой статистической информации.