Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
ГЛАВНЫЕ КОМПОНЕНТЫ, СОБСТВЕННЫЕ ЗНАЧЕНИЯ И ВЕКТОРАМы начинаем обсуждение именно с анализа главных компонент по двум причинам: во-первых, он послужит в качестве базовой модели, с которой будут сравниваться и сопоставляться методы, где используются общие факторы. Во-вторых, он представляется наиболее простым для введения таких особых понятий, как корни характеристического уравнения (собственные числа) и собственные вектора, и дает возможность выявить их роли в алгоритмах факторного анализа. (Мы не отказывается от стремления применять наиболее простой математический аппарат, но знакомство с подобной терминологией необходимо для использования многих компьютерных программ. Мы настоятельно рекомендуем читателям ознакомиться с основными определениями.) Анализ главных компонент — это метод преобразования данной последовательности наблюдаемых переменных в другую последовательность переменных. Наиболее простой способ пояснить внутреннюю логику метода сводится к его изучению в двумерном случае. Предположим, что есть две переменные X и Y с совместным нормальным распределением.
Рис. 2. Главные оси двумерных распределений Совместное нормальное распределение величин, имеющих положительную корреляцию, представлено на рис. 2 с помощью кривых равных вероятностей. Эти кривые показывают, что благодаря положительной связи между X и Y данные представляют кластер, в котором большие величины X имеют тенденцию соответствовать большим величинам Y (и наоборот). Таким образом, в большинстве случаев точки попадают в первый и третий квадранты, и реже — во второй и четвертый. Кривые равных вероятностей имеют форму эллипсов, две оси которых изображены пунктирными линиями. Главная ось проходит по линии, вдоль которой располагается основная часть данных; вторая ось — по линии, вдоль которой расположена меньшая часть данных. Теперь предположим, что нужно представить точки в терминах только одной размерности (оси). В этом случае естественно выбрать ось потому что в целом она ближе описывает данные наблюдений. Тогда первая главная компонента есть не что иное, как представление точек, расположенных вдоль выбранной главной оси. Например, точка с единичными значениями X и Y будет иметь координату, большую 1 по оси и меньшую 1 по оси Если мы описываем каждую точку в терминах (в новой системе координат), потери информации не произойдет. Тем не менее можем сказать, что первая ось (и первая компонента) является более информативной в описании точек, так как связь между X и У становится сильнее. В том случае, когда X и У связаны линейной зависимостью, первая главная компонента будет содержать всю информацию, необходимую для описания каждой точки. Если X и У независимы, то главная ось отсутствует и анализ главных компонент не способствует даже минимальному сокращению (сжатию) результатов наблюдений. Понятие главных осей относится не только к нормальным распределениям. В общем случае главная ось задается линией, для которой сумма квадратов расстояний до всевозможных точек минимальна. Сравнение анализа главных компонент с принципом наименьших квадратов поможет объяснить это определение. При нахождении линии регрессии методом наименьших квадратов мы минимизируем сумму квадратов расстояний между и , т. е. минимизируем где расстояние измеряется по линии, параллельной оси Y и перпендикулярной оси X. При нахождении главной оси мы минимизируем расстояние от точки до оси (т. е. расстояние по перпендикуляру к главной оси, а не к оси X). Это отличие показано на рис. 3. (В [Malinvand, 1970] описан метод наименьших квадратов с помощью ортогональной регрессии.)
Рис. 3. Сравнение регрессий, полученных с помощью методов наименьших квадратов и главных осей Поскольку первая компонента определена таким образом, что основная доля информации содержится именно в ней (дисперсия в направлении этой компоненты максимальна), вторая компонента определяется аналогичным образом при условии, что ее ось перпендикулярна первой. Следовательно, в двумерном случае после фиксирования первой компоненты вторая становится известна автоматически. Если У не является линейной функцией от X, то главных компонент будет две (для полного описания совместного распределения необходимы две оси). При определении главных компонент не обязательно предполагать существование гипотетических факторов. Новые оси являются математическими (линейными) функциями наблюдаемых переменных. Даже если с помощью анализа главных компонент достигается сжатие данных (выделение только нескольких первых компонент), задача состоит не в объяснении корреляции между переменными, а в объяснении максимальной доли дисперсии наблюдений. С другой стороны, для рассматриваемого двумерного случая в факторном анализе потребуется лишь один фактор, и главной задачей будет объяснение корреляций между переменными. Итак, первая задача относится к объяснению дисперсий, а вторая — к объяснению корреляций. При наличии более двух переменных принцип определения главных компонент тот же. Например, для трехмерного нормального распределения поверхность равной вероятности будет ограничивать овальное тело (эллипсоид), где первая главная ось — его наибольший диаметр, вторая — пройдет по наибольшему диаметру в плоскости, перпендикулярной первой оси; третья ось будет самой короткой, перпендикулярной двум первым осям. Основной математический метод получения направлений главных осей основан на нахождении собственных чисел и векторов корреляционной (ковариационной) матрицы. Для определения собственных чисел и векторов уравнение с использованием матричной записи имеет следующую форму:
где R — матрица, для которой ищется решение; -искомый собственный вектор, а K — собственное число. Решение базируется на более простой форме в виде детерминанта матрицы:
что дает для квадратной матрицы уравнение
которое по определению детерминанта может быть представлено в виде
Раскрывая скобки и группируя члены, получаем:
Собственные числа теперь могут быть получены при решении квадратного уравнения. Для двумерной корреляционной матрицы собственные числа имеют вид
Если между двумя переменными имеется линейная зависимость, то одно собственное число будет 2, а другое — 0. Для некоррелированных переменных оба собственных числа будут равны 1. Заметим также, что сумма собственных чисел равна числу переменных, а произведение равна детерминанту корреляционной матрицы. Эти свойства сохраняются для корреляционных матриц любой размерности, причем первое (большее) собственное число представляет величину дисперсии, соответствующую первой главной оси, а второе собственное число — величину дисперсии, соответствующую второй главной оси и так далее. Так как при использовании корреляционной матрицы сумма собственных чисел равна числу переменных, то, разделив первое собственное число на (число переменных), можем получить долю дисперсии, соответствующую данному направлению или компоненте:
Таблица 2. Две первые главные компоненты корреляционной матрицы, представленной поддиагоиальными элементами табл. 1
При определении соответствующих собственных векторов есть дополнительное ограничение, состоящее в том, что их длина должна быть единичной. По этой причине коэффициенты нагрузок для главных компонент получаются делением коэффициентов собственных векторов на квадратный корень соответствующих собственных чисел, что правильно отражает относительную долю дисперсии наблюдений. Для дальнейшего сравнения анализа главных компонент с другими методами произведем вычисления для корреляционной матрицы, представленной в табл. 1. Мы используем модельные данные с целью выявления характеристик без статистических флуктуаций. В табл. 2 сведены результаты анализа главных компонент. Следует выделить три момента: 1) имеется шесть компонент (последние четыре являются второстепенными и в таблице не представлены); 2) первые две компоненты объясняют большую долю дисперсии, чем первые два общих фактора (61,6 и 41% соответственно); 3) первые две компоненты в отличие от первых двух факторов не объясняют наблюдаемые корреляции. Например, , что значительно больше, чем скрытая корреляция, равная 0,56. Сходство анализа главных компонент и факторного анализа заключается в том, что в обоих методах происходит сокращение данных. Зная величину собственных чисел, исследовательможет принять, например, решение использовать только две первые компоненты. Но снова отметим, что эти компоненты не объясняют корреляции. Существует еще одно сходство двух методов — они применяются при исследовании взаимной зависимости переменных. Заметим, что в случае некоррелированных переменных главных компонент не существует, так как все они равноправны: каждой соответствует одинаковая доля дисперсии. Если же корреляция между переменными увеличивается, то доля, объясняемая несколькими первыми компонентами, возрастает. Одним из отличий между двумя рассматриваемыми методами является следующее. Факторный анализ представляет ковариационную структуру в терминах гипотетической модели, в то время как анализ главных компонент сокращает данные посредством использования нескольких линейных комбинаций наблюдаемых переменных. Выбор метода определяется целью исследования. Объяснение корреляций в терминах небольшого числа факторов возможно лишь при введении гипотетической модели. Если же иметь дело с линейными комбинациями переменных, то обращаться к какой-либо модели нет необходимости, при этом латентная факторная структура остается «вещью в себе». Таким образом, анализ главных компонент ориентирован на несколько другие задачи по сравнению с факторным. Тем не менее стоит повторить, почему мы уделили ему особое внимание. Во-первых, анализ главных компонент часто рассматривается как один из методов факторного анализа. Во-вторых, при описании метода главных факторов используются аналогичные понятия и вычислительные процедуры (нахождение собственных значений и векторов). Более того, знание анализа главных компонент помогает понять методы факторного анализа. В-третьих, и это самое важное, некоторая статистика, встречающаяся в анализе главных компонент, очень часто применяется на практике для определения числа факторов. (Речь идет о критерии «собственных чисел, больших единицы», на котором мы остановимся ниже.)
|
1 |
Оглавление
|