17.5. АНАЛИЗ СООТВЕТСТВИЙ
Метод анализа соответствий, как и двойственный график, — версия общей мультипликативной модели, обсуждаемой в разделе 17.3. Как специальная модель для анализа таблиц сопряженности с двумя входами она нашла применение и при обработке других типов данных. Метод (во французском варианте: analyse factorielle des correspondences) широко используется группой французских статистиков под руководством профессора Ж. Бензекри (J. P. Benzecri). Совсем недавно С. Нишисато [см. Nishisato (1980)] ввел термин дуальное шкалирование для целой области анализа данных; кроме того, он сделал замечательный
исторический обзор, отражающий развитие интереса к этому направлению. Стартовая точка — таблица X с двумя входами, которая рассматривается как таблица чисел. Пусть суммарные значения по строкам и столбцам матрицы X «упакованы» в диагонали матриц При применении метода анализа соответствий оперируют с матрицей которая является специальной стандартизованной формой матрицы X, вычисленной по формуле
(В этом выражении — диагональная матрица с диагональным элементом диагональный элемент матрицы Имеем Аналогично Следовательно, — пара сингулярных векторов (если они нормализованы должным образом), соответствующих единичному сингулярному значению. Тогда разложение матрицы по сингулярным значениям может быть записано в виде
где — нормализующий множитель, который определяется из условия, что сумма квадратов элементов обеих матриц равна сумме элементов матрицы X. Когда X — неотрицательная матрица, единичное сингулярное значение является максимальным. Это следует из того, что сингулярные значения матрицы являются квадратными корнями из собственных значений матрицы которая сама неотрицательна. Как было показано, единичное сингулярное значение соответствует положительному вектору, из теоремы Фробениуса—Перрона [см. I, теорема 7.11.1] следует, что оно должно быть максимальным. Если матрица X не является положительной, то суммы по строкам и столбцам могут не быть положительными и не обязательно существуют действительные матрицы Даже если суммы по строкам и столбцам положительны, не обязательно положительна, и, следовательно, максимальное сингулярное значение матрицы не обязательно единичное. Преобразовав определенное выше разложение матрицы по сингулярным значениям, получим Отсюда видно, что правая часть равенства есть разложение матрицы в левой части по сингулярным значениям. Ее элементы:
Последнее выражение представляет собой квадратный корень из элемента критерия Пирсона Для проверки независимости классификаций строк и столбцов таблицы сопряженностей X [см. раздел 7.5.1].
Отсюда следует, что задает декомпозицию статистики с соответствующими модельными членами Проще рассматривать этот метод как способ подгонки простых мультипликативных моделей (включая двойственные графики) к производной матрице что в большой мере зависит от того, является ли преобразование X в адекватным и интерпретируемым.
Переход к матрице полезен в экологических исследованиях. Здесь строки матрицы X соответствуют разным участкам, а столбцы — разным видам растений. Тогда задает количество видов у, произрастающих на участке Часто интерес представляют численности для участков и в меньшей мере численности для видов. При этом участки могут быть упорядочены (и, следовательно, построена ординация) в соответствии с предположениями об экологических тенденциях. Поскольку одни участки богаче по видам растений, чем другие, и одни виды произрастают в гораздо большем количестве, чем другие, необходима специальная корректировка. Запишем неизвестные численности, относящиеся к участкам (строки матрицы), в вектор а неизвестные численности, относящиеся к видам (столбцы), — в вектор Тогда средняя численность для участка, рассчитанная по численности для видов, равна Она должна быть пропорциональна численности для участка. В матричном виде это записывается как
Аналогично из численностей по участкам вычисляются численности по видам:
Из этих соотношений следует, что — сингулярные векторы матрицы соответствующие сингулярному значению а. Максимальное значение определенное выше, соответствует векторам
которые содержат одинаковые численности и поэтому не представляют интереса.
Численности, вычисленные по второй паре сингулярных векторов матрицы находятся из уравнений
Отсюда Могут быть использованы последующие пары сингулярных векторов; они будут определять второй набор численностей, третий и т. д. Вторая и - третья пары отмасштабированных сингулярных векторов могут быть представлены одновременно в виде, напоминающем двойственный график, а иногда интересно представить визуально сами численности. Таким образом, как и в «биплот-ной» технике, здесь мы имеем «свободное от распределения» сингулярное значение по при любом способе действий, однако метод анализа соответствий обеспечивает, кроме того, возможность выбора графического представления Обычно используется комбинация двух видов шкалирования, состоящая в наглядном представлении Расстояния (или их квадраты) между парами точек, соответствующих строкам, вычисляются
(Мы опустили члены, не влияющие на расстояние.) Квадрат расстояния между строками (в пространстве полной размерности) определяется выражением
которое называется расстоянием Если строки пропорциональны, соответствующие им точки совпадают. Аналогичное выражение определяет расстояния между точками-столбцами. При таком подходе процедура представления данных в пространстве более низкой размерности не является приближением в смысле наименьших квадратов.
Совершенно ясно, что существует множество сингулярных значений и множество способов шкалирования строк и столбцов. В практических ситуациях зачастую трудно сделать выбор между ними.