17.12. ШКАЛИРОВАНИЕ МАТРИЦ С ТРЕМЯ ВХОДАМИ
Пусть данные представлены в виде
матриц расстояний
каждая порядка
Обозначим через
расстояние между
объектами в
матрице. Мы ввели в рассмотрение третий индекс. Методы многомерного шкалирования для таких данных называют трехиндексным шкалированием или шкалированием матриц с тремя входами. Предполагается, что строки и столбцы всех матриц соотносятся с одними и теми же объектами, и цель обсуждаемых в данном разделе методов состоит в том, чтобы оценить, в какой мере разные матрицы согласуются друг с другом. Обычно индекс к соотносится с индивидами или разными методами анализа.
Как и в предыдущих разделах, мы располагаем двумя возможностями: использовать матрицы или координаты
, порождаемые ординацией матриц
. В дальнейшем мы рассмотрим оба подхода. Из контекста будет ясно, какой из них доминирует.
Очевидный подход состоит в применении одного из методов, рассмотренных в разделе 17.11 для сравнения
пар матриц, формирующих матрицу М порядка
. Ее элементы являются остаточными суммами квадратов выбранного критерия
При минимизации большинства критериев М не будет симметричной, но будет содержать нулевые элементы на диагонали. Если воспользоваться ортогональной прокрустовой статистикой, то М будет симметричной и, как уже говорилось, ее элементы будут удовлетворять метрическим аксиомам. Сформировав матрицу М, можно анализировать ее методами, описанными в предыдущих разделах, и построить ординацию, в которой близкие точки соответствуют парам матриц, содержащих близкие по значению элементы.
Такой подход иногда используется, но более популярны методы, которые дают своего рода среднюю конфигурацию и позволяют оценить, насколько матрица
(или Х) отличается от средней.
Один путь состоит в обобщении ортогонального прокрустова подхода и поиске множества ортогональных вращений, приводящих
к некоторому оптимальному согласию. Обозначим
точки в
конфигурациях, полученных после вращения, через
, а центры тяжести этих точек — через
Тогда оптимальным будет отображение, минимизирующее суммы квадратов расстояний
точек
множества от их центра тяжести по всем
значениям индекса к. Геометрическая интерпретация для трех множеств из четырех точек приведена на рис. 17.12.1. Обозначим через
множество координат для
центров тяжести, тогда
Критерий обеспечивает выбор
таких, что
минимальна. Это эквивалентно минимизации
Рис. 17.12.1. Обобщенный прокрустов анализ. Три множества из четырех точек с координатами
имеют общий центр тяжести О.
— центр тяжести конфигурации точек
Оптимальное соответствие (на рис. не указано) определяется направлениями, минимизирующими сумму квадратов остатков 2 (отмечены на диаграмме)
просуммированного по всем парам
. Если бы
была известна, то достаточно просто повернуть каждую
до положения, в котором она оптимально соответствует
в точности, как это сделано в разделе 17.10. Но сама
зависит от неизвестной
, поэтому мы вынуждены прибегнуть к итеративной процедуре, начав с исходной центроидной конфигурации
а затем повернуть каждую Х, чтобы она соответствовала
подобрав для этого ортогональные матрицы
которые в свою очередь порождают новый центр тяжести. Детальное описание этого процесса содержится в [см. Gower (1975)]. Автор называет такого рода анализ обобщенным прокрустовым анализом и приводит пример. Параллельный перенос каждого множества легко осуществляется помещением центра тяжести каждой конфигурации X., а следовательно, и
в начало координат. Для каждого множества может быть также введен масштабирующий множитель
Тогда мы должны минимизировать
где
Можно исключить тривиальное решение
наложив ограничение
которое сохранит неизменным общий размер конфигураций после шкалирования. Оценивание матрицы производится так же, как и прежде, за исключением того, что X. всюду заменяется на
Масштабирующий множитель вычисляется по формуле
которая может быть использована для пересчета итеративных оценок. В своем альтернативном подходе
Берж [см. ten Berge (1977)] показал, что на каждом шаге итерации вектор
всех масштабирующих множителей может быть записан в качестве собственного вектора некоторой матрицы. Теоретически его метод дает существенное улучшение решения на итерациях за счет увеличения объема вычислений.
При обсуждении обобщенного прокрустова анализа утверждалось, что может быть повернута вся конфигурация целиком (т. е.
) и расстояния между точками в ней останутся неизменными. Единственное подходящее представление получается при соотнесении
с ее главными осями и соответствующими уточнениями всех
после вращения.
Проведем сравнение двух конфигураций (положим
Поскольку
должны соответствовать своей совмещенной центроидной конфигурации, не допустимо асимметричное соотношение и введенное в разделе 17.10 для ортогонального прокрустова анализа с масштабирующим множителем. Дж. Говер [см. Gower (1975)] показал, что если X и
предварительно стандартизируются имеют одинаковую (скажем, единичную) сумму квадратов, а затем
приводятся к общему центру тяжести, б) X шкалируется так, чтобы соответствовать
шкалируется так, чтобы соответствовать
то в конце концов мы получаем одно и то же значение
. В результате такой стандартизации
Все это выливается в настоятельную рекомендацию предварительно стандартизовать данные, что особенно существенно, когда X, и
измерены на несоизмеримых шкалах и масштабирующий множитель
не имеет никакого смысла.
Обобщенные прокрустовы идеи могут быть в принципе сформулированы в терминах других критериев из раздела 17.10. Можно, сохранив ортогональные вращения и центроидную конфигурацию
вместо того, чтобы работать в терминах квадратов расстояний между соответствующими точками, использовать любой критерий подобия или же следующую процедуру. Среднее значение
по всем
конфигурациям равно
Обозначим через
у расстояния в конфигурации
Тогда можно минимизировать
где Р — индекс выбранного критерия. Алгоритм должен обеспечить итеративный подбор Н, чтобы получить центроидную конфигурацию
приводящую к минимуму
Подводные камни такого подхода еще не исследованы. Обобщенная прокрустова процедура реализована в программе
[см., например, Borg (1977)]. Кроме того, программа содержит другие процедуры и включает возможности построения моделей индивидуального шкалирования такого типа, который обсуждался выше.
Наиболее широко распространенный класс моделей шкалирования матриц с тремя входами описан в [Carroll and Chang (1970)]. Она называется шкалированием индивидуальных различий или INDSCAL — по названию соответствующей вычислительной программы. В этой модели аппроксимируемые величины записываются в виде
где
строка матрицы X размерности
— диагональная матрица положительных весов. Матрица X берется как средняя конфигурация для всех
матриц
и ее значения могут быть представлены в обычном для ординации виде. X часто называют средней групповой конфигурацией. Величины
диагональный элемент матрицы
интерпретируются как веса
индивида для
координатной оси конфигурации X. Координаты
могут быть изображены для каждого из
индивидов. Для распространенного случая, когда
точки, лежащие на линии, составляющей 45° с осями координат, представляют индивидов, приписывающих одинаковые веса обеим осям средней групповой конфигурации. Точки, лежащие по одну или другую сторону от этой линии, указывают на предпочтение одной из двух осей.
Реализация моделей индивидуального шкалирования порождает такое же количество критериев, как и в обычном многомерном шкалировании. Здесь разрабатываются оба подхода: метрический и неметрический. Оригинальный метод Дж. Керрола и Дж. Чанг [см. Carroll and Chang (1970)] основан на идее классического метрического шкалирования о разложении дважды центрированной матрицы
[см. раздел 17.6] в виде скалярного произведения
Таким же образом для дважды центрированной формы от
Теперь мы предполагаем, что элементами являются
или же они могут быть приведены к такому виду. Керрол и Чанг [см. Carroll and Chang (1971)] методом наименьших квадратов отыскивают решение, соответствующее минимуму
Такой критерий носит название
Заметим, что подобное применение центрированной матрицы
не допускает возможности пропущенных данных. Проблема, по существу, та же, что была рассмотрена Р. Харшманом [см. Harshman (1972)] в модели PARAFAC. Керрол и Чанг решают более общую задачу минимизации
по параметрам
. Это может рассматриваться как обобщение на трехмерный случай задачи наилучшей аппроксимации заданной матрицы матрицей ранга
решенной теоремой Экарта—Юнга. Керрол и Чанг разработали алгоритмическую процедуру CANDECOMP для обычного итеративного режима. Вводятся начальные оценки для
значения отыскиваются по обычной формуле для множественной регрессии. Затем
фиксируются и отыскиваются оценки для
На следующем шаге фиксируют
и получают оценки для
Вся процедура повторяется столько раз, сколько это необходимо. На каждом шаге остаточная сумма квадратов уменьшается. Процедура CANDECOMP может применяться для минимизации критерия индивидуального шкалирования, если положить
Это накладывает очевидные ограничения на общую модель, но не порождает дополнительных трудностей. Не гарантируется, что глобальный оптимум достижим, хотя есть основания полагать, что обычно он достигается. Важное свойство индивидуального шкалирования в таком виде состоит в том, что средняя групповая конфигурация единственна. При повороте ее осей расстояния остаются неизменными, но весовые коэффициенты теряют свой смысл. Свойство единственности обычно подчеркивается в качестве преимущества метода.
Система ALSCAL [см. Tkane, Young, de Leeuw (1977)] реализует модель индивидуального шкалирования с использованием другого критерия качества соответствия, а следовательно, и вычислительного алгоритма, отличного от того, который применяется в INDSCAL. Минимизируемый критерий (SSTRESS)
из семейства критериев для шкалирования квадратов расстояний по методу наименьших квадратов [см. раздел 17.7]. Алгоритм ALSCAL считается очень эффективным в ситуациях, более общих, чем INDSCAL. Он допускает, например, пропущенные данные, повторную информацию от одного и того же индивида(ов), более широкое разнообразие данных и реализует неметрическую версию.
Другая подобная, но более простая модель использована в
[см. Heiser and de Leeuw (1979)]. Минимизируется
где
— расстояния в средней конфигурации, мгук — заданные веса, подобные описанным в разделе 17.7; их не следует путать с весами
которые используются в INDSCAL и ALSCAL и подлежат оцениванию. Обычное разбиение суммы квадратов приводит к
где
Левая часть принимает минимальное значение при такой X, которая порождает
минимизирующие
Это в точности задача шкалирования по методу наименьших квадратов, обсуждаемая в разделе 17.7, и здесь применима разработанная методология. Модель дает среднюю групповую конфигурацию X, однако информация о природе индивидуальных различий ограничена компонентами суммы квадратов
. Заметим, что при таких вычислениях не вводится предположение о симметрии
поэтому последняя сумма квадратов может быть разложена на компоненты, один из которых измеряет степень симметрии, а другой — степень отклонения от нее.
Керрол и Чанг [см. Carroll and Chang (1972)] обобщили свою модель шкалирования индивидуальных различий на любые положительно определенные матрицы
Тогда каждому индивиду соответствует собственное метрическое пространство. Метод носит название идиосинкразического шкалирования, а реализующая его программа называется IDIOSCAL. Здесь также оценивается средняя групповая матрица X, но индивидуальные различия выражены симметричными матрицами
Нет простого графического представления индивидуальных весов, но в наиболее распространенном двумерном случае несложно сравнить
матриц
При
мы сталкиваемся с сложными проблемами, для решения которых следовало бы произвести индивидуальное шкалирование матриц
Трехфакторные расширения мультипликативных моделей с двумя входами, кратко упомянутые в разделе 17.3, открывают еще один путь анализа трехиндексных данных. Акцент делается на модели для наблюденных данных
В настоящем разделе сделан лишь краткий обзор быстро расширяющейся сети методов. Очень трудно сравнить предлагаемые модели, которые различаются критериями (метрический и неметрический) для подгонки этих моделей и вычислительными программами. Речь шла о роли данных, записанных в виде
матриц
или матриц дистанционного типа. Мы видели, что даже на квадратную матрицу
не налагаются ограничения симметричности, по крайней мере для метода
Не удается выяснить четкую природу данных в случае, когда программа использует прямоугольные куски симметричной матрицы расстояний, как это делается при многомерной развертке [см. раздел 17.9].