Глава 17. СРЕДСТВА АНАЛИЗА И ВИЗУАЛИЗАЦИИ НЕКОЛИЧЕСТВЕННЫХ ДАННЫХ
В данной главе рассматривается подход к анализу неколичественных данных, основанный на использовании методов анализа соответствий и оцифровки.
Анализ соответствий (АС) был введен и довольно широко используется в практическом анализе данных начиная с начала 60-х годов группой французских статистиков [191, 263]. Многие результаты, теоретически эквивалентные результатам АС, в особенности относящиеся к анализу двумерных таблиц сопряженности, неоднократно переоткрывались начиная с 30-х годов различными исследователями под названиями «дуальное шкалирование», «оптимальная оцифровка», «одновременная линейная регрессия» и т.д. (см. библиографию в 12, гл. 3).
Несомненной заслугой французских статистиков является, помимо распространения АС на случай более чем двух переменных, широкое использование возможностей визуализации данных, предоставляемых АС.
В этой главе рассматривается применение АС для анализа двумерных частотных таблиц сопряженностей, т. е. собственно «классический» АС, введенный в [191]; распространение АС на анализ некоторых типов матриц данных с неотрицательными элементами; множественный анализ соответствий (MAC), т. е. методы АС в случае многомерных
матриц данных с категоризованными переменными; методы оцифровки, отличные от MAC.
Как в АС, так и в MAC имеются определенные возможности включать, использовать и непрерывные переменные.
Рассмотрение АС для двухвходовых таблиц сопряженности, т. е. собственно АС, ведется здесь в основном, следуя стилю работ французских авторов (см., например, [263]). MAC вводится как некоторое обобщение метода главных компонент, что позволяет сразу же дать статистическую интерпретацию MAC.
17.1. Анализ соответствий для двухвходовых таблиц сопряженностей
17.1.1. Основные понятия анализа соответствий.
Рассмотрим основные понятия АС: таблицы сопряженностей, профили, веса их, метрики.
Таблица сопряженностей. Пусть имеем в качестве объекта статистического анализа двухвходовую таблицу сопряженностей (ТС) (кросс-классификации) для двух категоризованных переменных
категориями соответственно. Эта таблица представляет собой матрицу F с
, строками и 12 столбцами. Значением элемента (клетки)
является вероятность одновременного наблюдения
категории признака
категории признака
. Таким образом, с помощью этой таблицы полностью описывается совместное распределение двух категоризованных переменных
.
На практике обычно приходится иметь дело с некоторой оценкой ТС, а именно с матрицей F, элементы которой
представляют собой оценки соответствующих вероятностей
по выборке объема
например, с помощью относительных частот
, где
— частота появления события
(т. е. количество объектов с подобным сочетанием категорий) в выборке. Однако там, где это не связано с изучением выборочных свойств ТС, будем применять обозначения F, и т. д.
В дальнейшем будем иногда использовать и частотную ТС, т. е. матрицу
значениями элементов которой являются сами наблюдаемые частоты. Очевидно, что
Анализу
и N посвящено большое количество работ (см., например, [12, 21]; в этих же работах приведена и обширная библиография). Основная направленность обычного анализа ТС — проверить с помощью статистических критериев гипотезу о независимости переменных
и если они оказываются зависимыми, измерить с помощью какого-либо коэффициента связи степень их связи.
Методы АС применимы к ТС не только типа кросс-классификационных таблиц, но и таблиц F более общего вида, элемент
которых можно рассматривать как степень связи, влияния строки i на столбец
или наоборот. Например, в качестве строк могут выступать страны мира, а в качестве столбцов — продукты питания, тогда элемент
определяет долю
продукта питания в структуре питания жителей
страны. Другим важным примером является таблица — матрица межотраслевого баланса.
Профили. АС используется для объяснения структуры связей (соответствия) между категориями переменных
При этом категории рассматриваются как точки в некотором многомерном пространстве. Приведем теперь некоторые определения.
Профилем
строки ТС называется строка с элементами
где
Очевидно, что
можно выразить и через элементы ТС относительных частот
где
Одна из основных причин использования
-метрики связана с тем, что она удовлетворяет свойству инвариантности по отношению к слиянию строк (столбцов) с одинаковыми профилями, которое может быть сформулировано следующим образом:
а) пусть две строки i и Г (т. е. две категории признака
) имеют одинаковые профили; тогда, если объединить эти две категории в одну новую категорию
расстояния между категориями признака
не изменятся;
б) аналогично, если имеем два столбца
с одинаковыми профилями и объединим категории
в одну новую категорию
(т. е. перейдем к новой ТС с
категориями для признака
), то расстояния между строками, задаваемые формулой (17.4), не изменятся. Доказательство этого свойства несложно (см., например, [263]).
Веса профилей. Каждой из
точек в пространстве
(т. е. профилям-столбцам) поставим в соответствие ее вес
, аналогично каждой из
точек в пространстве (т. е. профилям-строкам) поставим в соответствие вес
Итак, в результате имеем два взвешенных множества точек: одно — в пространстве
и другое — в пространстве
расстояния между которыми задаются с помощью метрики ((17.4), (17.5)). Суммарное представление введенных понятий дано в табл. 17.1.
Таблица 17.1