Глава 3. АНАЛИЗ СВЯЗЕЙ МЕЖДУ КЛАССИФИКАЦИОННЫМИ (НОМИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ
3.1. Таблицы сопряженности
Ограничимся рассмотрением таблиц с двусторонней группировкой. Для них сформулированы основные гипотезы и указаны методы их проверки, описана логарифмически-линейная параметризация, приведены различные меры зависимости между строками и столбцами таблицы. Вводятся понятия энтропии случайной величины и информации, содержащейся в одной случайной величине относительно другой случайной величины, представляющие самостоятельный интерес.
Методы изучения таблиц с тремя и более входами можно найти в [23, 75, 154, 168, 199, 238].
3.1.1. Три основные выборочные схемы, приводящие к таблицам сопряженности.
Схема I возникает в случае, когда распределения строк
(столбцов) таблицы можно рассматривать как независимые выборки из полиномиальных распределений с вероятностями
и фиксированным числом наблюдений
Такая организация данных обычно возникает, когда хотят сравнить между собою несколько одномерных распределений, представленных выборками заранее заданного объема. Наиболее важная гипотеза для первой схемы
Гипотезу
называют гипотезой однородности (см. [14, п. 1.1.3 и 11.2]).
Схема II. Предполагается, что
имеют Полиномиальное распределение с вероятностями
и фиксированным числом наблюдений
Таблица сопряженности в этом случае является обычной двумерной гистограммой для
наблюдений, а аналогом (3.1) — гипотеза
где
Если воспользоваться определением условной вероятности [14, п. 4.1.3], то (попасть в клетку
быть в ряду
(быть в столбце
Поэтому гипотезу
называют гипотезой независимости.
Схема III возникает, когда в схеме II общее число наблюдений рассматривается как случайная величина. Ее важным частным случаем является случай, когда
имеет распределение Пуассона. В этом случае все
независимы между собою и также имеют распределение Пуассона с параметрами
Аналогом (3.1), (3.2) является гипотеза
где
Гипотезу
называют мультипликативной пуассоновской моделью, или, короче, гипотезой мультипликативности. В качестве примера схемы III может быть рассмотрена следующая задача. Пусть
— число дорожно-транспортных происшествий, зарегистрированных в какой-либо местности в i-й день на дорогах
типа. Параметры в этом случае отражают ожидаемое число дорожно-транспортных происшествий. Если использование транспортом дорог разного типа существенно зависит от дня недели, то гипотеза
вероятно, не верна. Однако она может иметь место, если, например, рассматривать только рабочие дни.
Существует приближенный графический тест для проверки гипотезы
. Он заключается в том, что для каждого
строится график, в котором по оси абсцисс откладываются точки
, а по оси ординат —
Если гипотеза
верна, то нанесенные точки должны группироваться вокруг линии, проходящей через начало координат с наклоном