6. АНАЛИЗ ТАБЛИЦ СОПРЯЖЕННОСТИ И ПРОВЕРКА НЕЗАВИСИМОСТИ СЛУЧАЙНЫХ ВЕЛИЧИН
При проверке независимости непараметрическими методами также допустимы очень слабые условия на распределение пропусков. Рассмотрим сначала задачу проверки независимости двух факторов в двумерной таблице сопряженности.
Пусть в эксперименте получают двумерные наблюдения с пропусками где где принимает значения значения Допустим, что распределение подчиняется одному из следующих условий (различие функций может, как и ранее, задаваться различием аргументов):
или
В данном примере условие ОС не является одним из частных случаев (186).
Пусть при отсутствии пропусков (т. е. в соответствии с распределением вероятности ячеек в таблице сопряженности равны Тогда при наличии пропусков и условии (18а) (случай (186) рассматривается аналогично) вероятности ячеек в таблице сопряженности, составленной по комплектным наблюдениям, равны
где А — константа нормировки, а вероятности пропуска» пропуска» На протяжении раздела будет предполагаться, что при всех
Из (19) вытекает, что при наличии пропусков, подчиняющихся условию (18а) или (186), можно проверять гипотезу независимости по комплектным наблюдениям с помощью обычных критериев отношения правдоподобия или хи-квадрат без каких-либо изменений.
В самом деле, считая справедливой гипотезу независимости, т. е. принимая где после простых выкладок получаем где вероятности ячеек в таблице, образуемой комплектными наблюдениями, соответствующие маргинальные вероятности по строкам и столбцам. С другой стороны, указанные критерии сохраняют состоятельность против общей альтернативы зависимости: поскольку это условие влечет выполнение неравенства при любых Чтобы доказать это, надо убедиться в том, что система уравнений относительно неизвестных
имеет единственное решение
Выкладки, связанные с доказательством этого утверждения, мы опустим.
Для проверки независимости в таблицах (эквивалентной гипотезе известны равномерно наиболее мощные несмещенные условные критерии, основанные на гипергеометрическом распределении. Проводя доказательство аналогично [Леман (1979), с. 163—165], получим, что при пропусках оптимальны эти же критерии, вычисляемые по комплектным наблюдениям, если верно (18а) или (186). Более того, равномерно наиболее мощными останутся несмещенные критерии для проверки различных
гипотез о в при альтернативных, указанных в [Леман (1979), с. 153], если при наличии пропусков типа (18а) или (186) эти критерии также будут вычисляться только по наблюдениям с присутствием обоих факторов.
Перечисленные выше результаты отражают то обстоятельство, что наблюдение с присутствием одной из компонент вектора X не несет информации о зависимости двух факторов, если выполняется условие (18).
Сходные явления будут наблюдаться и при логлинейном анализе -факторных таблиц сопряженности. Например, при проверке общей независимости (гипотезы об отсутствии взаимодействия высшего порядка в логлинейной модели) аналогом условий (18а) и (186) является
где теперь — -мерные случайные векторы, а произвольная перестановка множества
В общем случае проверки независимости к случайных величин, не обязательно являющихся дискретными с конечным числом градаций, ситуация сохраняется, т. е. независимость случайных величин при отсутствии пропусков, ведет при выполнении условия (20) к независимости в комплектных наблюдениях:
где структура пропусков, соответствующая комплектному наблюдению. Таким образом, при справедливости (20) можно проверять независимость случайных величин по комплектны наблюдениям с помощью тех же непараметрических критериев (например, ранговых критериев Спирмена или Кендалла при которые применяются для данных без пропусков. Справедливости ради отметим, что такой подход при может сильно снижать эффективность критериев при альтернативах, включающих частичную зависимость (т. е. зависимость внутри подмножества переменных в наблюдении) и большом числе пропусков.