Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

8. ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЯ ПРОПУСКОВ. ПРОВЕРКА СЛУЧАЙНОСТИ

Условия случайности пропусков (ОС и ОПС) являются необходимыми условиями применимости большинства известных методов анализа неполных данных, в том числе и описанных в книге Литтла и Рубина. Между тем к настоящему времени предложено лишь несколько частных методов проверки случайности пропусков, например простейший метод сравнения одномерных распределений, упомянутый в книге (раздел 3.2) и более подробно обсуждаемый в [Little, Smith (1987)], или метод проверки условия ОПС для независимых переменных в задаче анализа линейной регрессионной модели в [Simonoff (1988)].

Тем не менее можно построить полезные многомерные критерии для проверки ОПС и ОС. Сразу оговоримся, что проверить условие ОС принципиально возможно только в том случае, когда станут известны первоначально отсутствовавшие значения — при проведении более дорогостоящих или разрушающих измерений или по данным об объекте, полученным через некоторое время после проведения исследования и т. п. (но не за счет заполнения пропусков тем или иным способом, в котором само условие ОС или ОПС будет считаться справедливым).

Несмотря на то что новые методы корректны при условии ОС и не требуют более жесткого условия ОПС, проверка условия ОПС также важна, поскольку простые методы обработки неполных данных (например, анализ полных наблюдений или методы локального заполнения, обсуждаемые в настоящем дополнении), приемлемые в общем случае только при выполнении ОПС, видимо, еще долго будут использоваться в приложениях. Новые методы (описанные, в частности, в этой книге) требуют довольно больших вычислительных ресурсов. Может оказаться дешевле получить дополнительные наблюдения и провести анализ полных наблюдений, чем обрабатывать исходную выборку с пропусками. Кроме того, для многих задач проверки гипотез методы, успешно работающие при ОС, еще не развиты. Сюда относятся, в частности, традиционные задачи проверки гипотез в предположении нормальности распределения (регрессионный, корреляционный, дискриминантный анализ и др.).

Начнем с критериев проверки условия ОС по восстановленным данным. Нулевая гипотеза:

Пусть в случайной выборке -мерных наблюдений с пропусками присутствуют наблюдения с различными структурами пропусков Тогда из (23) следует, что для

каждой структуры распределение переменных, отсутствующих согласно (с функцией распределения является маргинальным распределением исходного распределения

где условная запись в правой части означает, что аргументом F является со значениями переменных, относящихся к равными (считаем, что из множества исключена структура, соответствующая комплектному наблюдению).

Построим по восстановленным значениям пропусков эмпирических функций распределения для структур. Таким образом, определена в подпространстве переменных, отсутствующих согласно Построим также -мерную «восстановленной» выборки

Для проверки (24) предлагаются непараметрические перестановочные критерии, близкие по духу к критериям из раздела 5, со статистиками, аналогичными (14) — (17) (разумеется, данная задача не сводится к проверке однородности выборок, поскольку выборки заведомо неоднородны по структуре пропусков). Статистикой типа Смирнова будет

где маргинальная эмпирической функции распределения в подпространстве переменных, отсутствующих согласно некоторые веса, например с, может быть числом отсутствующих значений при числом объектов со структурой их произведением и т. п. Распределение (25) определяется условно по восстановленной выборке Нетрудно сконструировать критерии с другими статистиками типа (15) или (16), типа омега-квадрат (17) и т. п.

Условие ОПС

означает, что распределение X одинаково для каждой структуры пропусков, имеющейся в выборке совпадает с распределением

Проверять условие ОПС по исходной выборке с пропусками можно лишь относительно присутствующих переменных:

где теперь аргументом является вектор переменных, присутствующих согласно (здесь принято, что из множества исключена структура, соответствующая наблюдению с полным отсутствием значений). Таким образом, принципиально невозможно обнаруживать по исходной выборке такие отклонения от ОПС, для которых выполняется (26), но нарушено условие ОС.

Построить простые перестановочные критерии типа (25) для проверки ОПС трудно, поэтому рассмотрим случай, когда относится к параметрическому семейству многомерных распределений (например, нормальных). Тогда гипотеза состоит в том, что выборок извлечены из распределений, маргинальных по отношению к и подходящим критерием будет обобщение критерия отношения правдоподобий на случай данных с пропусками типа ОС (критерий отношения «маргинальных правдоподобий»). Действия будут таковы: получить произведение функций правдоподобия для всех выборок, вычисленных по отдельности с помощью обычных методов для данных без пропусков, а затем вычислить функцию правдоподобия исходной выборки с пропусками считая, что все имеют распределение (если нормальное распределение, то это можно сделать с помощью ЕМ-алгоритма для многомерного нормального распределения, см. раздел 8.2 книги и текст соответствующей программы в разделе 10 дополнения). Тогда величина имеет асимптотическое распределение хи-квадрат (число степеней свободы зависит от вида модели а также от числа присутствующих значений при структуре пропусков). Кстати, можно конструировать подобные (на самом деле более простые) параметрические критерии проверки условия ОС по данным с восстановленными значениями пропусков, а не только перестановочные критерии типа (25).

Проверка условия ОПС по восстановленнной выборке сводится к обычной задаче об однородности -мерных выборок, которую можно решать, используя как параметрические критерии, например из [Андерсон (1963)], так и непараметрические критерии. Конечно, располагая восстановленными значениями, можно строить критерии проверки не только для ОС и ОПС, но и для других условий, например (18), (20) из раздела 6 или условий (5), (13), использованных в теоремах 4 и 5 (см. разделы 4 и 5).

Поскольку пропуски являются случайными объектами, они могут сами по себе представлять предмет статистического исследования.

В -мерной выборке объема пропуски порождают случайную матрицу со значениями элементов «пропуск» и «нет пропуска». При независимых наблюдениях с пропусками имеется независимых -мерных бинарных случайных векторов. Можно выдвигать гипотезу о равной вероятности пропуска в переменных: где вероятность пропуска переменной в наблюдении, и проверять ее как в предположении одинаковой распределенности пропусков для различных объектов, т. е. при так и без него (соответствующие асимптотические критерии можно найти в [Флейс (1989), раздел 8.4] и в цитированных там работах), а также в [Орлов (1982); Никифорова (1989)]). По критериям, описанным в [Флейс (1989), гл. 13], можно проверять гипотезы о наличии зависимости между пропусками в различных переменных, также не полагаясь на предположение об одинаковой распределенности пропусков по объектам. Следуя указанным выше работам, можно строить и другие гипотезы подобного рода и соответствующие критерии.

1
Оглавление
email@scask.ru