ДОПОЛНЕНИЕ К ПЕРЕВОДУ
МЕТОДЫ АНАЛИЗА ДАННЫХ С ПРОПУСКАМИ И ИХ СВОЙСТВА. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ НЕПОЛНЫХ ДАННЫХ
1. ВВЕДЕНИЕ
Предлагаемое дополнение посвящено тем направлениям и проблемам статистического анализа данных с пропусками, которые не рассматривались в книге Р. Дж. А. Литтла и Д.Б. Рубина совсем или рассматривались недостаточно подробно. Их обсуждение, на наш взгляд, уместно в рамках данной книги и будет интересно для читателя.
По сути, теоретическое обоснование методов, изложенных в книге, было сведено к ссылке на работу [Rubin (1976)]. В этой работе при довольно слабо формализованных условиях были продемонстрированы некоторые свойства инвариантности для трех видов статистик (в том числе для отношения правдоподобия). Эти свойства и указание на аналогию со случаем полных данных, конечно, не могут заменить доказательств. Так, наблюдения в выборке при наличии пропусков принадлежат различным подпространствам исходного выборочного пространства, что противоречит традиционным постановкам, требуют уточнения обычные условия идентифицируемости и т.п.
Для конкретных задач и моделей приходится определять специфические условия, связанные с наличием пропусков. Такой подход не только дает возможность получить строгое теоретическое обоснование результатов, но и полезен методически: появляется возможность ослабить условия на распределение пропусков, по-новому раскрываются свойства различных методов и т.д.
В первых разделах дополнения к переводу сформулированы обобщения некоторых классических результатов на случай наблюдший с пропусками; исследованы асимптотические свойства оценок максимального правдоподобия, обобщенных на случай пропусков в наблюдениях, — оценок максимального «маргинального правдоподобия», вычисление которых с помощью ЕМ-алгоритма является основным предметом данной книги; рассмотрены задачи анализа классификации, анализа временных рядов.
В рамках важнейшего раздела математической и прикладной статистики — теории проверки гипотез, практически не обсуждавшегося в книге, рассматриваются подходы к построению и применению статистических критериев при наличии пропусков для типичных нулевых гипотез: однородности двух и нескольких выборок и независимости случайных величин. Предлагаются критерии, для применимости которых достаточно наложить на распределение пропусков условия, которые намного слабее условий ОПС и ОС (формулировку этих условий см. в разделе 5.3 книги, а также в разделе 2.1 дополнения). Обсуждается проблема проверки случайности пропусков (условий ОС и ОПС), также не рассматриваемая в книге.
Кроме того, в дополнении обсуждаются некоторые важные свойства различных методов заполнения. Показано, что метод «локального заполнения» пропусков (см. раздел 7 дополнения) не имеет тех серьезных недостатков, которые присущи простым методам заполнения из гл. 3 книги.
Наконец, в дополнении рассматривается современное состояние программного обеспечения прикладного статистического анализа данных с пропусками, даются предложения по составу методов анализа данных с пропусками в общестатистическом пакете. Приводится текст программы, реализующей ЕМ-алгоритм для многомерного нормального распределения.