Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДОПОЛНЕНИЕ К ПЕРЕВОДУ

МЕТОДЫ АНАЛИЗА ДАННЫХ С ПРОПУСКАМИ И ИХ СВОЙСТВА. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ НЕПОЛНЫХ ДАННЫХ

1. ВВЕДЕНИЕ

Предлагаемое дополнение посвящено тем направлениям и проблемам статистического анализа данных с пропусками, которые не рассматривались в книге Р. Дж. А. Литтла и Д.Б. Рубина совсем или рассматривались недостаточно подробно. Их обсуждение, на наш взгляд, уместно в рамках данной книги и будет интересно для читателя.

По сути, теоретическое обоснование методов, изложенных в книге, было сведено к ссылке на работу [Rubin (1976)]. В этой работе при довольно слабо формализованных условиях были продемонстрированы некоторые свойства инвариантности для трех видов статистик (в том числе для отношения правдоподобия). Эти свойства и указание на аналогию со случаем полных данных, конечно, не могут заменить доказательств. Так, наблюдения в выборке при наличии пропусков принадлежат различным подпространствам исходного выборочного пространства, что противоречит традиционным постановкам, требуют уточнения обычные условия идентифицируемости и т.п.

Для конкретных задач и моделей приходится определять специфические условия, связанные с наличием пропусков. Такой подход не только дает возможность получить строгое теоретическое обоснование результатов, но и полезен методически: появляется возможность ослабить условия на распределение пропусков, по-новому раскрываются свойства различных методов и т.д.

В первых разделах дополнения к переводу сформулированы обобщения некоторых классических результатов на случай наблюдший с пропусками; исследованы асимптотические свойства оценок максимального правдоподобия, обобщенных на случай пропусков в наблюдениях, — оценок максимального «маргинального правдоподобия», вычисление которых с помощью ЕМ-алгоритма является основным предметом данной книги; рассмотрены задачи анализа классификации, анализа временных рядов.

В рамках важнейшего раздела математической и прикладной статистики — теории проверки гипотез, практически не обсуждавшегося в книге, рассматриваются подходы к построению и применению статистических критериев при наличии пропусков для типичных нулевых гипотез: однородности двух и нескольких выборок и независимости случайных величин. Предлагаются критерии, для применимости которых достаточно наложить на распределение пропусков условия, которые намного слабее условий ОПС и ОС (формулировку этих условий см. в разделе 5.3 книги, а также в разделе 2.1 дополнения). Обсуждается проблема проверки случайности пропусков (условий ОС и ОПС), также не рассматриваемая в книге.

Кроме того, в дополнении обсуждаются некоторые важные свойства различных методов заполнения. Показано, что метод «локального заполнения» пропусков (см. раздел 7 дополнения) не имеет тех серьезных недостатков, которые присущи простым методам заполнения из гл. 3 книги.

Наконец, в дополнении рассматривается современное состояние программного обеспечения прикладного статистического анализа данных с пропусками, даются предложения по составу методов анализа данных с пропусками в общестатистическом пакете. Приводится текст программы, реализующей ЕМ-алгоритм для многомерного нормального распределения.

Categories

1
Оглавление
email@scask.ru