Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

12.6. НЕИГНОРИРУЕМЫЕ ПРОПУСКИ И ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ

Единственным путем снизить чувствительность выводов к неигнорируемым пропускам является уменьшение доли пропусков или сбор информации о том, как объекты с пропусками отличаются от респондентов по исследуемым выходным переменным. Существует

довольно обширная прикладная статистическая литература, освещающая методы уменьшения исходно присутствующих пропусков в обследованиях. Три тома, опубликованные Комиссией по неполным данным (Panel on Incomplete Data) Национальной академии наук (США), представляют собой прекрасный библиографический путеводитель [Madow, Nisselson and Olkin (1983); Madow, Olkin and Rubin (1983); Madow and Olkin (1983)]. Наиболее прямолинейный метод сбора информации об объектах с пропусками — проследить по крайней мере за частью из них, чтобы получить нужную информацию. Даже если удается проследить лишь за несколькими объектами, это может стать чрезвычайно полезным для уменьшения чувствительности и неустойчивости выводов, что продемонстрировано в следующем численном эксперименте.

Пример 12.9. Уменьшение неустойчивости выводов при отслеживании объектов. В [Glynn, Laird and Rubin (1986)] описан ряд имитационных экспериментов для нормальных и логнормальных данных, которые можно использовать для исследования уменьшения неустойчивости выводов при наличии данных об отслеженных объектах. Для нормального случая была извлечена выборка из 400 значений из стандартного нормального распределения (из бесконечной популяции). С применением логистического механизма пропусков был порожден 101 пропуск. После этого случайным образом были извлечены различные подмножества из 101 объекта, чтобы образовать данные об отслеженных объектах. В итоге получились данные, состоявшие из для объектов без пропусков и отслеженных объектов с пропусками, и только из для неотслеженных объектов с пропусками.

Для анализа этих данных применялись две модели. Использовалась байесовская модель, аналогичная модели из примера 11.5, в которой исходные наблюдения без пропусков считались распределенными а с пропусками — с априорным распределением пропорциональным константе. В этой модели значения У, были распределены как смесь двух нормальных популяций с неизвестной смешивающей пропорцией. Данные анализировались также при нормально-логистической модели пропусков:

где априорное распределение также было пропорционально константе. Эта модель аналогична модели стохастического цензурирования, рассмотренной в разделе 11.4.

Весь эксперимент был повторен с другим набором данных с 400 логнормальными наблюдениями (т. е. экспонентами значений из стандартного нормального распределения). С помощью логистического механизма отсутствия пропуска было образовано 88 пропусков. Снова для создания данных об отслеживании объектов с пропусками были случайно извлечены

различные подмножества объектов с пропусками. Для анализа логнормальных данных использовались те же две модели. Заметим, что если для нормальных данных модель цензурирования была подобрана правильно, а модель смеси — неправильно, то для логнормальных данных обе модели были неверными.

Таблица 12.2. (см. скан) Выборочные моменты сгенерированных данных

В табл. 12.2 приведены результаты для сгенерированных данных — и нормальных, и логнормальных. В табл. 12.3 даны оценки среднего популяции для обеих моделей и для обоих типов данных. Сразу можно заметить несколько очевидных обстоятельств. Во-первых, модель смеси выглядит несколько более устойчивой по сравнению с моделью цензурирования и проявляет себя почти так же хорошо, как и модель цензурирования, когда верна последняя, и лучше ее, когда обе модели неверны. Во-вторых, чем больше доля отслеженных объектов, тем лучше оценки при обеих моделях. -третьих, даже малое число отслеженных приводит при использовании модели смеси к разумным оценкам. В [Glynn et al. (1986)] используется многократное заполнение, чтобы построить выводы по данным обследования пенсионеров с применением модели смеси, включающей сопеременные.

Таблица 12.3. (см. скан) Оценки среднего популяции по данным об объектах без пропусков из табл. 12.2 и по данным об отслеживании некоторых объектов с пропусками

ЛИТЕРАТУРА

(см. скан)

ЗАДАЧИ

(см. скан)

1
Оглавление
email@scask.ru