Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

11.5. ПРЕДИКТОРНЫЙ БАЙЕСОВСКИЙ ПОДХОД К АНАЛИЗУ СМЕЩЕНИЙ ПРИ ПРОПУСКАХ

При этом подходе к смещению за счет пропусков, предложенном Рубином [Rubin (1977)], строят модель распределения для объектов с пропусками и без пропусков с отдельными параметрами, как в (11.4) и связывают параметры подходящим байесовским априорным распределением. Неигнорируемый пропуск связан с априорно фиксированными параметрами, а оставшиеся параметры распределения оцениваются с помощью соответствующего байесовского апостериорного распределения. Влияние пропуска оценивается интервалом, основанным на распределении, предсказывающем гипотетическую статистику для полных данных при заданных присутствующих значениях. Основная идея иллюстрируется в следующем простом примере. Более общий случай, описанный Рубином, представлен в примере 11.7.

Пример 11.6. Чувствительность выборочного среднего к неигнорируемым пропускам. В простой случайной выборке по переменной объема доля пропусков равна Исследуемой характеристикой является среднее значение Y, которое можно выразить в виде

где наблюдаемое среднее для отвечающих, ненаблюдаемое среднее для отказывающихся отвечать. Допустим, что значения распределены нормально со средним и дисперсией первых, вторых. Для простоты сначала примем, что дисперсии равны, т. е. и что известно. Значения для отвечающих независимы при заданных Отсюда

нормальное распределение со средним а и дисперсией Субъективные априорные представления о сходстве респондентов и отказывающихся отвечать можно формализовать, задавая

априорное распределение зависящее от В тех приложениях, которые обсуждал Рубин, подходящим считалось нормальное априорное распределение

при некотором значении Среднее этого распределения, означает, что среднее по неотвечающим с одинаковой вероятностью может оказаться больше или меньше среднего по отвечающим. Величина отражает субъективное представление о коэффициенте разброса среднего по отказывающимся около среднего по респондентам. Например, исследователь может считать с уровнем доверия 95%, что среднее по неотвечающим попадет в интервал

Если то распределение для первых и вторых совпадает, и механизм порождения пропусков игнорируем.

Влияния пропусков можно оценить по предикторному распределению у при заданных Можно легко показать с помощью теоремы Байеса, что оно нормально со средним и дисперсией

В этом уравнении последний член не зависит от объема выборки. Он отражает неопределенность неигнорируемой компоненты модели. Считая априорное распределение равномерным и вычисляя априорную дисперсию при заданных мы получим

Отсюда -ный байесовский интервал для у при заданных равен

Это уравнение соответствует формуле (2.1) в статье Рубина при

Заметим, что при больших длина этого интервала равна примерно и описывает неопределенность, вносимую неигнорируемой компонентой модели. Выражая ее в долях среднего, получим, что она равна априорному параметру умноженному на 4 и на долю пропусков.

Пример 11.7. Чувствительность выборочного среднего к неигнорируемым пропускам при наличии сопеременных. Существенное развитие предыдущего примера мы получим, если включим в модель сопеременные присутствующие для всех объектов выборки. Если линейно связана с X как в популяции респондентов, так и в популяции отказывающихся отвечать, мы получим ожидаемые значения

где и наблюдаемые выборочные средние для первых и вторых, неизвестные параметры. Чтобы связать параметры для этих двух групп, будем считать, что параметры для неотвечающих имеют следующие условные по параметрам отвечающих априорные распределения:

где -мерное нормальное распределение со средним а и ковариационной матрицей В, а параметры, представляющие средние при в популяциях отвечающих и неотвечающих. Параметр измеряет априорную неопределенность коэффициентов регрессии. Обозначим компоненты соответственно. Введенные априорные распределения означают, что исследователь на 95% уверен, что попадет в интервал

при любом Параметр отражает неопределенность скорректированного среднего и соответствует в примере 11.6 в случае отсутствия сопеременных. Механизм пропусков игнорируем в выводах по функции правдоподобия при

В предложении равномерного априорного распределения и -ный байесовский интервал для у при имеющихся данных принимает вид

где

Здесь коэффициенты регрессии и остаточная дисперсия, полученные методом наименьших квадратов для регрессии на а матрица сумм квадратов и взаимных произведений по X для отвечающих. В частности, предсказываемое значение среднего равно:

Последний член представляет поправку на сопеременные (на различие средних X в выборках отвечающих и неотвечающих). Длину интервала

определяют 3 компоненты. Первая, — относительная дисперсия, возникающая за счет недостатка информации о возможном равенстве коэффициентов регрессии У на в обеих группах. Член отражает неопределенность для равенства средних У при Член отражает неопределенность, вносимую пропусками, которая присутствует даже при равенстве распределений в обеих группах, т. е. когда и механизм пропусков игнорируем.

Поучительно исследовать эти Выражения, когда объем выборки отвечающих стремится к бесконечности. Компонента стремится к нулю, и длина интервала становится равна примерно (в предыдущем примере длина равнялась Кажущееся увеличение длины интервала при наличии сопеременных противоречит тому, что поправка на сопеременные должна уменьшить неопределенность предсказания у. Однако в этих двух примерах субъективный параметр неодинаков. Поправка на сопеременные должна уменьшать разности между условными средними при в популяциях отвечающих и неотвечающих, и это должно приводить к меньшему значению в априорном распределении в данном примере по сравнению с примером 11.6. Неприятным свойством этой модели является невозможность оценить улучшение прогноза за счет сопеременных, так как оно зависит от относительной величины из примера в данном примере, а эти величины назначаются до начала анализа данных.

Пример 11.8. Приложение результатов из примера 11.7. Рубин иллюстрирует метод с помощью данных обследования 660 школ. В 472 школах заполнили анкету о дополнительных занятиях (для отстающих) с 80 вопросами. Были выбраны 21 зависимая переменная и 35 сопутствующих переменных

Зависимые переменные характеризовали дополнительные занятия по частоте их проведения и лежали в диапазоне от О (никогда) до 1 (всегда). Ограниченная шкала затрудняет интерпретацию переменных со средними на концах отрезка, поэтому мы ограничим

внимание на семи переменных, лежащих в середине шкалы. Выбранные зависимые переменные соответствовали частоте:

17В: дополнительных занятий, проводимых в часы школьных занятий;

18А: дополнительных занятий, проводимых за счет занятий общественными науками, иностранными языками и/или научных исследований;

18В: дополнительных занятий, проводимых за счет занятий по математике;

23А: дополнительных занятий с разбиением отстающих на группы по уровню занятий;

23С: дополнительных занятий с разделением учащихся на группы по интересам;

32А: дополнительных занятий с использованием, кроме основного пособия, других учебников;

32D: дополнительных занятий с материалами, подготовленными преподавателем.

Сопутствующие переменные X в исследовании описывали успехи в школе и социально-экономическое положение учащихся.

Табл. 11.3 представляет значение статистик (квадрата множественной корреляции между для отвечающих), Значения описывают (пропорциональные) поправки средних, основанные на регрессии на Они в целом малы, хотя увеличение среднего переменной составляет 6%. Это означает, что неотвечающие занимаются дополнительно за счет занятий по математике намного чаще, чем респонденты.

Таблица 11.3. (см. скан) Значения статистик для 7 переменных в обследовании школ

Значения определяют вклады в квадрат длины интервала. Длина -ного интервала как функция приводится в табл. 11.4. Малые значения означают, что неопределенность различия коэффициентов регрессии в двух группах, моделируемая величиной практически не влияет на интервал. Значения почти совпадают с долей пропусков поэтому вклад неопределенности различия средних с поправками в двух группах описывается величиной

Основное влияние на длину интервала оказывает величина Например, увеличение до 0,1 приводит к увеличению длины интервала для переменных в 3 раза, а для в 5 раз. С другой стороны, для переменных и особенно более существенна компонента относящаяся к остаточной дисперсии регрессии, хотя другие переменные также играют роль при

Таблица 11.4. (см. скан) Длина -ных интервалов для У в процентах от у

Этот пример наглядно демонстрирует возможное влияние смещения из-за пропусков и степень того, как смещение зависит от величин типа которые нельзя в общем случае надежно оценить по данным. Единственное удовлетворительное решение проблемы неигнорируемых пропусков связано с дополнительной информацией о наблюдениях с пропусками, что обсуждается в разделе 12.6.

Categories

1
Оглавление
email@scask.ru