Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

11.5. ПРЕДИКТОРНЫЙ БАЙЕСОВСКИЙ ПОДХОД К АНАЛИЗУ СМЕЩЕНИЙ ПРИ ПРОПУСКАХ

При этом подходе к смещению за счет пропусков, предложенном Рубином [Rubin (1977)], строят модель распределения для объектов с пропусками и без пропусков с отдельными параметрами, как в (11.4) и связывают параметры подходящим байесовским априорным распределением. Неигнорируемый пропуск связан с априорно фиксированными параметрами, а оставшиеся параметры распределения оцениваются с помощью соответствующего байесовского апостериорного распределения. Влияние пропуска оценивается интервалом, основанным на распределении, предсказывающем гипотетическую статистику для полных данных при заданных присутствующих значениях. Основная идея иллюстрируется в следующем простом примере. Более общий случай, описанный Рубином, представлен в примере 11.7.

Пример 11.6. Чувствительность выборочного среднего к неигнорируемым пропускам. В простой случайной выборке по переменной объема доля пропусков равна Исследуемой характеристикой является среднее значение Y, которое можно выразить в виде

где наблюдаемое среднее для отвечающих, ненаблюдаемое среднее для отказывающихся отвечать. Допустим, что значения распределены нормально со средним и дисперсией первых, вторых. Для простоты сначала примем, что дисперсии равны, т. е. и что известно. Значения для отвечающих независимы при заданных Отсюда

нормальное распределение со средним а и дисперсией Субъективные априорные представления о сходстве респондентов и отказывающихся отвечать можно формализовать, задавая

априорное распределение зависящее от В тех приложениях, которые обсуждал Рубин, подходящим считалось нормальное априорное распределение

при некотором значении Среднее этого распределения, означает, что среднее по неотвечающим с одинаковой вероятностью может оказаться больше или меньше среднего по отвечающим. Величина отражает субъективное представление о коэффициенте разброса среднего по отказывающимся около среднего по респондентам. Например, исследователь может считать с уровнем доверия 95%, что среднее по неотвечающим попадет в интервал

Если то распределение для первых и вторых совпадает, и механизм порождения пропусков игнорируем.

Влияния пропусков можно оценить по предикторному распределению у при заданных Можно легко показать с помощью теоремы Байеса, что оно нормально со средним и дисперсией

В этом уравнении последний член не зависит от объема выборки. Он отражает неопределенность неигнорируемой компоненты модели. Считая априорное распределение равномерным и вычисляя априорную дисперсию при заданных мы получим

Отсюда -ный байесовский интервал для у при заданных равен

Это уравнение соответствует формуле (2.1) в статье Рубина при

Заметим, что при больших длина этого интервала равна примерно и описывает неопределенность, вносимую неигнорируемой компонентой модели. Выражая ее в долях среднего, получим, что она равна априорному параметру умноженному на 4 и на долю пропусков.

Пример 11.7. Чувствительность выборочного среднего к неигнорируемым пропускам при наличии сопеременных. Существенное развитие предыдущего примера мы получим, если включим в модель сопеременные присутствующие для всех объектов выборки. Если линейно связана с X как в популяции респондентов, так и в популяции отказывающихся отвечать, мы получим ожидаемые значения

где и наблюдаемые выборочные средние для первых и вторых, неизвестные параметры. Чтобы связать параметры для этих двух групп, будем считать, что параметры для неотвечающих имеют следующие условные по параметрам отвечающих априорные распределения:

где -мерное нормальное распределение со средним а и ковариационной матрицей В, а параметры, представляющие средние при в популяциях отвечающих и неотвечающих. Параметр измеряет априорную неопределенность коэффициентов регрессии. Обозначим компоненты соответственно. Введенные априорные распределения означают, что исследователь на 95% уверен, что попадет в интервал

при любом Параметр отражает неопределенность скорректированного среднего и соответствует в примере 11.6 в случае отсутствия сопеременных. Механизм пропусков игнорируем в выводах по функции правдоподобия при

В предложении равномерного априорного распределения и -ный байесовский интервал для у при имеющихся данных принимает вид

где

Здесь коэффициенты регрессии и остаточная дисперсия, полученные методом наименьших квадратов для регрессии на а матрица сумм квадратов и взаимных произведений по X для отвечающих. В частности, предсказываемое значение среднего равно:

Последний член представляет поправку на сопеременные (на различие средних X в выборках отвечающих и неотвечающих). Длину интервала

определяют 3 компоненты. Первая, — относительная дисперсия, возникающая за счет недостатка информации о возможном равенстве коэффициентов регрессии У на в обеих группах. Член отражает неопределенность для равенства средних У при Член отражает неопределенность, вносимую пропусками, которая присутствует даже при равенстве распределений в обеих группах, т. е. когда и механизм пропусков игнорируем.

Поучительно исследовать эти Выражения, когда объем выборки отвечающих стремится к бесконечности. Компонента стремится к нулю, и длина интервала становится равна примерно (в предыдущем примере длина равнялась Кажущееся увеличение длины интервала при наличии сопеременных противоречит тому, что поправка на сопеременные должна уменьшить неопределенность предсказания у. Однако в этих двух примерах субъективный параметр неодинаков. Поправка на сопеременные должна уменьшать разности между условными средними при в популяциях отвечающих и неотвечающих, и это должно приводить к меньшему значению в априорном распределении в данном примере по сравнению с примером 11.6. Неприятным свойством этой модели является невозможность оценить улучшение прогноза за счет сопеременных, так как оно зависит от относительной величины из примера в данном примере, а эти величины назначаются до начала анализа данных.

Пример 11.8. Приложение результатов из примера 11.7. Рубин иллюстрирует метод с помощью данных обследования 660 школ. В 472 школах заполнили анкету о дополнительных занятиях (для отстающих) с 80 вопросами. Были выбраны 21 зависимая переменная и 35 сопутствующих переменных

Зависимые переменные характеризовали дополнительные занятия по частоте их проведения и лежали в диапазоне от О (никогда) до 1 (всегда). Ограниченная шкала затрудняет интерпретацию переменных со средними на концах отрезка, поэтому мы ограничим

внимание на семи переменных, лежащих в середине шкалы. Выбранные зависимые переменные соответствовали частоте:

17В: дополнительных занятий, проводимых в часы школьных занятий;

18А: дополнительных занятий, проводимых за счет занятий общественными науками, иностранными языками и/или научных исследований;

18В: дополнительных занятий, проводимых за счет занятий по математике;

23А: дополнительных занятий с разбиением отстающих на группы по уровню занятий;

23С: дополнительных занятий с разделением учащихся на группы по интересам;

32А: дополнительных занятий с использованием, кроме основного пособия, других учебников;

32D: дополнительных занятий с материалами, подготовленными преподавателем.

Сопутствующие переменные X в исследовании описывали успехи в школе и социально-экономическое положение учащихся.

Табл. 11.3 представляет значение статистик (квадрата множественной корреляции между для отвечающих), Значения описывают (пропорциональные) поправки средних, основанные на регрессии на Они в целом малы, хотя увеличение среднего переменной составляет 6%. Это означает, что неотвечающие занимаются дополнительно за счет занятий по математике намного чаще, чем респонденты.

Таблица 11.3. (см. скан) Значения статистик для 7 переменных в обследовании школ

Значения определяют вклады в квадрат длины интервала. Длина -ного интервала как функция приводится в табл. 11.4. Малые значения означают, что неопределенность различия коэффициентов регрессии в двух группах, моделируемая величиной практически не влияет на интервал. Значения почти совпадают с долей пропусков поэтому вклад неопределенности различия средних с поправками в двух группах описывается величиной

Основное влияние на длину интервала оказывает величина Например, увеличение до 0,1 приводит к увеличению длины интервала для переменных в 3 раза, а для в 5 раз. С другой стороны, для переменных и особенно более существенна компонента относящаяся к остаточной дисперсии регрессии, хотя другие переменные также играют роль при

Таблица 11.4. (см. скан) Длина -ных интервалов для У в процентах от у

Этот пример наглядно демонстрирует возможное влияние смещения из-за пропусков и степень того, как смещение зависит от величин типа которые нельзя в общем случае надежно оценить по данным. Единственное удовлетворительное решение проблемы неигнорируемых пропусков связано с дополнительной информацией о наблюдениях с пропусками, что обсуждается в разделе 12.6.

1
Оглавление
email@scask.ru