Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
Глава 12. МОДЕЛЬНЫЙ ПОДХОД К ПРОПУСКАМ ПРИ ВЫБОРОЧНЫХ ОБСЛЕДОВАНИЯХ
12.1. БАЙЕСОВСКАЯ ТЕОРИЯ ДЛЯ ПОЛНЫХ ДАННЫХ
В гл. 4 мы рассматривали пропуски при обследованиях с позиции квазирандомизационного подхода, в котором значения переменных
считались фиксированными, а выводы строились на основе известного распределения выборки
и модели распределения пропусков
При другом подходе к построению выводов вводят модель распределения переменных
и используют методологию, служившую нам основой в гл. 5—11. Для выводов о параметрах конечной популяции более естественно использовать байесовский подход, при котором задают априорное распределение неизвестных параметров, чем подход, опирающийся только на правдоподобие. Поэтому мы принимаем в этой главе байесовский подход аналогично разделу 11.5. Более полное исследование дано в [Rubin (1987), гл. 2].
Рис. 12.1. Данные выборочного обследования при отсутствии пропусков
Данные обследования при отсутствии пропусков можно представить на рис. 12.1, на котором строки соответствуют объектам, столбцы — переменным. Переменные плана обследования
и индикаторная переменная I известны для всех объектов популяции. Переменные У зарегистрированы
объектов выборки с
Анализ полных данных обследования можно рассматривать как задачу с неполными данными при монотонной структуре, изображенной на рис. 12.1. Целью является построение выводов о значениях У, отсутствующих в выборке.
При построении байесовской модели для таких данных значения
считают реализациями случайных переменных с совместным распределением
Обозначим
множество значений
в выборке, У — множество вне выборки. Таким образом, при отсутствии пропусков данные состоят
конечно,
Выводы о параметре популяции, таком, как Y, среднее Y, получают из его распределения при заданных наблюдаемых значениях
Это распределение определяется присутствующими данными
и распределением отсутствующих данных У при заданных
В этой формулировке явно видно, что апостериорное распределение У в (12.2) условно не только по
и
но и по
Часто исследователи игнорируют это дополнительное условие при построении байесовских моделей и основывают выводы на распределении
Следуя [Rubin (1976), (1978), (1987)] и [Little (1982)], мы будем говорить, что механизм извлечения выборки игнорируем, если распределения
и (12.3) совпадают. Достаточным условием для этого является независимость распределения I при заданных
Если (12.4) выполняется, то правая часть (12.2) равна:
что означает идентичность (12.2) и (12.3).
Примечательно, что если выбор объектов в соответствии с механизмом извлечения выборки
проводится случайно, то функция
известна и не зависит от
или
. Поэтому любой случайный выбор игнорируем, и его распределение не играет непосредственной роли в байесовских выводах. Другие способы формирования выборки могут быть «неигнорируемы», и тогда выводы по (12.3) могут быть смещенными. В этом случае полную модель (12.1) описать трудно, если только исключение объектов из
выборки не проводится с помощью известного механизма, например цензурирования с известной точкой цензурирования. Таким образом, случайный выбор играет важную роль при моделировании, хотя выборочное распределение не участвует в построении выводов. Это обстоятельство отмечалось в литературе (см., например, [Rubin (1976), (1978); Scott (1977)]), однако оно заслуживает того, чтобы его еще раз подчеркнуть, поскольку это — важнейший аргумент против представления о том, что модельный подход исключает необходимость в случайном выборе объектов. Более того, даже при игнорируемом механизме выбора последствия ошибок построения модели зависят от плана выбора, который, следовательно, неявно влияет на выбор модели.
Пример 12.1. Расслоенный случайный выбор при отсутствии пропусков. Проиллюстрируем изложенное. Пусть
переменная, указывающая номер слоя популяции, т. е.
если
объект относится к
слою,
переменная, измеряемая в обследовании для всех объектов выборки. Распределение
определим в виде
где
промежуточные параметры модели с априорной плотностью
где для объектов из
слоя
нормальная плотность со средним и дисперсией
Использование промежуточного параметра в для условий независимости объектов — распространенный подход при байесовском моделировании.
Распределение
соответствует расслоенному случайному выбору
из
объектов
слоя. Это значит, что значение
одинаково у всех выборок
объектами в слое
и равно нулю в противном случае. Поскольку это распределение не зависит от У, выборочный механизм игнорируем, и выводы об отсутствующих значениях можно строить с помощью распределения (12.3). В частности, выводы о среднем популяции можно основывать на
Пусть
и
выборочные средние и дисперсия в слое у. Апостериорное распределение асимптотически нормально со средним
и дисперсией
Теперь среднее
слое популяции имеет вид
апостериорное среднее
равно:
поскольку для исключительных объектов
Можно также показать, что априорная дисперсия
равна:
Таким образом, поправка на конечность популяции
появляется в оценке точности параметра
популяции в таком же виде, как и при расслоенном случайном выборе в теории от рандомизации. В этом и других примерах выводы о параметрах отличаются от их аналогов в конечной популяции
на поправку на конечность популяции, которую можно игнорировать, если доли объектов в выборках
малы. Значит, апостериорное распределение У асимптотически нормально со средним
и дисперсией
где
Заметим, что при подходе от рандомизации
выражение (12.5) — это расслоенное среднее, обычно применяемое для оценки
стандартная оценка дисперсии повторного выбора [Cochran (1977)]. Поэтому байесовские интервалы, основанные на (12.5) и (12.6), эквивалентны доверительным интервалам, получаемым в теории от рандомизации.