Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

12.3. МЕТОДЫ ДЛЯ МОДЕЛЕЙ С ИГНОРИРУЕМЫМИ ПРОПУСКАМИ

Теперь продемонстрируем применение байесовской теории из раздела 12.2 на ряде простых примеров. Некоторые результаты согласуются с оценками и стандартными ошибками квазирандомизационного подхода из гл. 4, однако, как можно показать с помощью простых обобщений этих стандартных результатов, модельному подходу присуща гибкость при выводе оценок и стандартных ошибок в нетрадиционных ситуациях. Во всех примерах взят простой случайный выбор из конечной популяции с пропусками в Y, но не в Поскольку ни один из примеров не опирается на существование переменных плана они не включены в выражения, хотя легко провести непосредственное обобщение на случай расслоения. Во всех примерах предполагается, что пропуски игнорируемы, но, возможно, зависимы от значений полностью наблюдаемых переменных

Пример 12.2. Модели весовых групп с известными частотами в группах. Допустим, что из популяции с объектами извлечена простая случайная выборка объема значениях переменной У есть пропуски, соответствующие случайному подвыбору значений выборки внутри групп, формируемых по переменной зарегистрированной у всех объектов выборки. Пусть означают соответственно число объектов и среднее группе популяции Нашей целью является оценить общее среднее в популяции

где

Допустим, что значения У в группе по нормальному закону со средним и дисперсией и что и имеют локально равномерные априорные распределения, как и в примере 12.1. Считая объем выборки большим, известными, получим (с помощью выкладок, аналогичных примеру 12.1), что данные по отвечающим (по объектам без пропусков) нормальны со средним

и дисперсией

где число ответивших, и выборочные среднее и дисперсия значений У в выборке отвечающих в группе. Обратите

внимание, что (12.11) — это среднее пострасслоения, его дисперсия, полученные в (4.15) и (4.16) соответственно в рамках квазирандомизационной теории. Значит, эти выражения дают байесовские интервалы, совпадающие с доверительными интервалами для частотного подхода из раздела 4.4.3.

Пример 12.3. Модели весовых групп с неизвестными частотами в группах. Допустим, что мы имеем такую же постановку, как в предыдущем примере, но с неизвестными в группах, что обычно бывает, когда переменная, изучаемая в обследовании. Байесовские выводы основаны на его апостериорном распределении при заданном которое получают из апостериорного распределения , условного по заданным из примера 12.2, интегрируя по апостериорному распределению условному по

В частности, среднее и дисперсия этого распределения равны:

и

где суммирование проводится по весовым группам Допустим, что объекты распределены по весовым группам как полиномиальные случайные величины с вероятностями и индексом 1 при локально равномерном по априорном распределении. Тогда

где выборочная доля в группе. Далее

Отсюда

Подставляя эти выражения в (12.13) и (12.14), получаем

— оценку весовых групп (4.10) и после некоторых выкладок

Это выражение приближенно равно оценке среднеквадратической ошибки оценки весовых групп, приведенной после (4.12).

Гибкость модельного подхода при вычислении оценок и стандартных ошибок можно легко увидеть на примере, когда весовые группы формируются совместно по уровням двух или более факторов. Пусть

где индекс относится к группе, соответствующей уровням двух классифицирующих переменных. Модель

для отвечающих и неотвечающих объектов в группе и локально равномерными априорными распределениями для и ведет к оценкам весовых групп или пострасслоения, как и ранее. Если число отвечающих

мало в некоторых группах, можно подобрать более экономную модель для описания средних в группах. Например, данным может хорошо соответствовать аддитивная модель

где теперь Эту модель можно оценивать методом наименьших квадратов, обеспечивая прогноз отсутствующих значений У. Можно строить также объединенную оценку дисперсии, подбирая модель, в которой дисперсии считаются равными при всех и (или) .

Другой модельный подход, с помощью которого можно уменьшить добавочную дисперсию оценки весовых групп (по сравнению с оценкой пострасслоения (12.11)), — моделирование вероятности групп Например, может оказаться приемлемым предположение о независимости классифицирующих факторов и что ведет к оценкам (без учета поправок на конечность популяции)

где .

Гибкость модельного подхода при сглаживании средних в группах, дисперсий и пропорций вероятностей особенно полезна, когда весовые группы определяются совокупностью трех или более факторов, т. е. в случаях, когда для оценки пострасслоения и весовых групп требуется достаточно большое число отвечающих в каждой группе, где есть пропуски. Как видно из следующего примера, модельный подход можно также приспособить и для случая с присутствием сопеременных для прогноза пропущенных значений.

Пример 12.4. Заполнение по регрессии. Рассмотрим более общий случай. Пусть извлечена простая случайная выборка объема где К переменных зарегистрированы у всех объектов выборки, а наличие пропуска не зависит от условно по Предположим, что

где известная функция, характеризующая разнородность дисперсии. Априорные распределения параметров предполагаются локально равномерными. Тогда оценками пропущенных значений служат их апостериорные средние

где оценки коэффициентов методом наименьших квадратов с весом объекта, равным

Частные случаи оценок, основанных на этой модели, включают оценки из предыдущего примера, получаемые из (12.5) при и при представляющих фиктивные переменные для весовых групп. В их число также входят оценки отсутствующих по отношению

где средние У и единственной переменной отвечающих. Эту оценку получают, полагая в Если получается регрессионная оценка отсутствующих

Эта оценка появляется также в соответствии с рандомизационной теорией при двойном выборе [Cochran (1977), гл. 12], когда переменная, зарегистрированная в большой исходной выборке, переменная, зарегистрированная в случайно извлеченном подмножестве объектов этой выборки.

При непосредственном применении модельных методов регрессионную модель (12.15) можно использовать не только для оценки отсутствующих значений, но и для построения выводов о параметрах популяции. При этом важно выбирать модели, которые «приспосабливаются» к выборочному плану, т. е. нечувствительны к неточному выбору модели. Последними работами по этой важной теме для полностью зарегистрированных данных являются, например, [Royall and Herson (1973)] или [Hansen, Madow and Tepping (1982)], обсуждение этой работы см. в [Rubin (1985)].

Эту модель можно использовать более узко — просто для вычисления значений для подстановки с последующим оцениванием характеристик популяции по заполненным данным, проводимым с помощью рандомизационных методов. Конечно, при заполнении пропусков модельный подход не ограничивается линейными моделями вида (12.15). Например, для бинарной У обычно предпочтительнее логистическая регрессия. Для категориальных данные образуют частично классифицированную таблицу сопряженности с полными объектами, классифицированными по и неполными объектами, классифицированными только по По этим данным можно строить логлинейные модели для таблиц сопряженности, описанные в гл. 9. Эти модели дают оценки условной вероятности того, что объект с пропуском имеет категорию с при заданных сопеременных Подстановки можно получать, приписывая частично классифицированный объект к ячейке с с вероятностью Эта процедура близка к ЕМ-алгоритму для МП-оценивания, обсуждавшемуся в гл. 7.

Поскольку одна подстановка обычно не может представлять неопределенность в выборе подставляемых значений для пропуска (при заполнении каждого пропуска одним значением), для справедливости выводов в общем случае при проведении анализа нужны специальные процедуры. Одним из таких подходов является многократное заполнение.

1
Оглавление
email@scask.ru