Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

12.4. МНОГОКРАТНОЕ ЗАПОЛНЕНИЕ

Под многократным заполнением мы будем понимать процедуру замены каждого пропущенного значения на вектор подстановок. значений упорядочены в том смысле, что с помощью векторов подстановок можно создать заполненных множеств данных: замена каждого пропуска первой компонентой из его вектора подстановок дает первое заполненное множество, замена пропусков второй компонентой вектора подстановок — второе множество и т. д. Для анализа каждого множества используются обычные методы для полных данных. Если наборов подстановок — повторные случайные выборки при одной модели пропусков, то выводов для заполненных данных можно объединить, чтобы построить вывод, отвечающий неопределенности из-за пропуска в рамках этой модели. Если подстановки сделаны в соответствии с двумя или более моделями пропусков, то объединенные выводы при этих моделях можно сравнивать друг с другом, чтобы выявить чувствительность анализа к моделям пропусков, что особенно важно, когда пропуски неигнорируемы.

Многократные подстановки были впервые предложены в [Rubin (1978)], хотя эта идея появилась в [Rubin (1977)]. В [Rubin (1987)] на высоком уровне дается полное обсуждение этого вопроса. Можно рекомендовать также работы [Rubin (1986); Herzog and Rubin (1983); Li (1985); Schenker (1985); Rubin and Schenker (1986)]. Метод потенциально применим во многих областях. Особенно многообещающе он выглядит в сложных обследованиях, в которых трудно аналитически модифицировать общепринятые методы анализа полных данных на случай пропусков. Ниже мы коротко обсудим многократное заполнение и продемонстрируем его применение.

Как уже указывалось в гл. 2—4, заполнение пропусков широко используется в приложениях. Очевидным практическим преимуществом однократного заполнения является возможность применять обычные методы анализа для полных данных. Заполнение обладает еще одним достоинством в тех частых случаях, когда сбор и анализ данных проводится разными лицами или учреждениями (например, Бюро переписи и университетским ученым-социологом), поскольку при сборе данных можно получить информации больше и лучше по качеству, чем при анализе. Например, в некоторых случаях можно использовать информацию, закрытую по условиям конфиденциальности (например, почтовые индексы домов, в которых проживают

опрашиваемые), для получения подстановок для пропусков (например, годового дохода). Очевидным недостатком однократного заполнения является то, что подстановка одного значения, рассматриваемого как известное, т. е. без специальных поправок, не может отразить выборочный разброс при какой-либо модели пропусков или неопределенность выбора правильной модели пропусков.

Многократные подстановки обладают достоинствами однократного заполнения, но лишены его недостатков. Точнее, если заполнений проводятся при одной модели пропусков, то результаты повторов анализа для полных данных можно легко объединить, строя вывод, который правильно отражает выборочную дисперсию, возникающую за счет пропущенных значений. Если многократное заполнение проводится в рамках различных моделей, то вариабельность выводов, верных для этих моделей, отражает неопределенность выбора точной модели. Единственный недостаток многократного заполнения по сравнению с однократным состоит в увеличении объема работы за счет вычисления подстановок и анализа результатов. Однако для современных компьютеров дополнительная работа по анализу данных оказывается очень небольшой, так как она, по сути, сводится к повторным решениям одной задачи вместо одного.

Теоретически многократное заполнение надо проводить в соответствии со следующей схемой. Для каждой из рассматриваемых моделей заполнений это повторных извлечений выборки из апостериорного предикторного распределения Каждое повторение соответствует независимому выбору параметров и подстановок. На практике часто можно использовать неявные модели вместо явных. Оба этих типа моделей продемонстрированы в [Herzog and Rubin (1983)], где повторные подстановки создаются с помощью 1) явной регрессионной модели и 2) неявной модели, являющейся модификацией подстановки с подбором, принятой в Бюро переписи.

Переход от обычного анализа к анализу многократно заполненных данных проводится довольно прямолинейно. Во-первых, каждое заполненное множество данных анализируется с помощью одного и того же метода для полных данных, который применялся бы при отсутствии пропусков. Пусть оценок для «полных» данных и соответствующие дисперсии оценок в, вычисленные по повторным заполнениям при условии справедливости одной модели. Например, в примере дается правой частью (12.5), правой частью (12.6) по набору подстановок Объединенная оценка равна:

Вариабельность, соответствующая этой оценке, имеет две компоненты: средняя дисперсия внутри одной подстановки

и дисперсия между различными подстановками

(при векторном заменяют на Суммарная вариабельность, отвечающая равна:

где поправка на конечность При скалярном в априорное распределение для интервальных оценок и критериев значимости — это -распределение:

где число степеней свободы

основано на аппроксимации Сэтертуэйта [Rubin and Schenker (1986); Rubin (1987)]. Интересно заметить, что оценка величины где 7 — доля информации о 0, отсутствующая вследствие пропусков. Наблюдаемая и отсутствующая информация определена в разделе 7.5.

Если в в компонент, то уровни значимости для гипотез относительно можно получить из повторных оценок для полных данных и ковариационных матриц с помощью многомерных аналогов (12.17)-(12.21). Менее точные -значения можно получить непосредственно по повторным уровням значимости. Подробности можно найти в [Rubin (1987)].

Несмотря на то что многократное заполнение наиболее естественно объясняется при байесовском подходе, можно показать, что получаемые выводы обладают хорошими свойствами с частотной точки зрения. Например, как показано в [Rubin and Schenker (1986)], во многих случаях интервальные оценки, получаемые только по двум заполнениям, близки по накрытию к номинальным уровням при рандомизационном подходе.

Пример 12.5. Выводы по расслоенной случайной выборке при многократном заполнении (продолжение примеров 12.1. и 12.2). Чтобы проиллюстрировать многократное заполнение, исследуем среднее популяции У по расслоенной случайной выборке, используя модель из примера 12.1. При полных данных выводы о У следует строить, опираясь на утверждение

Допустим теперь, что в слое только из объектов имеют значения. При многократном заполнении каждый из объектов будет иметь подстановок, образуя заполненных наборов данных и значений средних и дисперсий в каждом слое (обозначим их Из (12.17) и (12.23) получим оценку многократного заполнения — среднее оценок по заполненным данным:

Из (12.13), (12.20) и (12.23) получим дисперсию — сумму двух компонент, отраженных в (12.25):

Из (12.21) и (12.22) получаем, что окончательные выводы следуют из того, что имеет -распределение с нулевым средним, квадратом параметра масштаба, определяемым выражением (12.25), и числом степеней свободы (12.22).

Пример 12.6. Получение многократных подстановок для расслоенной случайной выборки с игнорируемыми пропусками (продолжение примера 12.5). Поскольку многократные подстановки вычисляются по предикторному распределению, интуитивно напрашивается метод получения подстановок с подбором, при котором пропущенные значения случайно извлекаются из множества присутствующих значений в одном слое. Используя утверждения в [Rubin (1979); Herzog and Rubin (1983)], можно показать, что при бесконечном получаемая оценка многократного заполнения (12.24) равна оценке пострасслоения из примера 12.2, определяемой выражением (12.12). Суть проблемы здесь заключается в том, что подстановка с подбором не отражает неопределенность выбора параметров в слоях. Эту неопределенность можно все-таки представить в простых обобщениях подстановки с подбором и, значит, получить при больших не только оценку пострасслоения, но и правильную дисперсию.

Сначала рассмотрим метод, основанный на неявной модели, названной в [Rubin and Schenker (1986)] приближенным байесовским бутстрепом. Независимо для выполним следующие шаги: 1) получим для каждого слоя возможных значений Y, случайно извлекая значений с возвращением из присутствующих значений слое и 2) случайным образом извлечем пропущенных значений с возвращением из этих значений. Чтобы показать, что этот метод пригоден при больших т. е. что он будет давать оценку пострасслоения и ее дисперсию в этом случае, можно привлечь результаты из [Rubin and Schenker (1986)] или [Rubin (1987)].

В этом же смысле пригоден также выбор многократных подстановок с помощью явной нормальной модели из примера 12.2, где значения внутри слоя распределены независимо и нормально со средним и дисперсией и априорное распределение локально равномерно. Этот метод, названный в [Rubin ana Scnenker (1986)] полностью нормальным заполнением, задается независимыми повторениями следующих двух шагов: 1) извлечь для каждого слоя из их совместного апостериорного распределения и 2) извлечь значений для пропусков как нормально распределенные со средним и дисперсией, равными извлеченным

1
Оглавление
email@scask.ru