Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
4.5. МЕТОДЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ4.5.1. ВведениеТеперь в общих словах мы обсудим методы заполнения пропущенных значений. Они относятся к уже рассмотренным в разделе 3.4 быстрым методам. Перечислим основные методы заполнения в выборочных обследованиях. а) Заполнение средними по присутствующим значениям в выборке. Этот метод был изложен в разделах 3.4.2 и 3.4.3. Средние могут формироваться и внутри групп аналогично группам, образуемым для взвешивающих процедур. При таком подходе заполнение средними ведет к оценкам, сходным с оценками методами взвешивания при условии постоянства выборочных весов в классах взвешивания. б) Процедуру заполнения пропусков с (пристрастным) подбором можно, в общем, описать как метод, при котором подстановка выбирается для каждого пропущенного значения по оценке распределения в отличие от заполнения пропусков средними, когда подставляется среднее распределения. В большинстве приложений эмпирическое распределение задается присутствующими значениями, поэтому при заполнении с подбором подставляются различные значения из данных для сходных объектов без пропусков. Заполнение с подбором широко распространено. Оно может включать очень сложные схемы отбора объектов. Хотя практика подтвердила достоинства этого метода, литературы, посвященной его теоретическим свойствам, явно недостаточно. Читателю можно рекомендовать работы [Ernst (1980); Kalton and Kish (1981); Ford (1983)]. Ссылки на последние публикации содержатся в [David, Little, Samuhel and Triest (1986)]. в) Замена — метод обработки пропусков на этапе сбора данных при обследовании. Он состоит в замене объекта с отсутствием ответа на другой объект, не включенный в выборку. Например, если невозможен опрос домовладельца, то можно опросить его соседа, не включенного в списки опрашиваемых. Было бы неверно рассматривать получаемую таким образом выборку как полную, поскольку те, кто дает ответы, могут систематически отличаться от тех, кого не удается опросить. Поэтому при анализе следует рассматривать эту замену как заполнение определенного вида. г) Заполнение без подбора (cold deck imputation). Пропуск заполняется постоянным значением из внешнего источника, например значением предыдущего наблюдения из этого же обследования. Как и при замене, полученные данные принято рассматривать как полную выборку, т. е. последствия заполнения игнорируют. Удовлетворительной теории анализа данных, полученных при заполнении без подбора, не существует. д) Заполнение по регрессии (см. также раздел 3.4.3) состоит в заполнении пропусков значениями, предсказываемыми регрессией пропущенных для данного объекта переменных на присутствующие, вычисляемой обычно по комплектным объектам. Заполнение средними можно рассматривать как частный случай заполнения по регрессии, если считать предикторами фиктивные переменные, указывающие группу, внутри которой происходит подстановка средних. Регрессионное заполнение является, по существу, модельным методом. Более подробно оно будет рассмотрено в гл. 12. е) Стохастическое заполнение по регрессии основано на замене пропуска значением, подставляемым при заполнении по регрессии, в сумме с остатком, отражающим неопределенность предсказываемого значения. При нормальной линейной регрессионной модели естественны нормальные остатки с нулевым средним и дисперсией, равной остаточной дисперсии регрессии. При бинарной переменной, как в логистической регрессии, предсказываемое значение — вероятность наблюдения 1 или 0, а подставляемые значения (1 или 0) выбираются с этой вероятностью. Херцог и Рубин [см. Herzog and Rubin (1983)] описывают двухэтапную процедуру, при которой используется стохастическая регрессия для нормальных и бинарных данных. Стохастическая регрессия также относится к модельному подходу и поэтому будет обсуждаться в гл. 12. ж) Составные методы основаны на идеях нескольких методов. Например, можно объединить заполнение с подбором и заполнение по регрессии, вычисляя предсказываемое регрессией значение и добавляя затем остаток, случайно выбираемый из эмпирических остатков для предсказанных величин при формировании значений для подстановки (см., например, гибридную двухшаговую процедуру, приписываемую Шойрену в работе [Schieber (1978)]). В [David, Little, Samuhel and Triest (1986)] проводится сравнение составных методов и подстановки с подбором при пропусках величины заработка в текущем обследовании населения (Current Population Survey). з) При методах многократного заполнения [см. Rubin (1978), (1987)] пропуск заполняется несколькими значениями. Существенный недостаток методов однократного заполнения заключается в том, что обычные формулы приводят для заполненных данных к систематически заниженным оценкам дисперсии оценок, даже если верна модель, применяемая для вычисления подставляемых значений. При многократном заполнении получаются правильные оценки дисперсии, которые можно получать обычными методами анализа полных данных. Методы многократного заполнения обсуждаются в гл. 12. 4.5.2. Заполнение среднимиПусть
где
так что получаемая оценка Мы показали, что для планов с равными весами взвешивание объектов, дающих ответ, по доле отвечающих в каждой группе позволяет получить такие же оценки средних и сумм, как подстановка средних по отвечающим для объектов, не дающих ответ. Это замечание относится и к неравновероятным планам при условии, что выборочные веса отражаются в оценках доли отвечающих и в подставляемых средних. Связи между заполнением пропусков и взвешиванием групп рассматриваются в [Oh and Scheuren (1983); David, Little, Samuhel and Triest (1983); Little (1986)]. Метод заполнения средними реализуется просто, но он обладает нежелательными свойствами, указанными в разделе 3.4.2. Во-первых, правильные оценки дисперсий 4.5.3. Подстановка с подборомПри большинстве методов подстановки с подбором (этот термин пока не стал общепринятым) пропуски заполняются значениями, полученными для другого сходного объекта выборки. Допустим, как и ранее, что извлечена выборка объема
где
где Свойства Допустим, что
Пусть
и
Моменты
При простом случайном выборе и в предположении ОПС о распределении ответов по уравнению (4.5) мы получим
Отметим, что подстановка с подбором ведет к оценкам с большей дисперсией по сравнению с оценкой Дополнительная дисперсия от выборочной подстановки с возвращением, определяемая уравнением (4.18), не является пренебрежимо малой. Ее можно уменьшить, задавая более эффективный план выбора. Допустим, например, что подставляемые значения извлекаются без возвращения. Если
где k — натуральное и
где
Если
и
что всегда меньше соответствующей добавочной компоненты дисперсии Другой метод генерирования значений для заполнения пропусков — последовательный подбор, при котором все объекты располагают в последовательность и пропущенное значение заменяется значением У ближайшего предшествующего в этой последовательности объекта, давшего ответ. Например, если Допустим, что объекты выборки случайно упорядочены и извлечены путем простого случайного выбора, а также что действует бернуллиевский механизм порождения пропусков. Байлар и его соавторы [см. Baijar, Bailey and Corby (1978)] показали, что в этом случае оценка У методом последовательного подбора, скажем
Значит, дисперсия Можно уменьшить дополнительную дисперсию при подстановке с подбором, выбирая подстановку для пропусков с помощью самих значений у для образования выборочных слоев [Bailar and Bailar (1983); Kalton and Kish (1981)]. Самый крайний вид расслоения — упорядочить присутствующие значения Y, а затем систематически выбрать Оценки подстановки с подбором, которые мы обсуждали до сих пор, не смещены только при общем нереальном предположении, что вероятность ответа не связана со значением а) Подстановка с подбором внутри групп. Формируются группы, и пропуски в каждой группе заполняются присутствующими значениями из нее же. При этом выбор групп основывается на тех же соображениях, что и выбор групп для взвешенных оценок. Среднее и дисперсию полученных таким методом оценок У можно найти, применяя приведенные выше формулы отдельно внутри групп, а затем объединяя полученные значения. Поскольку группы формируются по совместным уровням категориальных переменных, они не идеально подходят для переменных в интервальной шкале. б) Подбор ближайшего соседа. Этот подход основан на введении метрики
между объектами объектов подбирается («связанный») контрольный объект [см. Rubin (1973а, b); Cochran and Rubin (1973); Rubin (1976a, b)]. Поскольку подставляемые значения являются довольно сложными функциями от присутствующих признаков, квазирандомизационные свойства оценок в таких процедурах подбора пока мало изучены. Пример 4.3. Последовательный подбор с упорядочением по сопеременной. В [Colledge, Johnson, Рагё and Sande (1978)] описан пример широкого применения метода подбора в обследовании строительных фирм в Канаде. Обследование охватило 50538 фирм, из которых 41432 были подвергнуты анализу. Признаки разделялись на четыре группы: а) полностью присутствующие ключевые показатели по данным об уплачиваемых налогах, включая район, стандартную индустриальную классификацию (SIC), общий доход (GBI), чистый доход (NBI) и показатель заработной платы и годового дохода (SWI); б) основные финансовые показатели по данным об уплачиваемых налогах, часть из которых отсутствовала; в) вторичные финансовые показатели и г) переменные обследования, собранные для различных, но пересекающихся подвыборок, и иногда отсутствовавшие. Только в 908 из 41432 записей была зарегистрирована вся информация о переменных четырех групп, в большинстве записей (34 181) наблюдались только ключевые показатели, в 2316 записях содержались только ключевые и основные финансовые показатели и в 4027 записях содержались ключевые показатели и переменные обследования. Подстановка с подбрром была проведена в несколько этапов. На каждом этапе пропуски в переменных одной группы заполнялись значениями из «донорских» записей, в которых содержались все переменные данной группы. Чтобы подобрать подходящие объекты из числа «доноров», показатели во всех записях были расслоены по провинции (району), по SIC и по SWI. На каждом этапе определялся набор «доноров» (набор подстановок) и набор «кандидатов» (объектов с пропусками). Внутри каждого слоя записи были упорядочены по GBI. При подстановке значений в определенную запись для объекта-кандидата рассматривалось только по 5 доноров с каждой стороны, что давало 10 возможных доноров приблизительно с таким же значением GBI. Из этих десяти возможных доноров выбирался один, минимизировавший функцию расстояния, задаваемую в общем виде как
где ТЕХР = GBI - NBI - суммарные расходы (total expenses), индекс с означает «кандидат», d - «донор». Расстояние измерялось по расходам из-за того, что подстановка требовалась для многих показателей, которые являлись просто детальным разложением расходов или сильно коррелировали с ними. Заметим, что подбор доноров и кандидатов был основан только на ключевых показателях, которые наблюдались полностью. Кроме того, расстояние было обобщено так, чтобы оно зависело, кроме расходов, и от других показателей, и модифицировано для более широкого охвата доноров за счет превращения расстояния в возрастающую функцию от числа включений на данном этапе потенциального донора После того как выбирался донор, пропущенные показатели у кандидата заменялись соответствующими значениями показателей донора. Иногда, чтобы гарантировать выполнение определенных ограничений, были необходимы некоторые преобразования или поправки. Например, допустим, что три неотрицательных показателя
|
1 |
Оглавление
|