Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

3.2. АНАЛИЗ КОМПЛЕКТНЫХ НАБЛЮДЕНИЙ

Обработка данных по полным (комплектным) наблюдениям сводится к использованию только тех наблюдений, в которых присутствуют все К переменных. Достоинства этого подхода состоят в 1) его простоте, так как можно непосредственно применять стандартные методы анализа для полных данных, и 2) сравнимости одномерных статистик, так как все они вычисляются по одному множеству наблюдений. Недостатки такого подхода обусловлены потерей информации при исключении неполных наблюдений. Уменьшение объема данных может быть значительным, особенно

при больших К. Например, если и пропуск каждой переменной происходит независимо по закону Бернулли с 10%-ной вероятностью потери данных, то ожидаемая доля полных наблюдений равна значит, будет использовано только присутствующих данных.

Очень важен вопрос — ведет ли выбор комплектных наблюдений к смещениям выборочных оценок. При условии ОПС, введенном в разделе 1.4, выборка полных наблюдений является простой случайной подвыборкой исходной выборки, и исключение неполных данных не приводит к смещению оценок. Однако, как правило, полностью зарегистрированные наблюдения существенно отличаются от выборки в целом. Например, при выборочном обследовании те, кто не прошел последующее обследование, часто чем-то отличаются от тех, кто проходит дальнейшее обследование. В таких случаях анализ по полным данным может привести к сильно смещенным результатам.

Природа этих смещений зависит от механизма порождения пропусков, дающих неполные наблюдения, и от особенностей обработки. Рассмотрим простой пример, когда где У, (возраст) и (доход) — две регистрируемые переменные. Допустим, что могут отсутствовать и и что пропуски зависят только от но не от Точнее, отсутствует, присутствует присутствует, отсутствует и У а присутствуют функции от но не от Допустим, что о таковы, что пропуски при низких и при высоких доходах более вероятны, чем при средних доходах. Тогда частные распределения возраста и дохода искажены чрезмерно большой долей наблюдений, соответствующих людям со средним доходом. Оценки коэффициента корреляции между и параметров регрессии на по полным наблюдениям также смещены. С другой стороны, для линейной регрессии на не будет смещений, обусловленных извлечением подвыборки, поскольку выбор связан только с независимой переменной но не с зависимой переменной Для некоторых задач приемлемы даже менее слабые условия на зависимость между пропусками и значениями переменных. Например, если и дихотомические признаки и требуется сделать выводы об отношении шансов в частотной таблице полученной по то анализ комплектных наблюдений не приведет к смещениям, если логарифм вероятности присутствия значения — аддитивная функция [см. Klein-baum, Morgenstem and Kupper (1981)].

Информацию, которая содержится в исключенных неполных наблюдениях, можно использовать для того, чтобы исследовать, являются ли полные наблюдения случайной подвыборкой исходной выборки, т. е. допустимо ли предположение ОПС. Простой способ проверки этой гипотезы — сравнить распределение отдельной переменной для полных наблюдений с распределением для тех неполных наблюдений, в которых присутствует Объемы выборок часто настолько малы, что возможно сравнивать лишь характеристики типа средних, как в программе [см. Dixon (1983)]. Значимое различие указывает на то, что условие ОПС неприемлемо и что анализ по полным наблюдениям приводит к смещенным оценкам. Такие тесты полезны, но они ограничены по мощности, когда выборка для неполных наблюдений мала. К тому же такие тесты не могут непосредственно подтверждать справедливость условия ОС.

Для уменьшения смещений при выборе полных наблюдений применяют метод, при котором перед обработкой каждому полному наблюдению присваивают некоторый вес. Такой способ особенно распространен в выборочных обследованиях, в частности при анализе с полным отсутствием данных о части объектов, т. е. когда объекты не участвовали в обследовании. При присваивании весов можно использовать информацию, известную как об опрошенных, так и о неопрошенных, например данные о месте проживания. Способ выбора подходящих весов мы обсудим в гл. 4.

1
Оглавление
email@scask.ru