Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

3.4. ЗАПОЛНЕНИЕ ПРОПУСКОВ

3.4.1. Введение

В методах полных наблюдений и доступных наблюдений данные с пропусками не используются при оценивании маргинального распределения или мер связи (корреляции) между и другими признаками. Допустим, что в наблюдении с пропущенным присутствует значение переменной сильно коррелирующей с Естественно попытаться предсказать значение по и затем включить эту подстановку (или заполненный пропуск) в анализ по переменной

Заполнение — это общий и гибкий метод решения задач при наличии пропусков в наблюдениях. Тем не менее ему присущи недостатки. В [Dempster and Rubin (1983)] отмечается: «Идея заполнения и соблазнительна, и опасна. Исследователь может успокоиться и прийти к приятному выводу, что в конце концов его данные не содержат пропусков. Опасность этого подхода в том, что он не позволяет отличать ситуации, где задача не очень трудна и может быть корректно решена таким способом, от ситуаций, где обычные оценки по реальным и подставленным данным сильно смещены». В разделе 3.4 мы обсудим некоторые простые методы заполнения и задачу оценивания среднего и ковариационной матрицы по заполненным данным.

3.4.2. Заполнение безусловными средними

Самый простой вид. заполнения — это оценка отсутствующих значений средним по присутствующим значениям переменной Ясно, что среднее наблюдаемых и подставленных значений равно оценке методом доступных наблюдений. Дисперсия наблюденных и подставленных значений равна

где оценка дисперсии методом доступных наблюдений. При условии состоятельная оценка истинной дисперсии, так что выборочная дисперсия для данных после заполнения — заниженная в раз оценка дисперсии. Это занижение — естественное следствие заполнения пропусков значением в центре распределения. Выборочная ковариация по заполненным данным равна где определена с помощью уравнения (3.5). Поскольку состоятельная оценка ковариации при ОПС, оценка по заполненным данным занижает ковариацию в раз. Значит, несмотря на положительную полуопределенность оценки ковариационной матрицы по заполненным данным, дисперсии и ковариации оцениваются смещенно с занижением. Очевидные поправки для дисперсии и ковариации соответственно, дают оценки (3.5), в общем случае неудовлетворительные, как указано в разделе 3.3.

3.4.3. Заполнение условными средними. Метод Бака

Более перспективным способом заполнения пропусков выглядит подстановка средних, условных по присутствующим в наблюдении переменным. Если переменные распределены по многомерному нормальному закону со средним и ковариационной матрицей то регрессия пропущенных значений в данном наблюдении линейна по присутствующим значениям с коэффициентами, которые являются хорошо известными функциями от и Е. В методе, предложенном Баком [см. Buck (1960)], сначала оценивают выборочными средним и ковариационной матрицей по полным наблюдениям, а затем используют эти оценки для вычисления линейной регрессии пропущенных переменных по присутствующим для каждого наблюдения. Подставляя значения переменных, присутствующих для данного наблюдения, в регрессионное уравнение, получаем прогноз пропущенных переменных для этого наблюдения.

Вычисление регрессионных уравнений для различной структуры пропусков может показаться затруднительным, но на деле оно относительно просто, если использовать оператор свертки, обсуждаемый в разделе 6.5.

Метод Бака для двух переменных проиллюстрирован на рис. 3.1. Точки, отмеченные знаком соответствуют наблюдениям с обеими присутствующими переменными. По этим точкам методом наименьших квадратов вычисляются прямые регрессии на скажем где индекс с означает полные наблюдения. Наблюдения с присутствием Y, и пропуском представлены кружочками на оси Бак заменяет их точками, лежащими на прямой регрессии. Если бы наблюдения были с пропусками и присутствием то после заполнения они расположились бы на прямой регрессии У, на другой прямой на диаграмме.

Рис. 3.1. Метод Бака для двух переменных

Средние по присутствующим и подставленным с помощью этого метода значениям — состоятельные оценки средних при ОПС и слабых предположениях относительно моментов распределения [см. Buck (1960)]. Они состоятельны, когда механизм порождения зависит от наблюдаемых переменных, хотя в этом случае для состоятельности оценок нужны дополнительные условия. Допустим, для данных на рис. 3.1 присутствие зависит от У, так, что выполняется условие ОС, несмотря на то, что распределение У, для полных и неполных наблюдений различно. В методе Бака неполные наблюдения проецируются на регрессионную прямую. При этом используется предположение о линейности регрессии на Это предположение особенно сомнительно, если заполнение включает экстраполяцию за границы для полных данных, как для двух неполных наблюдений с наибольшим и наименьшим значениями У, на рис. 3.1.

Данные, заполненные по методу Бака, обеспечивают разумные оценки средних, в частности, если приемлемо предположение о нормальности наблюдений. Выборочная ковариационная матрица по заполненным данным занижает величину дисперсий и ковариаций, хотя и не так сильно, как при подстановке безусловных средних.

рассмотрим, например, выборочную дисперсию полученную по заполненным данным на рис. 3.1. Выражая дисперсию как сумму дисперсии среднего при фиксированном У, и ожидаемой дисперсии при заданном получаем

где коэффициент регрессии на часть дисперсии, объясняемая регрессией на остаточная дисперсия. Разброс подставляемых значений включает компоненту дисперсии но при этом приравнивает компоненту нулю, поскольку подставляемые значения лежат точно на прямой. Следовательно, выборочная дисперсия вычисленная по реальным значениям вместе с подставленными значениями, смещена и занижает на где число пропусков Заметим, что величина смещения мала, когда У, дает хороший прогноз в том смысле, что мало по сравнению с Однако смещение не стремится к нулю при увеличении если только доля пропусков не стремится к нулю, т. е. эта оценка как правило, несостоятельна.

В общем случае выборочная дисперсия по данным, заполненным по методу Бака, — оценка заниженная на где остаточная дисперсия от регрессии на присутствующие в наблюдении переменные, когда у пропущен, и нуль, когда у у присутствует. Выборочная ковариация смещена на Здесь остаточная ковариация от многомерной регрессии на присутствующие в наблюдении переменные, когда пропущены и нуль — в противном случае. Состоятельную оценку можно получить при условии ОПС, подставляя состоятельные оценки (например, оценки, вычисленные, если позволяет объем выборки, по выборочной ковариационной матрице для полных наблюдений) в выражения для смещений, а затем добавляя полученные величины к выборочной ковариационной матрице для заполненных данных. Этот метод тесно связан с одной итерацией алгоритма для метода максимального правдоподобия, описанного в разделе 8.2, и в отличие от поправок на заполнение безусловными средними он не сводится к оценкам доступных наблюдений из раздела 3.3.

На первый взгляд кажется, что для регрессионного заполнения методом Бака нужно, чтобы переменные измерялись на интервальной шкале. Однако этот метод можно применить и к категориальным переменным, заменяя каждую из них набором фиктивных переменных, причем их число на единицу меньше числа категорий. Если категориальная переменная присутствует полностью, то при методе Бака фиктивные переменные входят в регрессионное уравнение только как независимые переменные, и проблем не возникает. Если часть ее значений пропущена, то набор фиктивных переменных будет входить в регрессии и как зависимые переменные. Тогда подстановки по регрессии — это линейная оценка вероятности попадания в категорию, представленную фиктивной переменной. Здесь трудности могут возникать из-за того, что для прогноза этих вероятностей используется линейная регрессия, а значит, предсказанные значения могут выйти за пределы Следовательно, применимость метода Бака ограничена при наличии категориальных данных.

3.4.4. Другие подходы

Если мы примем условие ОПС и будем пренебрегать разбросом оценок и по полным наблюдениям, то условные средние из раздела 3.4.3 будут наилучшими точечными оценками пропущенных значений в смысле минимизации ожидаемой квадратичной ошибки. Однако, как мы видели, даже в этих условиях для состоятельности оценок дисперсии по заполненным данным требуются поправки. Вообще говоря, маргинальные распределения для заполненных данных искажаются при подстановке средних. Влияние этих искажений особенно сильно, когда исследуются «хвосты» распределений или стандартные ошибки оценок. Например, при подстановке условных средних вместо пропущенных данных о доходе следует ожидать занижения доли людей, чей доход за чертой бедности.

Эти обстоятельства служат основанием для поиска другого подхода, когда подстановки выбираются случайным образом из всего распределения допустимых значений, а не из его центра. Один из путей реализации этой идеи — добавление к условному среднему подходящих возмущений. Методы такого типа часто используются в выборочных обследованиях. Мы отложим их обсуждение до гл. 4 и 12.

В целом трудно рекомендовать какой-либо из обсуждавшихся простых методов, поскольку 1) они ненадежны; 2) для них часто требуется введение специальных поправок, чтобы получить удовлетворительные оценки; 3) трудно определить ситуации, когда эти методы приемлемы, а когда — нет. Кроме того, с помощью этих методов нельзя получить простые верные решения, если требуется установить точность оценок, как при интервальном оценивании. В гл. 2 мы видели это в частном случае пропусков в одной переменной.

Главной целью этой книги (гл. 5—12) является целостное описание методов обработки данных с пропусками, основанных на построении статистической модели порождения данных и пропусков. Методы, базирующиеся на этой теории, надежны в том смысле, что в четко оговоренных условиях они обладают оптимальными статистическими свойствами, по меньшей мере асимптотически. Эти методы не требуют специальных поправок ни для точечных, ни для интервальных оценок, и ситуации, в которых они применимы, явно задаются описанием моделей. На практике мы редко знаем точную модель, поэтому можно пытаться перебирать различные модели.

ЛИТЕРАТУРА

(см. скан)

ЗАДАЧИ

(см. скан)

1
Оглавление
email@scask.ru