Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

11.4. МОДЕЛИ СТОХАСТИЧЕСКОГО ЦЕНЗУРИРОВАНИЯ

11.4.1 МП-оценивание моделей стохастического цензурирования

Интересные обобщения модели в примере 11.3 сопряжены с переменной с пропусками, связанной линейной регрессией с сопеременными, как и в примере 11.3, и наблюдаемой, если и только если значение другой полностью отсутствующей переменной превышает некоторый порог (например, нуль). Общая формулировка дана в следующем примере.

Пример 11.4. Модель двумерного нормального стохастического цензурирования. Допустим, что У, наблюдается не полностью, совсем не наблюдается, сопеременных X наблюдаются полностью и для объекта определяется выражением

где постоянный член предикторы для объекта, векторы коэффициентов регрессии, некоторые из них могут быть априори приравнены нулю, обозначает двумерное нормальное распределение со средним и ковариационной матрицей с. Далее, определяется как вырожденное распределение:

где индикатор пропусков равный если присутствует, и если отсутствует.

Для этой модели подходит и другой вариант факторизации (11.3), в которой приведено интегрирование по относится только к пропускам Пусть означает множество значений Из (11.6) и (11.7) получаем, что распределение

при заданных бернуллиевское с вероятностью присутствия значения объекта, равной

При эта вероятность является монотонной функцией значения которой иногда отсутствуют. Отсюда по теории гл. 7 механизм порождения пропусков неигнорируем. Если, напротив, раздельны, то механизм пропусков игнорируем, и МП-оценки можно получать методом наименьших квадратов для линейной регрессии по полным наблюдениям.

Эту модель ввел Хекман [Heckman (1976)], чтобы описать отбор женщин при приеме на работу. В [Amemiya (1984)] она названа то-бит-моделью типа II. Заметим, что тобит-модель из примера 11.3 получается при

Для этой модели были предложены две процедуры оценивания — МП-оценивание и двухшаговый метод, введенный в [Heckman (1976)]. Первоначально МП-оценки предлагалось получать с помощью алгоритма, приведенного в [Berndt, Hall, Hall and Hausman (1974)]. Мы опишем ЕМ-алгоритм для случая, когда на коэффициенты не наложены ограничения. Будем считать, что гипотетические полные данные — это наблюдения с присутствием Тогда достаточные статистики полных данных равны Ъупуа, при Поскольку все присутствуют, шаг состоит в замене отсутствующих упуа и на их математические ожидания при заданных параметрах и присутствующих данных. Из свойств двумерного нормального распределения получаем:

В этих выражениях 1) определена в примере 11.3; 2) не указано явно, что ожидание условно по и параметрам; 3) относится к наблюдениям с пропуском и к наблюдениям с пропуском только Вычисления на шаге проводятся после подстановки текущих оценок параметров.

На шаге проводят следующие операции с оценками достаточных статистик для полных данных, полученными на шаге Е:

1) вычисляют регрессию на X, что дает коэффициенты для уравнения пропусков;

2) вычисляют регрессии на X, что дает коэффициенты 8 для для X и остаточную дисперсию

3) полагают

Если на коэффициенты наложены ограничения, то на шаге нужны итеративные вычисления, и алгоритм теряет свою простоту.

11.4.2. Чувствительность МП-оценок к отклонению от нормальности

В модели примера 11.4 прогноз отсутствующего значения определяется таким образом:

где Заметим, что поправка на цензурирование — зависит от оценки корреляции Этой оценки нет в уравнении прогноза (11.5) для «чистой» модели цензурирования в примере 11.3. Таким образом, несмотря на то, что никогда не наблюдаются совместно, корреляцию надо уметь оценивать.

Следующие предположения о модели дают информацию которую можно использовать для МП-оценивания: 1) априорные ограничения на коэффициенты и и 2) предположения о нормальности при заданном в исходной популяции. Чтобы показать роль второго предположения, рассмотрим модель при отсутствии сопеременных, когда постоянный член. На рис. 11.1 дано распределение У, в исходной популяции и в популяции наблюдений без пропуска. Последнее распределение отнормировано так, чтобы показать «остаток» от истинного распределения. По предположению исходное распределение У, — нормальное.

Рис. 11.1. Модель нормального стохастического цензурирования в выборке

Распределение присутствующих значений скошено за счет стохастического цензурирования, если Имея выборку присутствующих значений, можно оценить по степени отклонения выборки от нормальности. Другими словами, пропуски заполняются таким образом, чтобы выборка без пропусков была максимально близка к нормальной. Ясно, что эта процедура целиком основана на предположении о нормальности значений в исходной популяции, которое невозможно проверить. При отсутствии сведений об этом распределении с таким же успехом может оказаться верным предположение, что отсутствующие значения имеют то же скошенное распределение, что и наблюдаемые значения на рис. 11.1. Если эта гипотеза действительно верна, то поправка на избирательность в нормальной модели скорее добавит смещение, чем устранит его. Следующий пример иллюстрирует это.

Пример 11.5. Пропуски в данных о размере дохода в текущем обследовании населения. В [Lillard, Smith and Welch (1982), (1986)] модель из примера 11.4 применялась для анализа пропусков значений дохода по данным четырехкратного опроса о размерах дохода при текущих обследованиях населения (Current Population Survey, CPS) в 1970, 1975, 1976 и 1980 гг. Выборка 1980 г. состояла из 32879 белых работающих городских жителей мужского пола от 16 до 65 лет, подтвердивших получение заработной платы или жалованья (но не обязательно его размер и не занятых индивидуальной трудовой деятельностью. Из них 27909 сообщили значение а 4970 не сообщили. В обозначениях примера равно по определению где у — показатель степенного преобразования, предложенного в [Box and Сох (1964)]. Предикторы X были выбраны такими:

1) постоянный член;

2) образование (5 фиктивных переменных — по сроку обучения: 8, 9—11, 12, 13-15, 16+);

3) стаж (4 переменные по интервалам:

4) вероятность иметь стаж меньше года ;

5) район (юг или другой район);

6) ребенок главы семьи (1 — да, нет);

7) другой родственник главы семьи или член другой родственной семьи (да, нет);

8) опрашивался лично или нет (1 — да, 0 - нет);

9) срок участия в обследовании (1 или 2 года).

Последние четыре переменные были исключены из «уравнения доходов», т. е. соответствующие члены в были приравнены к нулю. Переменные образования, стажа и района были исключены из «уравнения пропусков» — соответствующие коэффициенты в были приравнены нулю.

Таблица 11.1. (см. скан) Оценки коэффициента регрессии логарифма дохода на сопеременные (по данным 1980 г.)

В большинстве эмпирических исследований модель строят для логарифма дохода. Такое преобразование получается при . В табл. 11.1 показаны оценки коэффициентов регрессии для логарифма размера дохода, вычисленные 1) обычным методом наименьших квадратов (МНК) по ответившим при предположении, что пропуски, по сути, игнорируемы и 2) методом максимального правдоподобия (ММП) для модели примера 11.4. МП-оценка составила что соответствует положительной поправке на цензурирование размеров дохода (см. (11.9)). Коэффициенты регрессии для МНК и ММП в табл. 11.1 сходны, хотя разница свободных членов для МНК и ММП на логарифмической шкале) означает примерно -ную разницу прогноза размера дохода для неигнорируемых пропусков, что является довольно существенной поправкой.

Таблица 11.2. (см. скан) Максимум логарифма правдоподобия как функция у и соответствующие значения

В [Lillard, Smith and Welch (1982)] было подобрано несколько моделей стохастического цензурирования при различных значениях у. В табл. 11.2 приведены значения максимума логарифма правдоподобия при трет значениях, а именно при (логарифм), при 1 (тождественное преобразование) и при 0,45, и МП-оценки для случайной подвыборки из данных. Максимум правдоподобия намного больше при чем при или что указывает на плохое соответствие модели нормального цензурирования для исходных и для логарифмированных значений размера дохода.

В табл. 11.2 показаны также значения как функции у. Земетим, что при отрицателен, т. е. распределение дохода по ответившим скошено в левую сторону, и значения дохода для отказавшихся отвечать должны быть большими, чтобы заполнять правый хвост. Напротив, при положителен и распределение по ответившим скошено направо, а значения дохода для отказавшихся отвечать должны быть малыми, чтобы заполнить левый хвост. Таким образом, таблица отражает чувствительность поправки к асимметрии распределения преобразованного дохода по ответившим.

Наилучшая модель из [Lillard, Smith and Welch (1982)] с предсказывает большие доходы для отказывающихся отвечать, в среднем на 73% больше подстановок, предлагаемых Бюро переписи, которые выбирались методом подстановки с подбором в предположении игнорируемости пропусков. Как отметил Рубин [Rubin (1983)], эта большая поправка вычислена в соответствии с предположением о нормальности значений в популяции при Вполне вероятно, что пропуски можно игнорировать и что распределение значений среди неответивших такое же (скошенное), асимметричное, как и среди ответивших. Действительно, сравнение подстановок, предлагаемых Бюро переписи, со значениями, взятыми из данных о доходе при проведении файлового подбора для файлов CPS/IRS, не обнаруживает существенного занижения оценки [David, Little, Samuchel and Triest (1986)].

11.4.3. Двухшаговый метод Хекмана

Процедура определения параметров модели, предложенная в [Heckman (1976)], не дает МП-оценок. В ней требуются намного более простые вычисления по сравнению с МП-оцениванием. Этому свойству обязана широкая распространенность этой процедуры. Основу процедуры Хекмана в большой степени составляют не поддающиеся проверке предложения об априорных нулях в векторах регрессионных коэффициентов Это может привести к сильно искаженным результатам, если эти предположения неверны. Поэтому применять метод надо с большой осторожностью.

При описании метода удобно использовать разные обозначения для предикторов и для предикторов Пусть обозначает подмножество сопеременных X, которые по предположению должны предсказывать значит, наличие пропуска), а соответствующий подвектор ненулевых значений в Аналогично сопеременные предикторы и подвектор ненулевых значений в Тогда из моделей (11.6) и (11.7) следует, что

и

где обозначают значения объекта. Отсюда состоятельные оценки получаются так: 1) оценить величиной по пробит-регрессии на с помощью всей выборки; 2) оценить по МНК-регрессии на и на с помощью выборки с присутствующими значениями. Это и есть двухшаговый метод Хекмана. Можно сформулировать немного более эффективные варианты метода, заменяя на втором шаге МНК на обобщенный метод наименьших взвешенных квадратов.

Двухшаговый метод «не работает» при отсутствии сопеременных пропуска, поскольку если постоянная для всех то также постоянная, которая смешивается с постоянным членом в (11.11). Если неодинаковы для различных объектов, но подмножество переменных то параметры в (11.11) идентифицируемы только благодаря нелинейности преобразования Для работоспособности метода на практике необходимо, чтобы в были переменные, которые являются хорошими предикторами наличия пропуска и отсутствуют в т. е. не связаны с когда остальные переменные фиксированы. Например, в примере 11.5 предполагается, что переменная «ребенок главы семьи» влияет на наличие ответа, но не связана с доходом. Однако едва ли можно поверить в такое отсутствие связи, поскольку эта переменная может быть «законным» предиктором дохода, не включенным в Если она связана с доходом, то поправки на неигнорируемые пропуски могут оказаться ложными.

Последний столбец в табл. 11.1 показывает результаты применения двухшагового метода к данным примера 11.5. Самое сильное отличие этого метода от ММП проявляется в большем свободном члене (10,0373 вместо 9,0816), что означает, что предлагаемые значения примерно на 60% больше, чем при МНК. Это не слишком правдоподобная поправка. Лилард и др. [Lillard, Smith and Welch (1982)] обнаружили также на данных заметную нестабильность двухшаговых оценок в зависимости от выборки. Литтл [Little (1985а)] пытается объяснить эту нестабильность и приводит обсуждение предположений для этого метода.

Рассматривались также другие варианты модели нормального стохастического цензурирования, в которых пробит-модель пропуска заменяется на равномерную [Olsen (1980)] и логистическую модели [Olsen (1980); Greenlees, Reece and Zieschang (1982)]. Последняя из этих работ касается пропусков значений дохода в текущем обследовании населения CPS. Естественно, оценки в этих моделях также чувствительны к выбору априорных нулей в и (32 (см. задачу 6).

1
Оглавление
email@scask.ru