11.3. МОДЕЛИ С ИЗВЕСТНЫМИ НЕИГНОРИРУЕМЫМИ МЕХАНИЗМАМИ ПОРОЖДЕНИЯ ПРОПУСКОВ: ГРУППИРОВАННЫЕ И ОКРУГЛЕННЫЕ ДАННЫЕ
С помощью ЕМ-алгоритма можно получать МП-оценки по данным, в которых некоторые наблюдения сгруппированы в категории, хотя можно применять и традиционные алгоритмы, обсуждаемые, например, в [Kulldorf (1961)]. Использование ЕМ-алгоритма демонстрируется в следующих трех примерах.
Пример 11.1. Сгруппированная экспоненциальная выборка. Допустим, что гипотетические полные данные являются случайной выборкой из экспоненциального распределения со средним 0. Пусть в действительности известны значения наблюдениях. Остальные значений сгруппированы по категориям, таким, что категория содержит значения Y, лежащих между Эта постановка включает случай цензурирования, когда как и ситуацию, когда и все данные представлены в сгруппированном виде.
В данном примере надо обобщить бинарный индикатор пропусков до переменной с значениями. Точнее, положим если известно точно, и если у: попадает в категорию, т. е. лежит между
Гипотетические полные данные относятся к регулярному экспоненциальному семейству с достаточной статистикой полных данных Следовательно, шаг ЕМ-алгоритма на итерации состоит в вычислении
где предсказываемые значения у, равны:
по определению экспоненциального распределения. Интегрируя по частям, получаем
На шаге вычисляют
Предсказываемое значение для наблюдения, цензурированного в получают, полагая дает
Если все наблюдений цензурированы, то можно найти явные МП-оценки. Объединяя шаги получим
Полагая и решая уравнение относительно в, имеем
В частности, если для всех т. е. точка цензурирования у всех наблюдений одинакова, то
что совпадает с оценкой, выведенной непосредственно в примере 5.14.
Пример 11.2. Группированные данные из нормального распределения с сопеременными. Допустим, данные по переменной сгруппированы таким же способом, что и в примере 11.1, но теперь гипотетические полностью присутствующие значения — независимые наблюдения из нормальной линейной регрессии на полностью наблюдаемые сопеременные т. е. значение у в наблюдении распределено нормально со средним и
постоянной дисперсией Достаточные статистики полных данных есть Отсюда на шаге ЕМ-алгоритма вычисляют
где текущая оценка это поправки на неигнорируемые пропуски. В данном случае они имеют вид
где и плотность и функция стандартного нормального распределения, и
для наблюдения в -категории или, что эквивалентно,
На шаге вычисляют регрессию У на используя ожидаемые значения достаточных статистик, найденные на шаге Эта модель применялась в [Hasselblad, Stead and Galke (1980)] при регрессионном анализе логарифма содержания свинца в крови по сгруппированным данным.
Пример 11.3. Цензурированные нормальные данные с сопеременными (тобит-модель). Важный частный случай предыдущего примера; положительные значения У присутствуют полностью, а отрицательные цензурируются, т. е. могут находиться в произвольных точках интервала . В обозначениях примера 11.2 все присутствующие положительны, Для цензурированных наблюдений и отсюда
где (величина, обратная к так называемому отношению Милса), а поправка на цензурирование.
Подставляя МП-оценки параметров, получаем прогноз значений
для цензурированных наблюдений, где Эту модель в эконометрической литературе [см. Amemiya (1984)] иногда называют тобит-моделью в связи с ее применением в эконометрии [Tbbin (1958)].