11.3. МОДЕЛИ С ИЗВЕСТНЫМИ НЕИГНОРИРУЕМЫМИ МЕХАНИЗМАМИ ПОРОЖДЕНИЯ ПРОПУСКОВ: ГРУППИРОВАННЫЕ И ОКРУГЛЕННЫЕ ДАННЫЕ
С помощью ЕМ-алгоритма можно получать МП-оценки по данным, в которых некоторые наблюдения сгруппированы в категории, хотя можно применять и традиционные алгоритмы, обсуждаемые, например, в [Kulldorf (1961)]. Использование ЕМ-алгоритма демонстрируется в следующих трех примерах.
Пример 11.1. Сгруппированная экспоненциальная выборка. Допустим, что гипотетические полные данные являются случайной выборкой
из экспоненциального распределения со средним 0. Пусть в действительности известны значения
наблюдениях. Остальные
значений сгруппированы по
категориям, таким, что
категория содержит значения Y, лежащих между
Эта постановка включает случай цензурирования, когда
как и ситуацию, когда
и все данные представлены в сгруппированном виде.
В данном примере надо обобщить бинарный индикатор пропусков
до переменной с
значениями. Точнее, положим
если
известно точно, и
если у: попадает в
категорию, т. е. лежит между
Гипотетические полные данные относятся к регулярному экспоненциальному семейству с достаточной статистикой полных данных
Следовательно, шаг
ЕМ-алгоритма на
итерации состоит в вычислении
где предсказываемые значения у, равны:
по определению экспоненциального распределения. Интегрируя по частям, получаем
На шаге
вычисляют
Предсказываемое значение для наблюдения, цензурированного в
получают, полагая
дает
Если все
наблюдений цензурированы, то можно найти явные МП-оценки. Объединяя шаги
получим
Полагая
и решая уравнение относительно в, имеем
В частности, если для всех
т. е. точка цензурирования у всех наблюдений одинакова, то
что совпадает с оценкой, выведенной непосредственно в примере 5.14.
Пример 11.2. Группированные данные из нормального распределения с сопеременными. Допустим, данные по переменной
сгруппированы таким же способом, что и в примере 11.1, но теперь гипотетические полностью присутствующие значения
— независимые наблюдения из нормальной линейной регрессии на полностью наблюдаемые сопеременные
т. е. значение у в
наблюдении распределено нормально со средним
и
постоянной дисперсией
Достаточные статистики полных данных есть
Отсюда на шаге
ЕМ-алгоритма вычисляют
где
текущая оценка
это поправки на неигнорируемые пропуски. В данном случае они имеют вид
где
и
плотность и функция стандартного нормального распределения, и
для
наблюдения в
-категории
или, что эквивалентно,
На шаге
вычисляют регрессию У на
используя ожидаемые значения достаточных статистик, найденные на шаге
Эта модель применялась в [Hasselblad, Stead and Galke (1980)] при регрессионном анализе логарифма содержания свинца в крови по сгруппированным данным.
Пример 11.3. Цензурированные нормальные данные с сопеременными (тобит-модель). Важный частный случай предыдущего примера; положительные значения У присутствуют полностью, а отрицательные цензурируются, т. е. могут находиться в произвольных точках интервала
. В обозначениях примера 11.2 все присутствующие
положительны,
Для цензурированных наблюдений
и
отсюда
где
(величина, обратная к так называемому отношению Милса), а
поправка на цензурирование.
Подставляя МП-оценки параметров, получаем прогноз значений
для цензурированных наблюдений, где
Эту модель в эконометрической литературе [см. Amemiya (1984)] иногда называют тобит-моделью в связи с ее применением в эконометрии [Tbbin (1958)].