где
получается интегрированием плотности
по
Было показано, что выводы относительно в, основанные на (11.1), эквивалентны МП-оцениванию по (11.2), если 1) пропущенные данные
при любых
и
взятых при наблюденных значениях
и 2) параметры
и в раздельны в соответствии с определением в разделе 5.3. Все примеры в гл. 6—10 касались моделей с правдоподобием в виде (11.1) и, значит, были основаны на предположении о справедливости условий 1) и 2). В этой главе мы обсуждаем модели, в которых не выполняется ОС, и для МП-оценивания надо иметь модель механизма пропусков и максимизировать полное правдоподобие (11.2).
Важно различать модели, в которых механизм порождения пропусков неигнорируем, но известен, в том смысле, что распределение
при заданных
зависит от
но не зависит от неизвестного параметра
и модели, в которых механизм порождения пропусков неигнорируем и неизвестен, что отражается в незнании параметра
Простым примером известного неигнорируемого механизма является цензурированная экспоненциальная выборка, ведущая к правдоподобию (5.15). Так как в этом случае значения отсутствуют, если они больше известного цензурирующего значения с, то распределение
при заданном У полностью определено. Другие примеры с известным неигнорируемым механизмом даны в разделе 11.3. В этих случаях МП-оценки часто можно вычислять с помощью ЕМ-алгоритма. В разделе 11.2 обсуждается ЕМ-алгоритм в общем случае известного или неизвестного неигнорируемого механизма.
Разделы 11.4-11.6 посвящены моделям с неигнорируемым механизмом порождения пропусков и неизвестным
Это значит, что пропуск считается связанным со значениями У некоторым лишь частично известным образом, даже после учета сопутствующей информации X об объектах с пропусками и без пропусков. Большинство рассматриваемых в литературе моделей такого типа относятся к случаю пропусков только в одной переменной. Например, У может быть размером дохода, X — множеством полностью зарегистрированных переменных, таких, как возраст, пол, образование, и можно предполагать, что отсутствие ответа на вопрос о доходе среди людей с одинаковым значением X зависит от размера дохода, но точно эта зависимость неизвестна.
Можно сформулировать два подхода к моделям с неигнорируемыми пропусками. Как и в разделе 5.3, мы можем записать совместное распределение
в виде
где первая компонента характеризует распределение У при заданном X в популяции, а вторая — моделирует присутствие ответа
как функцию
. С другой стороны, можно записать
где первая плотность характеризует распределение
при заданном
в слое, определяемом структурой пропусков, а вторая моделирует распределение структур пропусков как функцию только от
Обратите внимание: когда пропуски есть только в одной переменной, так что
принимает значения
и 1, мы обычно не располагаем данными, по которым можно было бы оценить распределение
в (11.4), поскольку это распределение относится к объектам с пропуском. Формулировка модели в виде (11.4) позволяет явно увидеть основную трудность, связанную с пропусками в данных. Для успешного развития теории надо уметь связывать распределение
для объектов с пропуском с соответствующим распределением
для объектов без пропуска. В разделе 11.5 это достигается за счет использования байесовского априорного распределения, связывающего параметры двух распределений.
Формулировка (11.3) применяется для моделей, обсуждаемых в разделах 11.3 и 11.4. Мы увидим, что в некоторых случаях параметры модели можно оценить, не включая в явном виде информацию, связывающую объекты с пропуском и объекты без пропуска, в отличие от моделей, основанных на (11.4). Однако данное свойство обманчиво, поскольку здесь эта информация задается неявно. Следовательно, для обоих вариантов, (11.3) и (11.4), чувствительность к формулировке модели является в одинаковой степени серьезной научной проблемой. Во многих приложениях исследователю нужно вычислять оценки для нескольких различных моделей порождения пропусков, а не полагаться исключительно на одну модель.