Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.3. ОЦЕНИВАНИЕ МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПО НЕПОЛНЫМ ДАННЫМ

Формально говоря, между оцениванием методом максимального правдоподобия по неполным и по полным данным разницы нет: используя неполные данные, получают функцию правдоподобия параметров и находят МП-оценки, решая уравнения максимального правдоподобия. Несколько более проблематичен, однако, вывод асимптотических стандартных ошибок из информационной матрицы, поскольку наблюдения уже не являются в общем случае н. о. р. (независимыми одинаково распределенными) и простые результаты, основанные на асимптотической нормальности функции правдоподобия, непосредственно не применимы. Дополнительные трудности связаны с процессом, который порождает пропуски в данных. При обсуждении этих трудностей мы до некоторой степени поступимся точностью формулировок, чтобы сохранить простоту в обозначениях. Математически строгое обсуждение этих вопросов содержится в [Rubin (1976)], где затронуты частотные подходы, не основанные на правдоподобии.

Как и ранее, обозначим через У данные, которые наблюдались бы при отсутствии пропусков. Тогда где обозначает наблюденные, пропущенные значения. Обозначим вероятность или плотность совместного распределения и Интегрированием по пропущенным данным получим плотность вероятности

Определим правдоподобие от в, основанное на без учета механизма порождения пропусков как любую функцию от в, пропорциональную

С помощью данной функции правдоподобия можно делать выводы относительно в, если механизм порождения пропусков пренебрежим в том смысле, который обсуждается ниже.

В более общем случае мы включаем в модель распределение переменной, указывающей наличие каждого элемента из У. Индикатором пропуска будем называть величину, принимающую значение 1, если данный элемент наблюдается, и 0, если он не наблюдается. Например, если есть -матрица наблюдений над К-мерной переменной, индикатор пропуска будет определяться следующим образом:

В нашей модели рассматривается как случайная переменная и определяется совместное распределение Плотность этого распределения можно задать как произведение плотности распределения У и плотности условного распределения при фиксированном У, т. е.

Будем называть условное распределение при данном Y, зависящее от неизвестного параметра распределением пропусков. В некоторых случаях это распределение известно точно, и параметризация с помощью не нужна.

Фактически наблюдаемые данные состоят из значений переменных Распределение наблюдаемых данных будет получено, если проинтегрировать совместную плотность по

Правдоподобие от и это любая функция, пропорциональная (5.11):

Теперь встает вопрос: когда следует строить выводы относительно в на основе правдоподобия в (5.12), а когда — на основе более простого выражения в (5.10), в котором

ханизм порождения пропусков игнорируется. Заметим, что при независимости распределения пропусков от пропущенных значений при

из (5.11) следует, что

Во многих важных приложениях параметры в и раздельны в том смысле, что совместное параметрическое пристранство есть произведение параметрических пространств для и для Если в и раздельны, то выводы относительно в, основанные на правдоподобии будут совпадать с выводами, основанными на Поэтому, если верно уравнение (5.13), то механизмом порождения пропусков можно пренебрегать — получаемые правдоподобия пропорциональны.

По определению [см. Rubin (1976)] пропущенные данные отсутствуют случайно (ОС), когда выполняется (5.13). Заметим, в частности, что если верно (5.13), то вероятность отсутствия данного элемента не может зависеть от его значения, когда он отсутствует. Уравнение (5.13) — это более точное выражение интуитивного понятия об условии ОС, обсуждавшегося в гл. 1. В практическом отношении важен тот факт, что для эффективного применения методов, основанных на правдоподобии, при которых игнорируют механизм порождения пропусков, требуется выполнение лишь условия ОС, а не более жесткого условия ОПС.

Пример 5.14. Неполная экспоненциальная выборка. Допустим, мы имеем неполную одномерную выборку, в которой присутствует и отсутствует Чтобы конкретизировать наш пример, примем, что экспоненциально распределенные случайные величины. Значит, как в примере 5.2,

Правдоподобие, когда механизм порождения пропусков игнорируется, пропорционально плотности при заданном в, определяемой выражением

В данном примере где

Допустим, что каждый элемент наблюдается с вероятностью так что справедливо (5.13). Тогда

и

Если в раздельны, выводы относительно в можно строить по пренебрегая механизмом порождения пропусков. В частности, МП-оценка в равна просто среднему по присутствующим значениям У.

Теперь предположим, что пропуски в данных образуются вследствие цензурирования в некоторой известной точке с, так что присутствуют только значения, которые меньше с. Тогда

где

Следовательно,

поскольку согласно свойствам экспоненциального распределения. В этом случае механизм порождения пропусков нельзя игнорировать, и точное правдоподобие (5.15) отличается от (5.14). Максимизация (5.15) по в дает ОМП , которая больше по сравнению с ранее найденной оценкой Положительная поправка к выборочному среднему вызвана цензурированием ненаблюдаемых значений.

Пример 5.15. Двумерная нормальная выборка с пропусками в одной переменной. Допустим, мы получили двумерную нормальную выборку, как в примере 5.9, но значения второй переменной отсутствуют. Таким образом, мы имеем

монотонную структуру, как на рис. 1.3. Логарифм правдоподобия, в котором механизм порождения пропусков игнорируется, равен:

Это выражение может служить основой для построения выводов, если распределение (и, в частности, вероятность пропуска не зависит от значений хотя, возможно, зависит от значений и параметр механизма пропусков раздельны. При таких условиях ОМП для можно вычислять, максимизируя (5.16). В гл. 6 описан простой подход к решению этой задачи, основанный на факторизации правдоподобия.

1
Оглавление
email@scask.ru