Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

7.3. ОПИСАНИЕ ЕМ-АЛГОРИТМА

Описание шага совсем просто: «Проводить максимально правдоподобное оценивание 6 так, как будто нет пропусков, т. е. как будто они заполнены». Таким образом, на шаге ЕМ-алгоритма используются те же вычислительные методы, что и при МП-оценивании по

На шаге находят условное ожидание «пропущенных данных» при фиксированных наблюденных данных и текущих оценках параметров, а затем заменяют «пропущенные данные» найденными ожидаемыми значениями. «Пропущенные данные» взяты в кавычки, так как на практике в ЕМ-алгоритме не обязательно происходит действительное заполнение пропусков. Ключевая идея ЕМ-алгоритма, оформившаяся из частной идеи итеративного заполнения пропусков, состоит в том, что «пропущенные данные» — это не а функции от входящие в логарифм правдоподобия для полных данных, т. е.

Точнее, пусть текущая оценка параметра 6. На шаге ЕМ-алгоритма находят ожидаемый логарифм правдоподобия при условии

На шаге ЕМ-алгоритма определяют максимизируя этот ожидаемый логарифм правдоподобия:

Пример 7.1. Одномерные нормальные данные. Допустим, что по где наблюдаются, отсутствуют, и предположим, что выполняется ОС. Ожидаемое значение каждого пропуска у, при заданных и равно При этом, согласно примеру 5.1, логарифм правдоподобия для всех линеен по достаточным статистикам и Значит, на шаге алгоритма получаются значения

для текущих оценок параметров. Заметьте, что простая подстановка вместо пропусков привела бы к отсутствию в (7.6) члена

Для полных данных равна а это На шаге используются эти же выражения с текущими ожиданиями достаточных статистик, вычисленными на шаге и подставляемыми вместо не полностью наблюдаемых достаточных статистик. Следовательно, на шаге вычисляются

Полагая в уравнениях получаем, что итерации сходятся к

и

ОМП параметров по при условии ОС. Конечно, в этом примере ЕМ-алгоритм не нужен, поскольку можно получить ОМП в явном виде.

Пример 7.2. Полиномиальный случай. Этим примером начиналось описание ЕМ-алгоритма во введении к [Dempster, Laird and Rubin (1977)]. Пусть постулируется, что вектору данных наблюденных частот соответствует полиномиальное распределение с вероятностями Ставится цель найти Определим как полиномиальную случайную переменную с вероятностями где Заметим, что если бы наблюдались «полные данные» была бы получена немедленно:

Заметим, также, что логарифм правдоподобия линеен по 0, так что поиск математического ожидания при заданных и включает те же вычисления, которые требуются для определения математического ожидания при заданных и когда, по существу, происходит подстановка оценок пропущенных значений:

Таким образом, на итерации мы имеем на шаге при оценке

а на шаге согласно (7.9)

Итеративное повторение шагов (7.10) и (7.11) и определяет ЕМ-алгоритм для этой задачи. На деле, полагая и объединяя два уравнения, мы получим квадратное уравнение относительно значит, явное решение для ОМП. В табл. 7.1 показано, как последовательность значений оценок в ЕМ-алгоритме сходится к этому решению с начальной точки

Пример 7.3. Двумерное нормальное распределение с пропусками в обеих переменных. Простой, но нетривиальный пример ЕМ-алгоритма возникает в случае двумерного нормального закона с общей структурой пропусков: в первой группе объектов наблюдается но отсутствует во второй группе наблюдаются и в третьей группе наблюдается но отсутствует Мы хотим вычислить ОМП среднего и ковариационной матрицы

Рис. 7.1. Структура пропусков для примера 7.3.

В отличие от примера 7.2 (и аналогично примеру 7.1) заполнение пропусков на шаге «не работает», так как логарифм правдоподобия линеен не по данным, а по следующим достаточным статистикам:

которые являются простыми функциями выборочных средних, дисперсий и ковариаций. Следовательно, на шаге нужно найти условные ожидания сумм (7.12) при заданных Для группы объектов с присутствием и условное ожидание величин (7.12) равно их наблюдаемым значениям. Для группы, где присутствуют, а пропущены, ожидания равны наблюдаемым


Таблица 7.1. (см. скан) Последовательность оценок в ЕМ-алгоритме для примера 7.2

значениям, ожидания можно найти с помощью регрессии на

где функции от соответствующие регрессии на (детали см. в примере 6.1). Для группы с присутствующими и пропущенными вычисление отсутствующих членов в достаточных статистиках проводится с помощью регрессии на Найдя ожидания и для каждого объекта в трех группах, вычислим ожидания достаточных статистик (7.12) как суммы этих величин по объектам. На шаге по «заполненным» достаточным статистикам определяются обычные моментные оценки и

ЕМ-алгоритм для этой задачи состоит в итеративном повторении этих шагов. Другие детали для этого примера рассматриваются в гл. 8, где описан ЕМ-алгоритм для многомерного нормального распределения общего вида с любой структурой пропусков.

1
Оглавление
email@scask.ru