Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

9.3. МП-ОЦЕНИВАНИЕ ДЛЯ ПОЛИНОМИАЛЬНЫХ ВЫБОРОК С ОБЩЕЙ СТРУКТУРОЙ ПРОПУСКОВ

Как и для нормальных данных, неполные полиномиальные данные без монотонной структуры требуют применения итеративных процедур для МП-оценивания. ЕМ-алгоритм здесь особенно прост, так как логарифм правдоподобия линеен по пропущенным значениям. Для монотонных данных в примерах 9.1 и 9.2 МП-оценивание, по сути, распределяет частично классифицированные данные по полной таблице исходя из условных вероятностей, вычисленных по полностью классифицированным данным. На шаге ЕМ-алгоритма для общей структуры выполняется как раз эта функция за исключением того, что условные вероятности вычисляются по текущим оценкам вероятностей в клетках, а не по полностью классифицированным данным. На шаге вычисляются новые вероятности в ячейках по заполненным данным. Впервые этот алгоритм появился в статистической литературе в работе [Hartley (1958)]. Мы формулируем ЕМ-алгоритм для общего случая, применяя его к различным частным случаям.

Допустим, что исходные полные данные — это полиномиальная выборка объема при ячейках наблюдениями в и параметром где вероятность отнесения к Наблюденные данные состоят из полностью классифицированных наблюдений с наблюдениями в неполных наблюдений, попадающих в подмножества ячеек. Мы разбиваем множество частично классифицированных объектов на К групп, так что все объекты внутри каждой группы имеют одинаковый набор возможных ячеек. Пусть частично классифицированных объектов попадает в группу, множество ячеек, к которым могут относиться эти объекты. Далее, определим индикаторную функцию такую, что если принадлежит в противном случае.

Опишем шаг ЕМ-алгоритма. Обозначим через текущую оценку параметров (на итерации). Распределение исходных полных данных относится к регулярному экспоненциальному семейству с достаточными статистиками

Поэтому шаг состоит в вычислении

где

текущая оценка условной вероятности попадания в ячейку при условии, что наблюдение относится к набору категорий . Шаг Е, по сути, распределяет частично классифицированные наблюдения по таблице в соответствии с этими вероятностями. На шаге вычисляются новые оценки параметров:

Это довольно общая формулировка. Ячейки могут образовывать многофакторную таблицу с наблюдениями, классифицируемыми по V переменным где имеет категорий и Тогда частично классифицированные наблюдения могут формировать добавочные маргинальные подтаблицы, в которых одна или более переменных не зарегистрированы. Мы приведем простой численный пример для такой структуры неполных данных.

Таблица 9.5. (см. скан) Таблица с дополнительными маргинальными частотами по обеим переменным

Пример 9.6. Таблица с дополнительными маргинальными частотами по обеим переменным. МП-оценивание для двумерных таблиц с дополнительными данными о частотах для обеих переменных впервые рассматривалось в [Chen and Feinberg (1974)]. В табл. 9.5 приведены данные, проанализированные в [Little (1982)]. В табл. 9.6 показаны первые три итерации ЕМ-алгоритма, в котором начальные оценки вероятностей в ячейках вычислялись по полностью, классифицированной подтаблице. Затем эти вероятности использовались для распределения частично классифицированных

наблюдений, как показано в табл. 9.6. Например, 28 частично классифицированных наблюдений с имели с вероятностью с вероятностью Значит, из 28 объектов будут отнесены к объектов — к На следующем шаге по заполненным данным вычисляют новые вероятности и итерации продолжаются далее. Сходимость наступает при значениях вероятности классификации, равных:

Таблица 9.6. (см. скан) ЕМ-алгоритм для данных табл. 9.5 (механизм порождения пропусков игнорируется)

Пример 9.7. Применение к ПЭТ. Варди и др. [Vardi, Shepp and Kaufman (1985)] приводят интересный пример ЕМ-алгоритма для двухфакторных категориальных данных, получаемых при позитрон-эмиссионной томографии Описание, предлагаемое здесь, взято из [Rubin (1985)]. При «картина» органа (например, мозга) создается при подсчете частот эмиссии в детекторах, упорядоченно расположенных вокруг органа. Орган моделируется как В ящиков или точек, каждая из которых характеризуется своим параметром интенсивности определяющим скорость эмиссии. Из физических соображений определяется матрица известных вероятностей (детектор того, что эмиссия из точки будет зарегистрирована детектором а. Цель — использовать эти известные условные вероятности совместно с наблюденными частотами в детекторах, чтобы оценить интенсивность (или маргинальную вероятность эмиссии) в каждой из В точек.

Пусть матрица совместных вероятностей того, что эмиссия происходит в точке и регистрируется детектором определяется через Пшотетические полные данные — это наблюдений где если 1-й отсчет возник в точке и зарегистрирован детектором, и нуль — в противном случае. Наблюденные (т. е. неполные) данные состоят из маргинальных частот по - по строкам, т. е. это векторы указывающие детектор для каждой из эмиссий. ЕМ-алгоритм работает следующим образом:

1) задать начальные значения для X, скажем что определяет начальные значения для

2) на шаге распределить наблюденные отсчеты для детектора по В точкам в соответствии с условными вероятностями, заданными

3) на шаге оценить с помощью маргинальных частот по точкам (суммированных по всем детекторам отсчетов);

4) повторить шаг с новой оценкой X и так далее до наступления сходимости.

1
Оглавление
email@scask.ru