Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

9.2. ФАКТОРИЗАЦИЯ ПРАВДОПОДОБИЯ ДЛЯ МОНОТОННЫХ ПОЛИНОМИАЛЬНЫХ ДАННЫХ

9.2.1. Введение

В этом и следующем разделах мы предполагаем, что:

1) частоты в полных данных имеют полиномиальное распределение с параметром и вероятностями

2) механизм порождения пропусков пренебрежим в смысле, указанном в гл. 5. Следовательно, правдоподобие для вероятностей получается интегрированием правдоподобия для полных данных

по отсутствующим данным. МП-оценки получаются при максимизации получаемого правдоподобия при условии, что сумма вероятностей в ячейках равна 1.

Альтернативу модели, определяемой предположением 1, задает предположение, что частоты независимые пуассоновские случайные величины со средними и вероятностями для ячеек Если механизм порождения пропусков пренебрежим, выводы по правдоподобию совпадают с выводами для из полиномиальной модели. Этот факт следует из соображений, аналогичных тем, что в случае полных данных [см. Bishop, Frienberg and Holland (1975)]. Мы ограничимся рассмотрением полиномиальной модели, так как с практической точки зрения она выглядит более общей по сравнению с пуассоновской моделью.

Для полных данных правдоподобие (9.1) дает МП-оценку

с асимптотический дисперсией

Нашей целью является получение аналогичных величин по неполным данным. В этом разделе мы обсудим структуры неполных данных частного вида, которые приводят к явным МП-оценкам.

9.2.2. МП-оценивание для монотонных структур

Проиллюстрируем сначала МП-оценки в простом случае двумерной таблицы сопряженности с дополнительной таблицей по одному фактору.

Пример 9.1. Двумерная таблица сопряженности с дополнительной одномерной подтаблицей. Рассмотрим две категориальные переменные: с категориями с категориями

Данные состоят из наблюдений с зарегистрированными наблюдений и отсутствующими Структура данных идентична структуре в примере 6.1, но теперь переменные категориальны, полностью классифицированных таблиц можно расположить в таблицу сопряженности которой в ячейке с есть наблюдений; остальных наблюдений образуют дополнительную подтаблицу которой в ячейке с наблюдений (рис. 9.1).

Для обозначения суммирования по индексам мы будем использовать стандартный способ с помощью знака . В нашей задаче

Рис. 9.1. Данные из примера 9.1

Как в примере 6.1, мы будем работать с другим набором параметров соответствующим маргинальному распределению У, и условному распределению при заданном Логарифм правдоподобия данных можно записать в

где первое слагаемое — логарифм правдоподобия полиномиального распределения маргинальных частот с параметром и вероятностями второе — логарифм правдоподобия условного полиномиального распределения при заданном с параметрами и вероятностями

Итак, (9.2) — это факторизация правдоподобия вида (6.1) с раздельны. Максимизируя каждую компоненту по отдельности, получаем МП-оценки

поэтому

Значит, согласно МП-оценке в ячейку распределяется доля неклассифицированных наблюдений.

Пример 9.2. Монотонные двумерные дискретные данные. Мы численно проиллюстрируем результаты примера 9.1 на данных табл. 9.1, где дихотомическая, а трихотомическая переменная. Оценивание маргинальных вероятностей проводится по полностью и частично классифицированным объектам:

Таблица 9.1. (см. скан) Пример со структурой данных на рис. 9.1

Условные вероятности отнесения к категориям при заданном оцениваются по полностью классифицированным объектам:

Сочетание этих оценок дает вероятности в (9.3):

В отличие от них оценки по полностью классифицированным наблюдениям равны:

Оценки менее эффективны, чем МП-оценки Однако принципиальное преимущество МП-оценивания состоит, как и в нормальном случае, обсуждавшемся в примере 6.1, в уменьшении или устранении смещения, когда данные не отсутствуют и присутствуют случайно (не выполняется Оценки -оценки, когда данные в частности, когда вероятность

пропуска зависит от но не от состоятельные в общем случае оценки только если данные ОПС, т. е. пропуски не зависят ни от , ни от Маргинальные распределения в полностью и не полностью классифицированных выборках, видимо, различаются (критерий хи-квадрат дает с соответствующим -значением, которое меньше 0,01), поэтому эти данные противоречат предположению ОПС.

Обобщения этого примера на случай других монотонных структур можно получить с помощью аналогичной факторизации правдоподобия.

Пример 9.3. Анализ шестифакторной таблицы. Фухс [Fuchs (1982)] представляет данные Protective Services Project for Older Persons - долговременного исследования 165 людей, предпринятого для оценки влияния социальных условий на состояние здоровья (табл. 9.2). Исследователи собирали данные по шести дихотомическим переменным: жив или умер, принадлежность к опытной или контрольной группе, пол (мужской, женский), А — возраст (меньше 75 лет, больше 75 лет), физическое состояние здоровья (плохое, хорошее), психическое состояние (плохое, хорошее). У 101 обследованного человека были зарегистрированы все переменные (табл. 9.2,а)). Состояние здоровья не было обследовано человека (табл. Запись о психическом состоянии отсутствовала у 33 человек (табл. 9.2,в)). Наконец, не было записей о физическом состоянии наряду с психическим у 29 человек (табл. 9.2,г)).

Если опустить информацию о психическом состоянии одного человека в табл. данные будут иметь монотонную структуру, и МП-оценки вероятностей в ячейках можно вывести с помощью факторизации

Наблюденные частоты для оценивания трех распределений в правой стороне приведены в табл. 9.3,а). Вычисленные ожидаемые частоты, равные оценке вероятности для ячейки, умноженной на 164 (суммарный объем выборки), приведены в табл. Например, частота в ячейке с жив, экспериментальная группа, А — больше 75 лет, мужской, хорошее, хорошее, равна:

Замена D - жив на D - умер дает ожидаемую частоту

Следовательно, ожидаемая условная вероятность выжить для людей из опытной группы старше 75 лет мужского пола с хорошим физическим и психическим состоянием равна Эта оценка сравнима с оценкой по полным наблюдениям табл. 9.2.

(см. скан)

(см. скан)

Пример 9.4. Таблицы грубой и точной классификации. Данные в табл. 9.4,а) и б), представленные и проанализированные в [Hocking and Oxspring (1974)], иллюстрируют другую ситуацию, в которой можно вычислять МП-оценки, факторизуя правдоподобие. В табл. 9.4 содержатся данные об использовании лекарств для лечения проказы. 196 пациентов были классифицированы по степени инфильтрации и по общему клиническому состоянию после определенного времени со дня начала приема лекарств. Дополнительные данные о 400 других пациентах, грубо классифицированных по улучшению здоровья, приведены в табл. 9.4,6). Такого рода данные естественны в крупных диспансерных обследованиях, в которых подобные детальные результаты можно получить для небольшой группы, а грубо классифицированные данные можно собрать для большей группы людей без особых затрат.

Правдоподобие факторизуется в соответствии с совместным распределением объединенных частот из двух таблиц, классифицированных, как табл. 9.4,6), для всех 596 пациентов и условным распределением степени улучшения (сильное, умеренное, слабое) при заданном улучшении и степени инфильтрации для 196 пациентов. Полученные МП-оценки вероятностей в ячейках приведены в табл. 94,в), так что виден ход вычислений. Совместные вероятности инфильтрации и грубо классифицированного клинического состояния получены объединением данных из а) и б), что дает значения в последних двух столбцах и первые факторы первых трех столбцов. Последние умножаются на условные вероятности степени улучшения, вычисленные по первым трем столбцам а). В частности, значение в левом верхнем углу равно что сравнимо с полученным только по точно классифицированным данным.

9.2.3. Оценивание точности МП-оценок

Асимптотическую ковариационную матрицу, соответствующую МП-оценкам (9.3), можно получить, вычисляя информационную матрицу для параметров в форме под факторизованное правдоподобие, обращая эту матрицу, а затем проводя преобразование параметров для исходного вида методом, описанным в разделе 6.1. Можно также непосредственно вычислить дисперии и ковариации. Например, чтобы вычислить асимптотическую дисперсию примере 9.1, запишем

где набор маргинальных частот Отсюда асимптотически с точностью порядка

(см. скан)

Простые выкладки дают

где Подставляя оценки параметров, получаем

Левая сторона (9.4) записана в измененном виде, чтобы показать, что байесовский анализ асимптотической апостериорной дисперсии яд дает аналогичные результаты. Для ковариаций получаем

Если данные ОПС, то с, мал и (9.4) сводится к выражению, аналогичному (6.14):

В этом выражении оценка дисперсии оценки полученной без учета добавочных маргинальных частот, а остальная часть правой стороны описывает пропорциональное уменьшение дисперсии за счет маргинальных частот.

Пример 9.5 (продолжение примера 9.2). Применим эти формулы к оценкам по данным табл. 9.1. Оценка не учитывающая дополнительные маргинальные частоты, имеет асимптотическую дисперсию равную (после подстановки МП-оценок):

Аналогично из (9.5) получаем, что оценка асимптотической дисперсии МП-оценки равна:

Итак, уменьшение дисперсии за счет использования дополнительных маргинальных частот мало. Тем не менее данные скорее всего не ОПС, как указано в примере 9.2. Поэтому смещенная оценка . В предположении несмещенная оценка так что грубая оценка смещения равна Отсюда грубая оценка средней квадратической ошибки равна:

Заменяя (9.5) на более точную формулу (9.4), получаем для дисперсии

Значит, метод максимального правдоподобия дает значительно более точную оценку благодаря учету того, что данные, видимо, не ОПС.

1
Оглавление
email@scask.ru