Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

10.4. СВЯЗЬ С ДРУГИМИ ЕМ-АЛГОРИТМАМИ ДЛЯ НЕКОТОРЫХ СТРУКТУР ПРОПУСКОВ

При отсутствии категориальных переменных алгоритм из раздела 10.2 сводится к ЕМ-алгоритму для многомерного нормального распределения, описанному в разделе 8.2.1. Если отсутствуют непрерывные переменные и категориальные переменные содержат пропуски, то данные можно расположить в виде многомерной таблицы сопряженности с дополнительными таблицами для частично классифицированных наблюдений. Тогда алгоритм соответствует МП-оцениванию для частично классифицированных таблиц сопряженности, обсуждавшихся в разделе 9.4.

Говоря более общо, алгоритмы из разделов 8.2.1 и 9.4 можно применять также для структуры данных рис. 10.1. В этих данных V категориальных переменных наблюдаются больше К непрерывных переменных в том смысле, что у объектов с присутствием одной или более непрерывных переменных наблюдаются также все категориальные переменные. Следуя теории факторизации правдоподобия из гл. 6, можно получать МП-оценки для модели из раздела 10.3 следующим образом:

1) оценить параметры совместного распределения по первым V столбцам рис. 10.1. Поскольку все данные только категориальные, здесь применимы алгоритмы поиска ОМП для частично классифицированных таблиц сопряженности;

Рис. 10.1. Структура пропусков, дающая простые ОМП. Обозначения: 1 — присутствует, 0 - отсутствует, присутствует или отсутствует. Источник. [Little and Schluchter (1985)].

2) оценить параметры условного распределения X при заданном по первым строкам рис. 10.1. Здесь можно использовать многомерный нормальный ЕМ-алгоритм, несмотря на присутствие категориальных переменных. При этом в ЕМ-алгоритм включают фиктивные переменные; представляющие эффекты в плане дисперсионного анализа, рассматривая их как непрерывные переменные. Затем проводят свертку окончательной оценки ковариационной

матрицы всех переменных по элементам, соответствующим фиктивным переменным, что дает оценки параметров условного распределения X при заданном Они и являются МП-оценками в соответствии с теорией факторизации правдоподобия гл. 6.

Алгоритм из раздела 10.2.2 вместе с модификациями для модели с ограничениями из раздела 10.3.4 также дает МП-оценки когда категориальные переменные присутствуют полностью, но алгоритм отличается от «нормального» ЕМ-алгоритма, поскольку свертка проводится только по непрерывным переменным (подробности см. в разделе 10.2.3). Основное достоинство этого алгоритма заключается в возможности обрабатывать данные со структурой, не соответствующей рис. 10.1, так как методы из разделов 8.2.1 и 9.4 уже нельзя применять для вычисления ОМП.

Если непрерывные переменные присутствуют полностью, представляет полностью отсутствующую переменную с к категориями, то алгоритм из раздела 10.2.2 сводится к алгоритму Дэя [Day (1969)] для смеси к нормальных многомерных распределений. Так как наш алгоритм работает при пропусках в непрерывных переменных, он является обобщением алгоритма Дэя на случай неполных данных. Как и во многих других моделях смеси, весьма вероятна многоэкстремальность правдоподобия [Aitkin and Rubin (1985)], так что мы советуем запускать алгоритм несколько раз с различными начальными значениями параметров.

Таблица 10.3. (см. скан) Результаты применения ЕМ-алгоритма для смесей к данным Дарвина

Пример 10.3. Одномерная модель смеси для биологических данных. В [Aitkin and Wilson (1980)] проверяли поведение ЕМ-алгоритма для моделей смеси на нескольких малых наборах данных. Одним из них были данные Дарвина о разностях по высоте в парах с самоопыленными и перекрестно опыленными растениями. Они приведены в табл. 10.3,а). В табл. 10.3,б) вместе со значением логарифма правдоподобия (в котором опущена константа приведены обычные МП-оценки в предположении нормальности выборки со средним и дисперсией . С помощью ЕМ-алгоритма была подобрана модель двухкомпонентной нормальной смеси со средними общей дисперсией и смешивающей пропорцией при различных начальных значениях. Все начальные значения определяли, относя наблюдения к первой или второй компоненте (т. е. все начальные апостериорные вероятности принадлежности к компоненте были равны 0 или 1) и применяя для вычисления начальных оценок параметров шаг Результаты приведены в табл. 10.3,в). Они показывают чувствительность окончательных оценок к начальным значениям. Правдоподобие, видимо, двумодально с высокой крутой модой при оценках, получаемых для первого или третьих начальных значений, и с низкой широкой модой при оценках для второго начального значения.

1
Оглавление
email@scask.ru