Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

8.3. ОЦЕНИВАНИЕ ПРИ ОГРАНИЧЕНИЯХ НА КОВАРИАЦИОННУЮ МАТРИЦУ

В разделе 8.2 мы не налагали ограничения на параметр многомерного нормального распределения и он мог принимать любые значения из естественного параметрического пространства. Однако в некоторых статистических моделях на значения налагаются некоторые ограничения. МП-оценки по неполным данным в рамках таких моделей можно также без затруднений получать с помощью ЕМ-алгоритма, если параметры легко оцениваются по данным без пропусков. Шаг ЕМ-алгоритма не изменяется при наличии ограничений. Изменения требуются лишь на шаге М: максимизацию надо проводить с учетом ограничений.

Для некоторых ограничений неитеративные МП-оценки не существуют даже при полных данных. В некоторых из таких случаев можно применять ЕМ-алгоритм для итеративного вычисления МП-оценок, создавая фиктивные ненаблюдаемые переменные таким образом, чтобы шаг выполнялся неитеративно. Эту идею иллюстрируют следующие два примера. Их можно модифицировать на случай, когда в наблюдаемых переменных есть пропуски.

Пример 8.1. Ковариационная матрица заданной структуры. Некоторые структурированные ковариационные матрицы, не имеющие явных МП-оценок, могут рассматриваться как подматрицы больших структурированных матриц, для которых явные ОМП уже существуют. В таких случаях меньшую ковариационную матрицу, скажем можно считать ковариационной матрицей наблюдаемых переменных, а большую матрицу, скажем ковариационной матрицей наблюдаемых и отсутствующих переменных. Для вычисления МП-оценок в исходной задаче применим ЕМ-алгоритм, как описано в [Rubin and Szatrowski (1982)].

В качестве примера рассмотрим стационарную ковариационную -матрицу и -матрицу с круговой симметрией:

Допустим, что мы имеем случайную выборку из многомерного нормального распределения Эти наблюдения можно считать первыми тремя из четырех компонент наблюдений в случайной выборке из многомерного нормального распределения где первые 3 компоненты в каждом присутствуют, а последняя компонента отсутствует. наблюдаемые, полные данные, и присутствующие, и отсутствующие. Обозначим Матрица С — достаточная статистика для полных, а матрица для присутствующих данных. Явные оценки максимального правдоподобия получаются по полным данным (по С) простым усреднением [см. Szatrowski (1978)], а шаг ЕМ-алгоритма задается тогда в виде

где элемент ожидаемого значения С на итерации шага Эти оценки дают новую оценку на итерации.

Поскольку здесь есть только одна структура пропусков присутствует, отсутствует), на шаге ЕМ-алгоритма нужно вычислить ожидаемое значение С при заданной наблюдаемой достаточной статистике и текущей оценке матрицы Сначала находим сверткой текущей оценки по параметры регрессии условного распределения при заданном и получаем

Ожидаемое значение условное по наблюденным данным и равно так что ожидаемое значение условное по равно Ожидаемое значение при заданных наблюдаемых данных и равно

так что ожидаемое значение равно

Итог этих вычислений таков:

Это новое значение С используется в (8.3) для вычисления новых оценок т. е.

Преимуществом ЕМ-алгоритма является возможность одновременно иметь дело с неполными данными и структурированными ковариационными матрицами. И то и другое часто встречается в «образовательных» тестах. В некоторых из этих задач единственные МП-оценки для неструктурированных ковариационных матриц не существуют из-за пропусков в данных, а структуры матриц легко проверить и обосновать теоретическими соображениями и результатами практических исследований аналогичных данных [см. Holland and Wightman (1982); Rubin and Szatrowski (1982)]. Когда число

структур пропусков больше одной, на шаге вычисляют ожидаемые достаточные статистики для всех (а не для одной, как в (8.4)) структур по отдельности.

Пример 8.2. Факторный анализ. Пусть наблюдаемая -матрица данных и ненаблюдаемая -матрица «факторных значений», Строки распределены независимо и одинаково. Маргинальное распределение каждой строки факторов, нормально со средними дисперсиями и корреляционной матрицей В. Условное распределение строки при заданной строке нормально со средним и остаточной ковариационной матрицей Это предположение об условной независимости переменных при заданных факторах очень важно. Матрицу коэффициентов регрессии обычно называют матрицей факторных нагрузок, а остаточные дисперсии в специфичностями.

Вообще говоря, оцениванию подлежат параметры Поскольку маргинальное распределение каждой строки нормально со средним а и ковариационной матрицей МП-оценка а равна Значит, при оценивании методом максимального правдоподобия мы можем заменить на и рассматривать только параметры Чтобы упростить обозначения, примем (т. е. отцентрируем наблюденные переменные по выборочным средним). Следовательно, маргинальное распределение наблюдаемых данных у при параметрах нормально со средним и ковариационной матрицей структурированной матрицей специального вида. Чтобы вывести ЕМ-алгоритм для факторного анализа методом максимального правдоподобия, можно применить общие результаты из примера 8.1. В частности, это (8,4) с первым блоком переменных, соответствующим наблюдаемым признакам Y, и вторым блоком, соответствующим отсутствующим факторам Z. В [Rubin and Thayer (1982), (1983)] описаны детали шага для трех случаев, определенных такими ограничениями на параметры:

1) (ортогональные факторы) и неограниченный ;

2) и в есть априорно заданные нули;

3) В произвольна и в есть априорно заданные нули.

Случай 1 иногда называют разведочным, а случаи 2 и 3 — подтверждающим (confirmatory) факторным анализом.

В случае 1 МП-оценки и находят просто сверткой по текущей оценки матрицы перекрестных произведений, вычисленной перед этим на шаге Е:

В случае 2 МП-оценки коэффициентов регрессии и остаточных дисперсий (Рртр для переменной находят, проводя свертку только по факторам с ненулевыми коэффициентами в Поэтому для каждой группы признаков с различными наборами априорных нулей в надо проводить в (8.5) свертку С по различным множествам факторов Z. В [Rubin and Thayer (1982)] вычисления иллюстрируются на примере с девятью признаками и четырьмя факторами. Случай 3, обобщение случая 2, включает оценивание В. МП-оценка ковариационной матрицы переменных это просто текущая ожидаемая матрица перекрестных произведений для

Если равенство дисперсий факторов единице интерпретируют в том смысле, что существует бесконечное число множеств данных по маргинальному распределению каждого фактора с выборочной дисперсией 1, то МП-оценка В — это нормированная под корреляционную матрицу.

Как и в примере 8.1, нужны лишь небольшие модификации для того, чтобы ЕМ-алгоритм для факторного анализа подходил для данных с пропусками. Конкретнее: на шаге надо вычислять ожидаемые достаточные статистики для каждой, а не для одной структуры неполных данных, когда все У, наблюдаются без пропусков.

Пример 8.3. Компоненты дисперсии. Большое число структурированных ковариационных матриц встречается в дисперсионных компонентных моделях, также называемых моделями дисперсионного анализа со случайными или смешанными эффектами. Для вычисления МП-оценок дисперсионных или, более общо, ковариационных компонент можно применять ЕМ-алгоритм [см. Dempster, Laird and Rubin (1977); Dempster, Rubin and Tfcutakawa (1981)]. Следующий пример взят из [Snedecor and Cochran (1967), - с. 230].

При исследовании искусственного осеменения коров в выборке из быков были взяты образцы семенной жидкости для проверки возможности оплодотворения ею. Число образцов взятых у каждого из быков, было различным. Данные приведены в табл. 8.1. Наибольший интерес представляет различие быков. Если бы у каждого быка было взято бесконечное число образцов, можно было бы вычислить дисперсию шести средних, чтобы оценить дисперсию по быкам в популяции.

Таблице 8.1, (см. скан) Длины для примере

Значит, в реальных данных есть одна компонента дисперсии, возникающая благодаря различию быков, извлекаемых из популяции, которое и представляет основной интерес, и вторая, появляющаяся из-за вариабельности образцов. Обычная нормальная модель для таких данных — это

где

Интегрируя по получим, что совместное распределение у нормально с общим средним общей дисперсией о и ковариацией для образцов от одного быка и от разных быков. Значит,

где обычно называют коэффициентом внутриклассовой корреляции.

Рассматривая ненаблюдаемые случайные величины как пропуски (а все как присутствующие), получим ЕМ-алгоритм вычисления МП-оценок параметра а именно правдоподобие для полных данных состоит из двух факторов, первый из которых соответствует распределению условному по а, и в, а второй — распределению условному по 0:

Логарифм правдоподобия линеен по следующим достаточным статистикам для полных данных:

МП-оценки для полных данных — это

Эти уравнения определяют шаг ЕМ-алгоритма. На шаге вычисляются ожидания условно по текущей оценке и наблюденным данным что можно сделать, применяя теорему Байеса к совместному распределению так, чтобы получить условное распределение а, при заданных .

где

Отсюда

МП-оценки, получаемые таким способом, равны Последние две оценки сравнимы с оценками полученными приравниванием наблюдаемого и ожидаемого среднего квадрата в дисперсионном анализе со случайными эффектами [см., например, Brownlee (1965), раздел 10.4].

С помощью ЕМ-алгоритма можно анализировать намного более сложные компонентные модели, включая модели с многомерными у., а, и X [см., например, Dempster, Rubin and Tsutakawa (1981); Laird and Ware (1982)].

1
Оглавление
email@scask.ru