Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

10.3. ОБОБЩЕНИЕ ОБЩЕЙ МОДЕЛИ ПОЛОЖЕНИЯ НА СЛУЧАЙ ОГРАНИЧЕНИЙ НА ПАРАМЕТРЫ

10.3.1. Введение

Модель из раздела 10.2 задает различные векторы средних для разных ячеек таблицы и не налагает ограничений на вероятности ячеек, кроме очевидного . В этом разделе мы опишем более общую модель, в которой допустимы ограничения на типичные для дисперсионного анализа, и на применяемые в лог-линейной модели с ограничениями. Эта обобщенная модель рассмотрена в [Krzanowski (1982)] для дискриминантного анализа при полных данных.

10.3.2. Ограничения на средние в ячейках

Пусть вектор переменных плана для объекта; можно получить из вектора индикатора ячейки путем где А — известная матрица представляющая выбранный план. Обобщенная модель определяет, что условное распределение при заданном зависит от только через т. е. где В — матрица неизвестных параметров. Отметим, что , так что модели из раздела 10.2 А — единичная матрица

10.3.3. Логлинейная модель для вероятностей ячеек

Другой путь уменьшения размерности модели — это введение ограничений на вероятности с помощью логлинейной модели, обсуждавшейся в разделе 9.4. Например, допустим, что ячейки

формируются путем совместной классификации по трем категориальным переменным и уровнями соответственно, Изменим обозначения: пусть — вероятность, что для Логлинейная модель задается уравнением

и приравниванием некоторых подмножеств элементов а нулю. В разделе 9.4 приведено более подробное изложение.

10.3.4. Модификация алгоритма из раздела 10.2.2

Пусть а — ненулевые элементы а в логлинейной модели для -факторной таблицы с ячейками. Обозначим вероятность попадания в ячейку с учетом ограничений, Мы коротко опишем модификации алгоритма из раздела 10.2.2, нужные для подгонки моделей из разделов 10.3.2 и 10.3.3 по неполным данным.

Пусть начальные оценки параметров для какой-либо модели разделов 10.3.2 и 10.3.3, вычисленные, возможно, по полным наблюдениям. Пусть , где А — известная матрица плана, и Модель с ограничениями из разделов 10.3.2 и 10.3.3 относится к регулярному экспоненциальному семейству с такими минимальными достаточными статистиками для полных данных: и линейными комбинациями частот определяемыми подбираемой логлинейной моделью. Так как эти величины — линейные комбинации достаточных статистик для полных данных при модели из разделов 10.2, шаг состоит в вычислении по уравнениям (10.3)-(10.5) и формировании линейных комбинаций этих функций, дающих минимальные достаточные статистики для полных данных для модели с ограничениями.

Вычисления на шаге отличаются от вычислений для модели без ограничений. Оценки получают, соблюдая ограничения, наложенные на модель. оценивают, образуя сначала многофакторную таблицу с частотами ячеек, задаваемыми вектором -(уравнение (10.5)). Эта таблица содержит элементы из частот частично классифицированных объектов, распределенных по таблице на шаге Новые частоты в ячейках получают, подбирая предложенную логлинейную модель по частотам в методами для полных данных, которые сами могут быть итеративными, если нет явных оценок. Вероятности в подогнанной таблице — новые оценки используемые на следующем шаге На практике при отсутствии явного вида для оценок на шаге на первых итерациях,

возможно, будет достаточно улучшать оценки вероятностей прохождением одного шага итеративного алгоритма пропорционального подбора, что исключает необходимость в двух вложенных уровнях итераций. В результате получается обобщенный ЕМ-алгоритм из раздела 7.3, поскольку алгоритм пропорционального подбора обладает свойством увеличивать правдоподобие данных на каждом шаге до того, как алгоритм сойдется [Brown (1959)].

При полных данных МП-оценки равны (см. [Anderson (1958), гл. 8]). Мы получим на шаге оценки Вий, если в приведенных уравнениях для Вий запишем и заменим и на соответственно, где матрица с диагональными элементами и нулевыми внедиагональными элементами. Тогда пересчитанные на шаге оценки на итерации равны:

и

Если на средние не наложено никаких ограничений, А — единичная матрица и уравнения (10.9)-(10.11) для эквивалентны соответствующим уравнениям в (10.6). Новые оценки подставляются в следующий шаг задаваемый уравнениями (10.3)-(10.5).

10.3.5. Модели с ограничениями для данных примера 10.1

Пример 10.2 (продолжение примера 10.1). В разделе 10.2.2 по данным табл. 10.1 подбиралась модель положения без ограничений. В этой модели слишком много параметров — 69 при 69 неполных наблюдениях. В этом разделе мы подберем и проверим модели с меньшим числом параметров, соответствующее гипотезам, представляющим основной интерес. Допустим, в частности, что мы хотим проверить гипотезу, что развитие патологических психиатрических симптомов у детей не связано с группой риска родителей. Эта гипотеза означает, что

где вероятность, соответствующая уровню фактора и уровням факторов На средние непрерывных переменных в ячейках ограничений нет. В [Little and Schluchter (1985)] эта модель подгоняется по данным методом из раздела 10.3.4.

В табл. 10.2 (модель В) приведены ОМП для модели с ограничениями. Максимум логарифма правдоподобия составил —877,64. Напомним, что логарифм правдоподобия для полной модели, вычисленной в разделе 10.2.2, был равен —872,73. Значит, хи-квадрат-статистика отношения правдоподобий для проверки независимости от равна при шести степенях свободы, что означает отсутствие доказательств несоответствия модели. Для этой модели был найден также другой локальный максимум

Затем в поисках более простой модели Литтл и Шлухтер обратились к модели, в которой взаимодействия не влияют на средние непрерывных переменных при тех же ограничениях на вероятности ячеек. Ограничения на средние непрерывных переменных можно записать в виде где В — матрица параметров где

и 12 ячеек в векторе расположёны так, что индекс пробегает значения быстрее всех, медленнее всех. Эта модель уменьшает число параметров, нужных для описания средних, с 48 до 24.

Снова были обнаружены локальные максимумы функции правдоподобия. Глобальный максимум логарифма правдоподобия составил —910,46, так что критерий отношения правдоподобий для сопоставления этой модели с полной моделью равнялся (при что означает, что ограниченная модель не согласуется с данными. Авторы также вычислили параметры модели, в которой нулевым был только эффект взаимодействия при тех же ограничениях на вероятности ячеек. Эта модель также обнаружила несоответствие данным при сравнении с полной моделью при -значения не приводились, поскольку они бессмысленны в связи с наличием локальных максимумов правдоподобия. Тем не менее эти результаты означают, что степень влияния психического состояния родителей на развитие навыков чтения и речи у детей зависит от психического состояния ребенка, как и следовало ожидать.

Categories

1
Оглавление
email@scask.ru