Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
9.4. ЛОГ ЛИНЕЙНЫЕ МОДЕЛИ ДЛЯ ЧАСТИЧНО КЛАССИФИЦИРОВАННЫХ ТАБЛИЦ СОПРЯЖЕННОСТИ9.4.1. Полные данныеДля полных F-факторных таблиц сопряженности с вероятностями в ячейках
при некоторых мультипликативных факторах
где
Таблица 9.7. (см. скан) Иерархические лог линейные модели для трехфакторных таблиц сопряженности Уравнения (9.6) или (9.7) задают логлинейную модель для вероятностей в ячейках. Более общий класс моделей получается при разложении логарифма вероятностей в ячейках на сумму константы, главных эффектов вида (9.7) и взаимодействий более высоких порядков и приравнивании некоторых членов разложения нулю. Например, для трехфакторной таблицы
где сумма а по любому из индексов равна нулю. Члены Важным классом моделей, которые можно получить таким путем, является иерархические логлинейные модели. Они обладают таким свойством: если в модель входит МП-оценивание для иерархических моделей различно по сложности в зависимости от подбираемой модели. В частности, для всех моделей в табл. 9.7 можно найти явные оценки, за исключением Для сравнения качества выбора логлинейных моделей широко используются две асимптотически эквивалентные статистики. Отношение правдоподобия равно:
где сумма ведется по всем с ячейкам в таблице,
Если подбираемая модель верна, то и Пример 9.8. Полная трехфакторная таблица. Таблица 9.8,а) представляет таблицу сопряженности 23, содержащую данные о смертности новорожденных [см. Bishop (1975), табл. 2. 4—2]. В табл. 9.9 показаны оценки вероятностей в ячейках и статистики для подбора некоторых логлинейных моделей для этих данных. Таблица 9.8. (см. скан) Таблица сопряженности 23 с частично классифицированными наблюдениями Модель [ИПК} в табл. 9.9,а) не налагает ограничения на вероятности в ячейках и полностью согласуется с наблюденными пропорциями. Поэтому обе статистики согласия равны нулю при нулевой степени свободы. Две ненасыщенные модели в табл. 9.9,б) и 9.9,в) характеризуются очень низкими значениями Таблица 9.9. (см. скан) Оценки вероятностей в ячейках 9.4.2. Логлинейные модели для частично классифицированных таблицКак и для насыщенных моделей из разделов 9.2 и 9.3, при МП-оценивании логлинейных моделей частично классифицированные наблюдения распределяют по полной таблице, используя оценки условных вероятностей, а затем оценивают вероятности классификации по заполненной таблице. Единственная разница заключается в том, что все вероятности оценивают, соблюдая ограничения, налагаемые логлинейной моделью. Эти ограничения могут увеличить объем вычислений, требуемых для получения МП-оценок, по двум причинам. Во-первых, факторизация правдоподобия для монотонных структур не обязательно приводит к явным МП-оценкам, так как параметры в факторах не обязательно являются раздельными. Во-вторых, шаг Таблица 9.10. (см. скан) МП-оценки для моделей (ИПК). (ИП, ИК, ПК)и Пример 9.9. МП-оценивание в неполной трехфакторной таблице (продолжение примера 9.8). Допустим, что к данным табл. 9.8,а), проанализированным в примере 9.8, добавлены дополнительные данные табл. 9.8,б). В них есть сведения об исходе (И) и предродовом уходе (П), но данных о клинике (К) нет. В результате получаются данные с монотонной структурой, где больше К. Правдоподобие для объединенных данных табл. 9.8,а) и 9.8,б) факторизуется на член для распределения Таблица 9.11. (см. скан) МП-оценки для модели Параметры распределений ИП и К при заданном ИП не раздельны для модели В предыдущем примере начальные значения для ЕМ-алгоритма основывались на полностью классифицированной таблице. В больших таблицах с нулевыми ячейками эта процедура может давать неудовлетворительные начальные значения, что указано в [Fuchs(1982)]. Например, допустим, что в полной таблице маргинальная таблица, соответствующая некоторому члену в модели, имеет пустую ячейку, а в дополнительной таблице частота в той же ячейке положительна. Если строить начальные значения по полностью категоризованной таблице, то ЕМ-алгоритм никогда не позволит, чтобы в ячейке с нулем была ненулевая вероятность, что противоречит информации из дополнительной таблицы. Эту проблему можно решить, вычисляя начальные значения после того, как к ячейкам полностью классифицированной таблицы будут добавлены положительные значения таким ббразом, что начальные оценки будут находиться в допустимом параметрическом пространстве. На последующих итерациях эти добавки исчезнут. 9.4.3. Критерии для подбора моделей по частично классифицированным даннымСтатистики хи-квадрат, аналогичные (9.9) и (9.10), можно вычислять по частично классифицированным данным, проводя суммирование по ячейкам в полной таблице и в частично классифицированной дополнительной таблице. Заметим, что для насыщенной модели (в примере 9.9 - (ИПК}), в отличие от полных данных, получают ненулевые значения Статистики хи-квадрат для модели с ограничениями можно получить, вычисляя Хотя на первый взгляд кажется, что эти процедуры требуют ОПС, на деле критерии остаются верными и при условии, что пропущенные данные ОС. При последнем предположении компоненты правдоподобия, соответствующие механизму порождения пропусков, сокращаются при вычитании значений Пример 9.10 (продолжение примера 9.9). Статистики для выбора модели в неполной трехфакторной таблице. Статистики
Вычисление числа степеней свободы
Вычитая значения статистик хи-квадрат для насыщенной модели, получаем:
что вполне сопоставимо со статистиками, основанными на полностью классифицированных случаях из табл. 9.9. Как и ранее, мы отдаем предпочтение модели ЛИТЕРАТУРА(см. скан) ЗАДАЧИ(см. скан) (см. скан)
|
1 |
Оглавление
|