Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике 9.4. ЛОГ ЛИНЕЙНЫЕ МОДЕЛИ ДЛЯ ЧАСТИЧНО КЛАССИФИЦИРОВАННЫХ ТАБЛИЦ СОПРЯЖЕННОСТИ9.4.1. Полные данныеДля полных F-факторных таблиц сопряженности с вероятностями в ячейках часто важно перейти к моделям, в которых вероятности имеют определенную структуру. Например, независимость факторов соответствует модели, в которой вероятности выражаются в виде
при некоторых мультипликативных факторах Удобно выражать (9.6) как логлинейную модель:
где Различные наборы а в правой стороне (9.7) могут давать одно и то же множество вероятностей Поэтому для того, чтобы единственным образом задать а, нужны V ограничений. Обычно полагают
Таблица 9.7. (см. скан) Иерархические лог линейные модели для трехфакторных таблиц сопряженности Уравнения (9.6) или (9.7) задают логлинейную модель для вероятностей в ячейках. Более общий класс моделей получается при разложении логарифма вероятностей в ячейках на сумму константы, главных эффектов вида (9.7) и взаимодействий более высоких порядков и приравнивании некоторых членов разложения нулю. Например, для трехфакторной таблицы
где сумма а по любому из индексов равна нулю. Члены называются главными эффектами соответственно Члены называются двухфакторными взаимодействиями соответственно между Наконец, члены называются трехфакторными взаимодействиями между Полагая все двух- и трехфакторные взаимодействия равными нулю, получим модель независимости (9.7) для переменных. Другие модели получаются, если приравнять нулю другие члены в (9.8). Важным классом моделей, которые можно получить таким путем, является иерархические логлинейные модели. Они обладают таким свойством: если в модель входит -факторная зависимость между множеством факторов то в модель входят и все -факторные взаимодействия, взаимодействия более низких порядков и главные эффекты, относящиеся к подмножествам факторов из Для трехфакторной таблицы имеется 19 иерархических моделей. В табл. 9.7 приведены девять из них, остальные 10 можно получить, меняя факторы в моделях (3), (4), (5), (7) и (8). МП-оценивание для иерархических моделей различно по сложности в зависимости от подбираемой модели. В частности, для всех моделей в табл. 9.7 можно найти явные оценки, за исключением , где необходима итеративная процедура оценивания. Для сравнения качества выбора логлинейных моделей широко используются две асимптотически эквивалентные статистики. Отношение правдоподобия равно:
где сумма ведется по всем с ячейкам в таблице, наблюденная частота в ячейке ожидаемая частота в с, оцененная по модели. Статистика хи-квадрат Пирсона определяется как
Если подбираемая модель верна, то и асимптотически распределены по хи-квадрат с числом степеней свободы, равным числу независимых ограничений по вероятности в ячейках. Подробности о вычислении числа степеней свободы и другие сведения о логлинейных моделях для полных данных можно найти в [Good man (1970); Haberman (1974); Bishop, Fienberg and Holland (1975); Fienberg (1980)]. Пример 9.8. Полная трехфакторная таблица. Таблица 9.8,а) представляет таблицу сопряженности 23, содержащую данные о смертности новорожденных [см. Bishop (1975), табл. 2. 4—2]. В табл. 9.9 показаны оценки вероятностей в ячейках и статистики для подбора некоторых логлинейных моделей для этих данных. Таблица 9.8. (см. скан) Таблица сопряженности 23 с частично классифицированными наблюдениями Модель [ИПК} в табл. 9.9,а) не налагает ограничения на вероятности в ячейках и полностью согласуется с наблюденными пропорциями. Поэтому обе статистики согласия равны нулю при нулевой степени свободы. Две ненасыщенные модели в табл. 9.9,б) и 9.9,в) характеризуются очень низкими значениями и а именно указывает, что смертность связана с клиникой, но смертность и предродовой уход условно по клинике не связаны, что касается {ИК, ПК, ИП), то здесь к предыдущей модели добавляется взаимодействие Поскольку разница в согласии пренебрежима и первая модель менее загруженная, надо, видимо, отдавать предпочтение ей. Модель плохо подходит к данным и включена в иллюстративных целях. Таблица 9.9. (см. скан) Оценки вероятностей в ячейках по насыщенной модели (ИПК) и три логлинейные модели, подобранные по данным табл. 9.8, а) 9.4.2. Логлинейные модели для частично классифицированных таблицКак и для насыщенных моделей из разделов 9.2 и 9.3, при МП-оценивании логлинейных моделей частично классифицированные наблюдения распределяют по полной таблице, используя оценки условных вероятностей, а затем оценивают вероятности классификации по заполненной таблице. Единственная разница заключается в том, что все вероятности оценивают, соблюдая ограничения, налагаемые логлинейной моделью. Эти ограничения могут увеличить объем вычислений, требуемых для получения МП-оценок, по двум причинам. Во-первых, факторизация правдоподобия для монотонных структур не обязательно приводит к явным МП-оценкам, так как параметры в факторах не обязательно являются раздельными. Во-вторых, шаг ЕМ-алгоритма для немонотонных структур может сам быть итеративным. Мы проиллюстрируем каждое из этих обстоятельств примером. Таблица 9.10. (см. скан) МП-оценки для моделей (ИПК). (ИП, ИК, ПК)и по данным табл. 9.8,а) и 9.8, б) Пример 9.9. МП-оценивание в неполной трехфакторной таблице (продолжение примера 9.8). Допустим, что к данным табл. 9.8,а), проанализированным в примере 9.8, добавлены дополнительные данные табл. 9.8,б). В них есть сведения об исходе (И) и предродовом уходе (П), но данных о клинике (К) нет. В результате получаются данные с монотонной структурой, где наблюдаются больше К. Правдоподобие для объединенных данных табл. 9.8,а) и 9.8,б) факторизуется на член для распределения включающий случаев, и член для распределения К при заданном включающий полностью классифицированных случаев. Эти два распределения содержат раздельные параметры для моделей и Следовательно, для этих моделей методом факторизации правдоподобия из гл. 6 можно вывести МП-оценки. В табл. 9.10,а) показаны МП-оценки для насыщенной модели рассчитанные по методу из раздела 9.2. В табл. 9.10, 6) и 9.10,в) показаны МП-оценки для и Поскольку в этих моделях подбираются параметры маргинального взаимодействия оценки вероятностей для этого взаимодействия такие же, как и для Условная вероятность того, что при заданном получается из соответствующей модели по 715 полным случаям. Для эти вычисления неитеративны, но для (ИП, ИК, ПК) требуются итеративные вычисления. Два множества МП-оценок объединяются как для насыщенных моделей, чтобы получить по свойству 5.1 МП-оценки оценки совместных вероятностей Таблица 9.11. (см. скан) МП-оценки для модели вычисляемые с помощью ЕМ-алгоритма по данным табл. 9.8,а) и Параметры распределений ИП и К при заданном ИП не раздельны для модели поэтому методы факторизации правдоподобия неприменимы. В табл. 9.11 приведены четыре итерации ЕМ-алгоритма для этой модели, оценки на шагах 4 и 5 совпадают с точностью до двух десятичных знаков. Вычисления на шаге проводились с помощью микрокалькулятора, а шаг осуществлялся подбором по заполненной таблице с помощью стандартной программы логлинейного анализа в пакете BMDP [см. Dixon(1983)]). Заполненные частоты, полученные на шаге были преобразованы в целые умножением на 100, так как программа логлинейного анализа усекает вводимые вещественные числа до их целой части. Для более крупных задач можно запрограммировать шаг чтобы избавиться от обременительных расчетов. Заметим, что здесь шаг неитеративный. Та же процедура будет действовать и в той ситуации, когда шаг итеративный, но тогда в ЕМ-алгоритме присутствуют вложенные итерации. В предыдущем примере начальные значения для ЕМ-алгоритма основывались на полностью классифицированной таблице. В больших таблицах с нулевыми ячейками эта процедура может давать неудовлетворительные начальные значения, что указано в [Fuchs(1982)]. Например, допустим, что в полной таблице маргинальная таблица, соответствующая некоторому члену в модели, имеет пустую ячейку, а в дополнительной таблице частота в той же ячейке положительна. Если строить начальные значения по полностью категоризованной таблице, то ЕМ-алгоритм никогда не позволит, чтобы в ячейке с нулем была ненулевая вероятность, что противоречит информации из дополнительной таблицы. Эту проблему можно решить, вычисляя начальные значения после того, как к ячейкам полностью классифицированной таблицы будут добавлены положительные значения таким ббразом, что начальные оценки будут находиться в допустимом параметрическом пространстве. На последующих итерациях эти добавки исчезнут. 9.4.3. Критерии для подбора моделей по частично классифицированным даннымСтатистики хи-квадрат, аналогичные (9.9) и (9.10), можно вычислять по частично классифицированным данным, проводя суммирование по ячейкам в полной таблице и в частично классифицированной дополнительной таблице. Заметим, что для насыщенной модели (в примере 9.9 - (ИПК}), в отличие от полных данных, получают ненулевые значения и Эти значения служат для проверки условия ОПС. Статистики хи-квадрат для модели с ограничениями можно получить, вычисляя для модели с ограничениями и для насыщенной модели и вычитывая второе из первого [Fuchs (1982)]. Получаемая разность имеет такое же число степеней свободы, как статистика хи-квадрат для модели с ограничениями для полных данных. Хотя на первый взгляд кажется, что эти процедуры требуют ОПС, на деле критерии остаются верными и при условии, что пропущенные данные ОС. При последнем предположении компоненты правдоподобия, соответствующие механизму порождения пропусков, сокращаются при вычитании значений (или для двух моделей. Пример 9.10 (продолжение примера 9.9). Статистики для выбора модели в неполной трехфакторной таблице. Статистики и для насыщенной модели из примера 9.9 равны:
Вычисление числа степеней свободы выполнено так: всего в данных ячеек, что дает 11 степеней свободы для оценивания 7 вероятностей в ячейках и 1 вероятности получения ответа, или 8 параметров. Отсюда Поскольку 95-я процентиль распределения хи-квадрат с степенями свободы равна 7,815, нулевая гипотеза, что данные ОПС, имеет -значение меньше 0,05 по статистике и около 0,05 по статистике Ненасыщенные модели дают:
Вычитая значения статистик хи-квадрат для насыщенной модели, получаем:
что вполне сопоставимо со статистиками, основанными на полностью классифицированных случаях из табл. 9.9. Как и ранее, мы отдаем предпочтение модели ЛИТЕРАТУРА(см. скан) ЗАДАЧИ(см. скан) (см. скан)
|
1 |
Оглавление
|