Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

11.6. НЕИГНОРИРУЕМЫЕ МОДЕЛИ ДЛЯ КАТЕГОРИАЛЬНЫХ ДАННЫХ

Для неполных категориальных данных рассматривались два вида моделей с неигнорируемыми пропусками. В [Pregibon, (1977); Little (1982); Nordheim (1984)] предлагалось вводить априорные вероятности пропусков для категорий в таблице, которые видоизменяют правдоподобие. В [Baker and Laird (1985); Fay (1986); Little (1985в)] рассматривались логлинейные модели для совместного распределения категориальных переменных и индикаторов пропусков. Здесь мы обсудим второй подход, поскольку он ближе по содержанию к моделям таблиц сопряженности, рассмотренным в гл. 9. В отличие от этих моделей, модели, обсуждаемые ниже, касаются тонких вопросов идентифицируемости, которые мы не будем подробно анализировать. Мы изложим основные идеи, ограничившись примером двухфакторной таблицы сопряженности с одной дополнительной подтаблицей.

Пример 11.9. Двухфакторная таблица сопряженности с одной дополнительной маргинальной таблицей. Допустим, что данные такие же, как в примере наблюдений по двум категориальным переменным, с уровнями с уровнями наблюдений полностью классифицированы и образуют двухфакторную таблицу сопряженности наблюдений классифицированы по но не по и образуют дополнительную маргинальную таблицу . В качестве иллюстрации возьмем данные из табл. 11.5. с

Таблица 11.5. (см. скан) Таблица сопряженности с одной дополнительной маргинальной подтаблицей

Пусть принимает значение 1, если присутствует, и если отсутствует. Допустим, что при фиксированном гипотетические полные наблюдения распределены полиномиально по таблице образованной Пусть так что Эта модель содержит параметров. Данные обладают степенями свободы для ее оценки: в полностью классифицированной таблице, в дополнительной таблице, и одна степень свободы уходит на ограничение: сумма вероятностей равна 1. Отсюда в модели содержится лишних параметров. Мы уменьшим число параметров, вводя ограничения на вероятности в ячейках в виде иерархической логлинейной модели (заметим, что логлинейные модели в разделе 9.4 описывают совместное распределение У, а здесь мы строим модель совместного распределения У и индикатора пропусков

Все иерархические модели, включающие главные эффекты приведены в табл. 11.6. первый столбец описывает модель с помощью обозначений, введенных в разделе 9.4. Следующие три столбца дают число параметров в модели, число степеней свободы

для проверки качества модели и число неидентифицируемых параметров модели, т. е. не входящих в правдоподобие. Для этих величин справедлива взаимосвязь

Последнее число — число степеней свободы в данных. Остальные шесть столбцов показывают результаты проверки соответствия моделей данных в табл. 11.5 — статистика отношения правдоподобий для этой проверки, соответствующее число степеней свободы и оценки вероятностей в ячейках

Таблица 11.6. (см. скан) Модели для двухфакторной таблицы сопряженности с одной дополнительной подтаблицей

Следующие аспекты моделей из табл. 11.6 заслуживают некоторого внимания.

1. Неидентифицируемость. Модели если то и содержат параметры, не поддающиеся оцениванию. Для оценки вероятностей ячеек в этих моделях требуется дополнительная информация. Соответствующие оценки в таблице отсутствуют.

Отметим, что две из этих моделей, неидентифицируемы, хотя число параметров в них меньше числа степеней свободы для данных. Рассмотрим, например, модель условной независимости при заданном т. е. . В этой модели параметров: один — для маргинальной вероятности пропуска, для условного распределения при заданном для условного распределения при Последние два распределения вместе содержат

вероятностей без степеней свободы, так как независимы условно по Правдоподобие для неполных данных распадается на три компоненты с разделительными параметрами, соответствующие маргинальному распределению условному распределению при и условному распределению при Эти компоненты обеспечивают оценки параметров. Остальные параметров, отвечающие распределению при неидентифицируемы. Остается степеней свободы для данных, что соответствует числу степеней свободы при проверке условной независимости при заданном

2. Игнорируемость пропусков. Это свойство выполняется для моделей так как пропуски зависят только от наблюдаемой полностью. Эти модели можно подгонять по данным методам гл. 9. То же справедливо и для моделей поскольку в них предполагается независимость пропусков от т. е. условие «данные Они дают такие же оценки что и их аналоги при условии ОС, т. е. соответственно.

3. Проверка качества. Статистика хи-квадрат для проверки справедливости модели основана на критерии независимости от по двухфакторной маргинальной таблице модели на критерии независимости по полностью классифицированным наблюдениям. Статистика для модели сумма двух первых статистик.

4. Оценивание. МП-оценка для или равна где подставляемые частоты (см., например (9.3)). Можно считать, что эта оценка получается при таком распределении частично классифицированных наблюдений по таблице, которое отвечало бы распределениям полностью наблюдаемым внутри строк, как в примерах 9.1 и 9.2.

Из 5 моделей табл. 11.6 с неигнорируемыми пропусками только одну можно определить без дополнительной априорной информации, а именно которую можно оценить при Эта модель означает, что пропуск зависит от значения но не от МП-оценки для этой модели также имеют вид но теперь подставляемые значения таковы, что т. е. они согласуются с распределениями полностью классифицированных данных внутри столбцов. Эти ограничения вместе с условием для всех приводят к линейным уравнениям относительно неизвестных

Если то параметров больше, чем уравнений, и поэтому нужны априорные условия, чтобы однозначно определить (и, значит, Если то уравнений больше, чем параметров, и МП-оценки не могут точно удовлетворять условиям. В таких случаях для вычисления можно использовать ЕМ-алгоритм (см., например, [Baker and Laird (1985)]). Если , то линейных уравнений можно решить непосредственно, не прибегая к ЕМ-алгоритму. В частности, при мы получим следующие уравнения относительно

Решения равны Для данных табл. 11.5 мы получим

что дает оценки в строке (4) табл. 11.6.

Оценки, получаемые при решении этих линейных уравнений, могут быть отрицательными, т. е. не совпадать с МП-оценками. Как показано в [Baker and Laird (1985)], чтобы такой случай не имел места, шансы в маргинальном столбце должны лежать между наименьшими и наибольшими значениями шансов в столбцах В нашем примере находится между , так что это условие выполняется. Подробности см. в [Baker and Laird (1985)].

5. Выбор модели. Важно отметить, что в нашем примере обе модели, идеально согласуются с данными ввиду отсутствия степеней свободы на проверку согласия. Поэтому невозможно отдать предпочтение одному из двух наборов оценок для этих моделей, не обращаясь к априорным рассуждениям о том, какой механизм порождения пропусков в имеющихся данных более правдоподобен.

В [Little (1985)] идеи этого примера обобщены на случай двухфакторной таблицы с двумя дополнительными маргинальными подтаблицами. В этой ситуации вводятся индикаторы пропусков в и рассматриваются модели четырехфакторной таблицы для Можно рассматривать и таблицы большей размерности, по крайней мере в принципе.

ЛИТЕРАТУРА

(см. скан)

ЗАДАЧИ

(см. скан)

Categories

1
Оглавление
email@scask.ru