Главная > Справочник по прикладной статистике. Том 2
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

11.3.6. ФАКТОРНАЯ МОДЕЛЬ ДЛЯ КРОСС-КЛАССИФИЦИРОВАННЫХ ДАННЫХ

Информативным представлением массива данных, в котором объясняющими переменными являются факторы, будет таблица кроссклассификации для уровней факторов. Приведем два примера.

Курение и пол

Длина ящериц по видам и регионам

Структура этих таблиц идентична, что ведет к подгонке моделей, имеющих один и тот же линейный предиктор. Однако сначала обсудим различия между примерами.

Заметим, что имеется неопределенность относительно размера массива данных в примере о курильщиках. Могло быть четыре наблюдения для четырех клеток таблицы, а могло быть и 120 наблюдений, соответствующих 120 подросткам. В другом примере данные о длине ящериц сбалансированы. Для каждой клетки таблицы имеется точно одна ящерица и четыре объекта (единицы).

Второе различие состоит в выборе вероятностной модели для зависимой переменной. Число подростков, попадающих в некоторую ячейку, есть зависимая переменная для первого примера. Правдоподобной моделью является мультиномиальное распределение [см. II, раздел 6.4] с параметрами и вероятностями, приписанными для этих четырех ячеек. Альтернативой, хотя в некотором смысле и эквивалентной, является пуассоновская функция плотности [см. II, раздел 5.4]. Обе эти модели дискретны и не имеют неизвестного параметра масштаба. Для другой таблицы длина ящерицы представляет собой непрерывную переменную, и разумно выбрать нормальную плотность [см. И, раздел 11.4], которая зависит от параметра масштаба.

Еще одно различие связано с выбором подходящей шкалы измерений. Вопрос, закономерный для таблицы «Курение и пол», состоит в том, является ли отношение курильщиков к некурящим одинаковым для обоих полов, т. е. значимо ли отличается отношение 10/40 от 45/25. Для данных о ящерицах логичен вопрос, одинаково ли региональное различие в длине для обоих видов, т. е. значимо ли различие разностей 16,3-15,2 и 18,6-17,7. В предыдущем примере естественная шкала вычислений мультипликативная, в то время как в последнем — аддитивная.

Последнее различие может быть устранено переходом к логарифмической шкале в примере «курильщики—пол». Тогда будут сравниваться величины Сравнение имеет такую же аддитивную структуру, как и в примере с ящерицами. Заметим, что так что вопрос о равенстве пропорций курильщиков и некурящих для обоих полов имеет тот же ответ, что и вопрос, одинаково ли соотношение девочек и мальчиков среди курильщиков и некурящих. Линейный предиктор для обоих примеров имеет вид

И в том и в другом случаях проверяется равенство Пример «курильщики—пол» имел логарифмическую функцию связи в то время как примеру с длиной ящериц соответствует тождественная функция связи. Но в обоих примерах небезынтересно выяснить, существует ли взаимодействие, для чего проводится сравнение модели с Диаграмма моделей для линейного предиктора в случае двух факторов имеет следующий вид:

А и В — факторы, обеспечивающие кросс-классификацию данных. Сравнение моделей и является тестом для выявления взаимодействия: имеется ли связь между полом и курением; имеется ли различие между видами ящериц, обусловленное регионами? При сравнении проверяется различие между уровнями В на каждом уровне равно ли число курящих числу некурящих среди мальчиков и девочек; имеют ли виды ящериц одинаковую длину на севере и на юге? Сравнение позволяет определить различие между уровнями В в целом: равно ли число курящих числу некурящих независимо от пола; является ли длина разных видов ящериц одинаковой независимо от региона?

При выборе модели для сравнения необходимы внимание и осторожность. Так, в примере «курильщики — пол» реальный интерес представляет только сравнение , в то время как в примере с ящерицами интересно только сравнение .

Введенные здесь обозначения позволяют легко ссылаться на различные модели. В частности, нам не нужно указывать число уровней у факторов. Та же иерархия моделей пригодна и в случае пяти видов ящериц и четырех регионов. Эти обозначения легко распространить и на ситуацию с тремя факторами. Пусть мы имеем наблюдения с тремя факторами. Тогда двухвходовая таблица заменяется трехвходовой:

Данные Бартлетта о черенках слив

Приведем иерархию факторных моделей, подходящих для трехфакторной таблицы кросс-классификации с факторами А, В, С.

Диаграмма иерархии моделей для трех факторов

Другие модели могут быть получены при перестановке букв А, В и С.

В целом имеется одна модель, содержащая все трехвходовые взаимодействия, т. е. индикаторные векторы для одновременной спецификации уровней для А, В и , десять моделей с двухвходовыми взаимодействиями, но без трехвходовых, семь моделей с простыми главными эффектами и одну модель с некоторым постоянным значением.

Решение, какую из моделей выбрать для оценки, зависит от способа получения данных, априорного знания о возможных зависимостях, цели, для которой используется модель, и простоты содержательной интерпретации модели. Для иллюстрации сложности интерпретации, связанной с трехфакторной моделью, предположим, что известно существование связей между А и С. Таким образом, моделью будет и она не будет редуцироваться к . При этом из возможных объяснений такого взаимодействия можно было бы предполагать, что если значение В поддерживается постоянным, то это взаимодействие исчезает. В этом случае любая из моделей и должна редуцироваться к .

Количество факторных моделей растет с увеличением числа факторов. Читатель может попытаться построить диаграмму моделей для четырех факторов.

1
Оглавление
email@scask.ru