11.3.6. ФАКТОРНАЯ МОДЕЛЬ ДЛЯ КРОСС-КЛАССИФИЦИРОВАННЫХ ДАННЫХ
Информативным представлением массива данных, в котором объясняющими переменными являются факторы, будет таблица кроссклассификации для уровней факторов. Приведем два примера.
Курение и пол
Длина ящериц по видам и регионам
Структура этих таблиц идентична, что ведет к подгонке моделей, имеющих один и тот же линейный предиктор. Однако сначала обсудим различия между примерами.
Заметим, что имеется неопределенность относительно размера массива данных в примере о курильщиках. Могло быть четыре наблюдения для четырех клеток таблицы, а могло быть и 120 наблюдений, соответствующих 120 подросткам. В другом примере данные о длине ящериц сбалансированы. Для каждой клетки таблицы имеется точно одна ящерица и четыре объекта (единицы).
Второе различие состоит в выборе вероятностной модели для зависимой переменной. Число подростков, попадающих в некоторую ячейку, есть зависимая переменная для первого примера. Правдоподобной моделью является мультиномиальное распределение [см. II, раздел 6.4] с параметрами
и вероятностями, приписанными для этих четырех ячеек. Альтернативой, хотя в некотором смысле и эквивалентной, является пуассоновская функция плотности [см. II, раздел 5.4]. Обе эти модели дискретны и не имеют неизвестного параметра масштаба. Для другой таблицы длина ящерицы представляет собой непрерывную переменную, и разумно выбрать нормальную плотность [см. И, раздел 11.4], которая зависит от параметра масштаба.
Еще одно различие связано с выбором подходящей шкалы измерений. Вопрос, закономерный для таблицы «Курение и пол», состоит в том, является ли отношение курильщиков к некурящим одинаковым для обоих полов, т. е. значимо ли отличается отношение 10/40 от 45/25. Для данных о ящерицах логичен вопрос, одинаково ли региональное различие в длине для обоих видов, т. е. значимо ли различие разностей 16,3-15,2 и 18,6-17,7. В предыдущем примере естественная шкала вычислений мультипликативная, в то время как в последнем — аддитивная.
Последнее различие может быть устранено переходом к логарифмической шкале в примере «курильщики—пол». Тогда будут сравниваться величины
Сравнение имеет такую же аддитивную структуру, как и в примере с ящерицами. Заметим, что
так что вопрос о равенстве пропорций курильщиков и некурящих для обоих полов имеет тот же ответ, что и вопрос, одинаково ли соотношение девочек и мальчиков среди курильщиков и некурящих. Линейный предиктор для обоих примеров имеет вид
И в том и в другом случаях проверяется равенство
Пример «курильщики—пол» имел логарифмическую функцию связи
в то время как примеру с длиной ящериц соответствует тождественная функция связи. Но в обоих примерах небезынтересно выяснить, существует ли взаимодействие, для чего проводится сравнение модели
с
Диаграмма моделей для линейного предиктора в случае двух факторов имеет следующий вид:
А и В — факторы, обеспечивающие кросс-классификацию данных. Сравнение моделей
и
является тестом для выявления взаимодействия: имеется ли связь между полом и курением; имеется ли различие между видами ящериц, обусловленное регионами? При сравнении
проверяется различие между уровнями В на каждом уровне
равно ли число курящих числу некурящих среди мальчиков и девочек; имеют ли виды ящериц одинаковую длину на севере и на юге? Сравнение
позволяет определить различие между уровнями В в целом: равно ли число курящих числу некурящих независимо от пола; является ли длина разных видов ящериц одинаковой независимо от региона?
При выборе модели для сравнения необходимы внимание и осторожность. Так, в примере «курильщики — пол» реальный интерес представляет только сравнение
, в то время как в примере с ящерицами интересно только сравнение
.
Введенные здесь обозначения позволяют легко ссылаться на различные модели. В частности, нам не нужно указывать число уровней у факторов. Та же иерархия моделей пригодна и в случае пяти видов ящериц и четырех регионов. Эти обозначения легко распространить и на ситуацию с тремя факторами. Пусть мы имеем наблюдения с тремя факторами. Тогда двухвходовая таблица заменяется трехвходовой:
Данные Бартлетта о черенках слив
Приведем иерархию факторных моделей, подходящих для трехфакторной таблицы кросс-классификации с факторами А, В, С.
Диаграмма иерархии моделей для трех факторов
Другие модели могут быть получены при перестановке букв А, В и С.
В целом имеется одна модель, содержащая все трехвходовые взаимодействия, т. е. индикаторные векторы для одновременной спецификации уровней для А, В и
, десять моделей с двухвходовыми взаимодействиями, но без трехвходовых, семь моделей с простыми главными эффектами и одну модель с некоторым постоянным значением.
Решение, какую из моделей выбрать для оценки, зависит от способа получения данных, априорного знания о возможных зависимостях, цели, для которой используется модель, и простоты содержательной интерпретации модели. Для иллюстрации сложности интерпретации, связанной с трехфакторной моделью, предположим, что известно существование связей между А и С. Таким образом, моделью будет
и она не будет редуцироваться к
. При этом из возможных объяснений такого взаимодействия можно было бы предполагать, что если значение В поддерживается постоянным, то это взаимодействие исчезает. В этом случае любая из моделей
и
должна редуцироваться к
.
Количество факторных моделей растет с увеличением числа факторов. Читатель может попытаться построить диаграмму моделей для четырех факторов.