10.1.4. ДВУСТОРОННЯЯ (ДВУХФАКТОРНАЯ) ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ
В односторонней классификации данные разделяются на несколько групп с помощью некоторого группового фактора, такого, как получаемая обработка, и имеют такую структуру:
Здесь каждый крестик обозначает одно наблюдение.
Если второй фактор используется для разделения каждой группы, то мы имеем двустороннюю иерархическую, или гнездовую, классификацию, которая обладает следующей структурой:
Здесь группа 1 разбита на 4 подгруппы, каждая из которых содержит четыре, два, одно и три наблюдения, и т. д. Так, например, данные могут представлять собой результаты измерений загрязнения воздуха в различных городах нескольких стран; страны образуют группы, а города — подгруппы.
Обозначим
наблюдение в
подгруппе
группы через
и предположим, что
группа имеет подгрупп,
из которых содержит
наблюдений. Так, группа 2 в примере, приведенном выше, имеет
подгруппы, а число наблюдений в первой из них равно:
Модель полного ранга для этой ситуации такова:
где
— неизвестные параметры, а — независимые наблюдения со средним
. Иначе говоря, наблюдения в
подгруппе
группы представляют собой случайную выборку из распределения со средним
параметров
равно, следовательно, числу подгрупп, т. е.
Такая модель не вполне подходит. Она недостаточно хорошо отражает структуру данных. В ней нет простых параметров, связанных с теми эффектами, которые мы обычно хотим исследовать, а уточнение гипотез, рассмотренных ниже, получается громоздким. Вместо этого будем рассматривать вырожденную модель
где
Эта новая модель имеет
параметров и оказывается перепараметризованной. Если вместо подставить
вместо
, а вместо
то
не изменится. Всего есть
избыточных параметров.
Мы приходим к этому, используя следующие дополнительные условия на
и на
где
— число наблюдений в
группе. В результате этих
дополнительных условий получаются единственные МНК-оценки для
что позволяет нам следующим образом интерпретировать параметры:
— математическое ожидание среднего по всем наблюдениям;
— математическое ожидание среднего по наблюдениям в
группе;
следовательно,
— мера эффекта группы
математическое ожидание среднего по наблюдениям в подгруппе
группы
следовательно, — мера эффекта
подгруппы в
группе.
МНК-оценки параметров находят, минимизируя сумму
с учетом указанных выше дополнительных условий, причем параметры при поиске минимума рассматриваются как алгебраические переменные. Как можно предположить, мы найдем, что:
где
— среднее в
группе,
где у — среднее в
подгруппе
группы. Остаточная сумма квадратов равна:
с числом степеней свободы, равным числу наблюдений минус число независимых параметров, т. е.
где
— число наблюдений,
— число подгрупп. Представляют интерес, главным образом, две гипотезы:
1)
т. е. что между группами вообще нет никакой разницы;
2)
все
т. е. что внутри каждой группы нет различий в подгруппах.
Для проверки этих гипотез нам надо снова оценить параметры с учетом каждой из них и найти соответствующие остаточные суммы квадратов. Детали такого подхода очевидны, и мы их опустим, а основные моменты обсудим. Параметры образуют три ортогональные группы, а именно
содержащие
параметров, из которых только (7—1) независимы;
содержащие
параметров, из которых только
независимы. Следовательно, оценки значений
при гипотезе
и значений
при гипотезе
будут теми же, что и для модели полного ранга, а оценка
равная
сохраняется во всех трех случаях. Величина, на которую
уменьшается благодаря подгонке значений
останется той же независимо от того, включены ли в модель значения
и наоборот. Таким образом, сумму квадратов, обусловленную подбором полной модели (СКМ), можно представить в виде
где
— уменьшение, обусловленное подбором
т. е. увеличение остатков при условии
(так что
— увеличение остатков при условии
. Такой дисперсионный анализ можно представить в обычной табличной форме:
где
Для каждой группы число степеней свободы — это число независимо подбираемых параметров. Критерии строятся обычным образом с помощью сравнения каждого среднего квадрата с
и соотнесения полученного отношения с подходящим значением
-распределения.
Непосредственные выражения различных сумм квадратов через наблюдения появляются как естественная составная часть анализа методом наименьших квадратов. Их можно отыскать и скорее с помощью простого приема, который применялся ранее при односторонней классификации. Представим отклонение произвольного наблюдения от общего среднего в виде суммы трех слагаемых:
Если теперь возвести обе части этого равенства в квадрат и просуммировать по
, то получим
так как члены, содержащие перекрестные произведения, равны нулю. Члены, стоящие в правой части этого уравнения, не что иное, как
Левую сторону можно представить как
Это с учетом того, что
позволяет при простом переобозначении получить основную формулу
Из выражения (10.1.13) можно увидеть, что уменьшение
обусловленное подбором группы параметров, может служить некоторой мерой вариабельности между группами. В соответствии с этим выражением
называется межгрупповой суммой квадратов. Аналогично величина
служит некоторой мерой вариабельности между подгруппами внутри
группы, а величина
объединяет эти меры по всем группам и называется суммой квадратов между подгруппами внутри групп (МПВГСК). Математические ожидания средних квадратов для этих сумм можно найти с помощью элементарных методов:
а значит, снова критерий для сравнения с остатками будет односторонним.