Главная > Справочник по прикладной статистике. Том 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

10.1.4. ДВУСТОРОННЯЯ (ДВУХФАКТОРНАЯ) ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ

В односторонней классификации данные разделяются на несколько групп с помощью некоторого группового фактора, такого, как получаемая обработка, и имеют такую структуру:

Здесь каждый крестик обозначает одно наблюдение.

Если второй фактор используется для разделения каждой группы, то мы имеем двустороннюю иерархическую, или гнездовую, классификацию, которая обладает следующей структурой:

Здесь группа 1 разбита на 4 подгруппы, каждая из которых содержит четыре, два, одно и три наблюдения, и т. д. Так, например, данные могут представлять собой результаты измерений загрязнения воздуха в различных городах нескольких стран; страны образуют группы, а города — подгруппы.

Обозначим наблюдение в подгруппе группы через и предположим, что группа имеет подгрупп, из которых содержит наблюдений. Так, группа 2 в примере, приведенном выше, имеет подгруппы, а число наблюдений в первой из них равно:

Модель полного ранга для этой ситуации такова:

где — неизвестные параметры, а — независимые наблюдения со средним . Иначе говоря, наблюдения в подгруппе группы представляют собой случайную выборку из распределения со средним параметров равно, следовательно, числу подгрупп, т. е.

Такая модель не вполне подходит. Она недостаточно хорошо отражает структуру данных. В ней нет простых параметров, связанных с теми эффектами, которые мы обычно хотим исследовать, а уточнение гипотез, рассмотренных ниже, получается громоздким. Вместо этого будем рассматривать вырожденную модель

где

Эта новая модель имеет параметров и оказывается перепараметризованной. Если вместо подставить вместо , а вместо то не изменится. Всего есть избыточных параметров.

Мы приходим к этому, используя следующие дополнительные условия на и на

где — число наблюдений в группе. В результате этих дополнительных условий получаются единственные МНК-оценки для что позволяет нам следующим образом интерпретировать параметры:

— математическое ожидание среднего по всем наблюдениям;

— математическое ожидание среднего по наблюдениям в группе;

следовательно, — мера эффекта группы

математическое ожидание среднего по наблюдениям в подгруппе группы следовательно, — мера эффекта подгруппы в группе.

МНК-оценки параметров находят, минимизируя сумму с учетом указанных выше дополнительных условий, причем параметры при поиске минимума рассматриваются как алгебраические переменные. Как можно предположить, мы найдем, что:

где — среднее в группе, где у — среднее в подгруппе группы. Остаточная сумма квадратов равна:

с числом степеней свободы, равным числу наблюдений минус число независимых параметров, т. е. где — число наблюдений, — число подгрупп. Представляют интерес, главным образом, две гипотезы:

1) т. е. что между группами вообще нет никакой разницы;

2) все т. е. что внутри каждой группы нет различий в подгруппах.

Для проверки этих гипотез нам надо снова оценить параметры с учетом каждой из них и найти соответствующие остаточные суммы квадратов. Детали такого подхода очевидны, и мы их опустим, а основные моменты обсудим. Параметры образуют три ортогональные группы, а именно содержащие параметров, из которых только (7—1) независимы; содержащие параметров, из которых только независимы. Следовательно, оценки значений при гипотезе и значений при гипотезе будут теми же, что и для модели полного ранга, а оценка равная сохраняется во всех трех случаях. Величина, на которую уменьшается благодаря подгонке значений останется той же независимо от того, включены ли в модель значения и наоборот. Таким образом, сумму квадратов, обусловленную подбором полной модели (СКМ), можно представить в виде

где — уменьшение, обусловленное подбором т. е. увеличение остатков при условии (так что — увеличение остатков при условии . Такой дисперсионный анализ можно представить в обычной табличной форме:

где Для каждой группы число степеней свободы — это число независимо подбираемых параметров. Критерии строятся обычным образом с помощью сравнения каждого среднего квадрата с и соотнесения полученного отношения с подходящим значением -распределения.

Непосредственные выражения различных сумм квадратов через наблюдения появляются как естественная составная часть анализа методом наименьших квадратов. Их можно отыскать и скорее с помощью простого приема, который применялся ранее при односторонней классификации. Представим отклонение произвольного наблюдения от общего среднего в виде суммы трех слагаемых:

Если теперь возвести обе части этого равенства в квадрат и просуммировать по , то получим

так как члены, содержащие перекрестные произведения, равны нулю. Члены, стоящие в правой части этого уравнения, не что иное, как Левую сторону можно представить как

Это с учетом того, что позволяет при простом переобозначении получить основную формулу

Из выражения (10.1.13) можно увидеть, что уменьшение обусловленное подбором группы параметров, может служить некоторой мерой вариабельности между группами. В соответствии с этим выражением называется межгрупповой суммой квадратов. Аналогично величина служит некоторой мерой вариабельности между подгруппами внутри группы, а величина объединяет эти меры по всем группам и называется суммой квадратов между подгруппами внутри групп (МПВГСК). Математические ожидания средних квадратов для этих сумм можно найти с помощью элементарных методов:

а значит, снова критерий для сравнения с остатками будет односторонним.

1
Оглавление
email@scask.ru