9.4. РЕГРЕССИОННАЯ ОБРАБОТКА ОДНОСТОРОННЕЙ КЛАССИФИКАЦИИ С ИСПОЛЬЗОВАНИЕМ ИСХОДНОЙ МОДЕЛИ

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

9.4. РЕГРЕССИОННАЯ ОБРАБОТКА ОДНОСТОРОННЕЙ КЛАССИФИКАЦИИ С ИСПОЛЬЗОВАНИЕМ ИСХОДНОЙ МОДЕЛИ

Вместо (9.3.1) запишем

Выразим теперь тот факт, что математическое ожидание наблюдения из группы должно быть равно Введем обозначения:

(см. скан)

где пунктирные линии разделяют матрицу на подматрицы, содержащие соответственно строк. Заголовки показывают, каким переменным X соответствуют столбцы. Далее обозначим

Тогда соотношение

представляет собой запись уравнения (9.3.1) в матричной форме. Теперь

Если обозначить через МНК-оценки параметров то нормальные уравнения можно записать в виде:

В данном случае обратной матрицы не существует, так как особенная (уравнения (9.4.3) не являются независимыми, ибо первое уравнение есть сумма остальных уравнений). В нашем распоряжении есть только уравнений с неизвестными поскольку исходная модель (9.3.1) содержит больше параметров, чем это фактически необходимо. Эта «особенность» матрицы вытекает также и из того факта, что столбец матрицы X равен сумме столбцов Имеющаяся зависимость отражается в нормальных уравнениях (9.4.3), что мы уже отмечали. Как же теперь выйги из положения? Мы не принимали пока во внимание условие (9.3.2), которое справедливо как для параметров, так для их -нок. Следовательно,

что дает дополнительное необходимое нам независимое уравнение. Возьмем теперь любые I уравнений из системы (9.4.3) вместе с

уравнением (9.4.4) и образуем из них систему нормальных уравнений. Из (9.4.3) удобнее отбросить первое уравнение, содержащее больше всего членов. Тогда придем к такой системе нормальных уравнений:

Чтобы сохранить симметрию, мы не будем сокращать уравнения, начиная со второго, на соответствующие общие множители. В матричной форме система (9.4.5) имеет вид

(см. скан)

Поскольку мы не можем выразить эти уравнения в виде нецелесообразно использовать приемы, ориентированные на такую форму записи. Каждое из уравнений (9.4.5), начиная со второго, позволяет найти

После подстановки в первое уравнение получим

Таким образом,

Сумма квадратов, обусловленная вектором оценок параметров которые определяются из уравнений выражается

величиной даже для вырожденной матрицы не имеющей обратной (дополнительные условия необходимы, чтобы обеспечить единственное решение). Величина есть инвариант по отношению к вектору рассматриваемом случае . В самом деле, если два решения, соответствующие различным «дополнительным условиям», то справедливо соотношение

Осуществив перегруппировку и воспользовавшись известным из теории матриц свойством продолжим цепочку равенств:

Таким образом, сумма квадратов, обусловленная регрессией, есть

с I степенями свободы, так как дополнительный член

добавляемый в правую часть уравнения, равен нулю по определению средних. Если бы модель содержала только один член (и, то мы имели бы

с одной степенью свободы. Для общего случая

степенями свободы.

Итак, полученная сумма квадратов обусловлена «средним» и рассеянием «между группами», которые указаны в таблице дисперсионного анализа в § 9.3. Сумма квадратов, вызванная рассеянием «внутри групп», находится, как обычно, по разности которая совпадает с развернутым выражением из таблицы в § 9.3. Проверка гипотезы выполняется точно так же, как в дисперсионном анализе.

Мы уже видели, что дисперсионный анализ в случае односторонней классификации может быть выполнен формально, если применить регрессию, используя исходную модель. Однако, чтобы провести вычисления на машине, вероятно, лучше сначала избавиться от вырожденности путем преобразования модели.

(Примечание. Из сказанного выше ясно, как поступать вообще в регрессионной задаче, когда число параметров, подлежащих оцениванию, больше числа независимых нормальных уравнений. Если нет никаких естественных ограничений, как в случае дисперсионного анализа, то надо ввести ограничения произвольного вида. Хотя вы бор ограничений и оказывает влияние на фактические значения

коэффициентов регрессии, он не влияет на величину суммы квадратов, обусловленную регрессией. Обычно мы будем выбирать ограничения таким образом, чтобы облегчить решение нормальных уравнений.) Пример. Предположим, что нормальные уравнения имеют вид:

(Эти уравнения взяты из книги: Plackett R. L. Regression analysis.- Oxford: Clarendon Press, 1960, p. 44. Они вытекают из двусторонней классификации с различным числом наблюдений в ячейках. Но такие данные могут возникнуть и в том случае, когда проводится дисперсионный анализ с одинаковым числом наблюдений в ячейках, но некоторые наблюдения теряются. В следующем параграфе будет рассмотрен случай одинакового числа наблюдений в ячейках.)

Только четыре из приведенных шести уравнений независимы, так как второе и третье уравнения в сумме дают первое, а сумма четвертого, пятого и шестого уравнений также совпадает с первым уравнением. Таким образом, чтобы получить шесть уравнений относительно шести неизвестных, нужны еще два дополнительных уравнения. Это должны быть два дополнительных независимых ограничения, связывающие причем таких, чтобы они не были линейными комбинациями имеющихся уравнений.

Так как фактически имеется только четыре независимых нормальных уравнения, мы можем опустить два зависимых уравнения, например первое и шестое. Оставшиеся четыре уравнения можно записать в матричной форме так:

Поскольку исходная матрица была симметричной, указанная выше зависимость строк (или уравнений) выражается также в том, что первый столбец равен как сумме второго и третьего, так и сумме четвертого, пятого и шестого столбцов. При добавлении двух ограничений на коэффициенты мы должны позаботиться о двух моментах. Добавленные к четырем отобранным уравнениям ограничения приведут к появлению двух новых строк в матрице и двух дополнительных

нулей в записи вектора, стоящего в правой части равенства (обычно выбирают ограничения в форме Если мы хотим получить единственное решение, то окончательная матрица должна быть такой, чтобы ее строки и столбцы оказались независимыми. (Более изящный матричный способ представления этих рассуждений дан, например, Плэккеттом (Plackett, 1960), но мы не приводим его в нашем, более элементарном изложении). Так, например, мы не можем воспользоваться ограничениями

так как в этом случае сохраняется первоначальная зависимость столбцов. Даже если остается только одна связь между столбцами, как, скажем, в случае ограничений

при которых первый столбец будет равен сумме второго и третьего, такие ограничения также будут бесполезны. Но соотношения

в качестве ограничений уже приемлемы, поскольку в этом случае не будет никакой зависимости, и мы получим шесть уравнений относительно шести переменных, что и требуется. (Различные ограничения были исследованы Плэккеттом, книгу которого мы рекомендуем для более углубленного ознакомления с возникающими в таких задачах проблемами.)

Идея добавления произвольных ограничений может показаться на первый взгляд несколько необычной. Следует, однако, напомнить, что к этому приходится прибегать лишь тогда, когда в модели больше параметров, чем требуется для описания. Подобное несоответствие в какой-то момент должно быть устранено, что и достигается путем добавления ограничений.

<< Предыдущий параграф

Следующий параграф >>

Оглавление