Главная > Прикладной регрессионный анализ, книга 1
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

1.3. ТОЧНОСТЬ ОЦЕНКИ РЕГРЕССИИ

Теперь мы изучим вопрос о том, какая точность может быть приписана нашей оценке линии регрессии. Рассмотрим следующее тождество:

Рис. 1.6. Геометрический смысл тождества (1.3.1)

Что это означает геометрически для подбора прямой, показано на рис. 1.6. Остаток представляет собой разность между двумя величинами: 1) отклонением наблюдаемого значения отклика от общего среднего откликов и 2) отклонением предсказанного значения отклика от того же общего среднего Заметим, что среднее арифметическое предсказанных значений равно

Иными словами, среднее арифметическое предсказанных значений то же, что и среднее арифметическое наблюдаемых откликов Из этого факта еще раз вытекает, что как было установлено ранее.

Уравнение (1.3.1) можно переписать еще и так:

Если мы возведем обе части этого выражения в квадрат и просуммируем от до то получим:

Воспользовавшись уравнением (1.2.11) с подстрочным индексом можно показать, что член, содержащий парное произведение а именно исчезает, поскольку

Отсюда следует, что член, содержащий парное произведение, равен:

по уравнению Отсюда также ясно, что

Теперь мы можем вернуться к обсуждению уравнения (1.3.2). Величина это отклонение наблюдения от общего среднего, следовательно, левая часть уравнения (1.3.2) — это сумма квадратов отклонений относительно среднего наблюдений, сокращенно — относительно среднего, а также скорректированная сумма квадратов Так как есть отклонение наблюдения от его предсказанного или вычисленного значения остаток), а отклонение предсказанного значения наблюдения от среднего, то мы можем выразить уравнение (1.3.2) словесно следующим образом:

Отсюда следует, что разброс относительно их среднего можно приписать в некоторой степени (поскольку есть член тому факту, что не все действительные наблюдения лежат на линии регрессии. А если бы это было не так, то сумма квадратов относительно регрессии была бы равна нулю! Из этих рассуждений ясно, что пригодность линии регрессии для целей предсказания зависит от того,

какая часть относительно среднего приходится на обусловленную регрессией, и какая — соответствует относительно регрессии. Мы будем удовлетворены, если обусловленная регрессией, будет много больше, чем относительно регрессии, или, что то же самое, если отношение будет не слишком сильно отличаться от единицы.

Всякая сумма квадратов связана с числом, называемым ее степенями свободы. Это число показывает, как много независимых элементов информации, получающихся из независимых чисел требуется для образования данной суммы квадратов. Например, для относительно среднего требуется независимый элемент (из чисел независимы только так как сумма всех чисел при определении среднего приравнивалась к нулю). Мы можем вычислить обусловленную регрессией, используя единственную функцию от а именно (так как и поэтому данная сумма квадратов имеет одну степень свободы. По разности относительно регрессии имеет степени свободы. Это отражает тот факт, что рассматриваемые остатки получены для модели прямой линии, которая требует оценивания двух параметров. Вообще, остаточная сумма квадратов основывается на числе степеней свободы, равном числу наблюдений минус число оцениваемых параметров. Следовательно, в соответствии с уравнением (1.3.2), мы можем разложить степени свободы таким образом:

Пользуясь уравнениями (1.3.2) и (1.3.4), мы можем построить таблицу дисперсионного анализа, представленную в табл. 1.3. «Средний квадрат» получается при делении каждой суммы квадратов на соответствующее ей число степеней свободы.

Более общая форма таблицы дисперсионного анализа, которая здесь нам не понадобится, но будет полезна позднее (см. параграф 2.2), получается при добавлении в таблицу корректирующего фактора для среднего который по причинам, указанным в параграфе 2.2, называется Такая таблица имеет вид табл. 1.4. (Обратите внимание, что в шапке используются сокращения.) (Альтернативный способ представления табл. 1.4 состоит в том, чтобы опустить строку, обозначенную «Общий, скорректированный», и не воспользоваться упомянутым выше правилом. А строка «Общий» станет тогда суммой оставшихся трех строк.)

Когда вычисления для табл. 1.3 и 1.4 идут на микрокалькуляторе, остаточная сумма редко подсчитывается так, как показано в

(кликните для просмотра скана)

таблице, а обычно получается делением на «общую, скорректированную Сумму квадратов, обусловленную регрессией, можно, как показано ниже, вычислять множеством способов. (Суммирование везде идет по

Мы оставляем читателю возможность самостоятельно убедиться в том, что эти формулы алгебраически эквивалентны тем, что фигурировали ранее на с. 35 и 39. В таком виде уравнение (1.3.5) проще всего использовать на микрокалькуляторе, поскольку оба сомножителя уже получены при подборе уравнения прямой. Правда, округление при вычислении может послужить причиной неточности, поэтому мы советуем при вычислениях применять формулу (1.3.7), где деление производится в последний момент.

Отметим, что общую скорректированную сумму квадратов можно записать и вычислять следующим образом:

Обозначение читается так: «сумма квадратов для с учетом поправки на Причины такого обозначения объясняются в параграфах 2.2 и 2.7.

Средний квадрат относительно регрессии дает оценку дисперсии относительно регрессии, основанную на степенях свободы. Мы будем обозначать эту величину Если уравнение регрессии будет оцениваться из неопределенно большого числа наблюдений, то дисперсия относительно регрессии будет представлять ошибку измерения, с которой любое измеренное значение У предсказывается для данного значения X по известному уравнению (см. примечание в параграфе 1.4, с. 45).

Теперь мы выполним вычисления для нашего примера, а затем обсудим ряд подходов, с помощью которых можно исследовать уравнение регрессии. Сумма квадратов обусловленная регрессией,

с учетом (1.3.7) есть

Полная (скорректированная) сумма квадратов есть

Наша оценка величины это Она основана на 23 степенях свободы. Что такое величина будет объяснено позднее.

Таблица 1.5. Таблица дисперсионного анализа для примера

Упрощенная таблица дисперсионного анализа

Упрощенная таблица дисперсионного анализа содержит только столбцы «Источник» и «Число степеней свободы». Во многих случаях, как, например, в параграфе 1.8, где сравнивается несколько возможных расположений опытов (планов экспериментов) еще до их реализации, полезно для выяснения того, какой из них окажется более предпочтительным, сравнить соответствующие упрощенные таблицы дисперсионного анализа.

Categories

1
Оглавление
email@scask.ru