5. Основная таблица дисперсионного анализа может быть составлена так:
Дальнейшее разбиение таблицы дисперсионного анализа на части может быть выполнено следующим образом:
5а. Если в модели имеется коэффициент
то сумму квадратов, обусловленную регрессией, можно разбить на слагаемые:
Эти суммы имеют соответственно
степеней свободы. Разбиение суммы квадратов, связанной с регрессией, на составные части будет обсуждаться более детально в параграфе 2.7.
56. Если имеются повторные наблюдения, то мы можем расщепить остаточную
на
(«чистой» ошибки), связанную с «чистой» ошибкой и имеющую
степеней свободы, которая оценивает
и
(неадекватности) — сумму квадратов, связанную с неадекватностью модели и имеющую
степеней свободы. При проведении повторных опытов должны выдерживаться уровни всех независимых переменных (хотя на практике иногда используются «очень близкие» точки). Это приводит к следующей таблице дисперсионного анализа:
(Примечание. Порядок, в котором расположены члены в этой таблице, не играет роли. Большинство таблиц в данной книге имеет такое расположение, которое зачастую можно видеть в машинных программах.)
-статистика. Отношение
есть обобщение величины, введенной ранее при рассмотрении линейной регрессии, и представляет собой квадрат множественного коэффициента корреляции. Другое название величины
множественный коэффициент детерминации. Величину
не следует путать с буквой
в выражениях
где буква
отражает вклад регрессии.
есть квадрат коэффициента корреляции между
при этом
Если есть повторные опыты, то
не может достигать 1; см. замечания на с. 54, 61—62, 84, 98—99.
при полном согласии экспериментальных и расчетных данных
но это маловероятный случай.
Если
т. е.
(или адекватна модель
Следовательно,
есть мера полезности параметров кроме
в модели. Важно понимать, что величина
может принимать значение 1 только при соответствующем выборе коэффициентов модели, включая
поскольку в этом случае может быть подобрана модель, которая описывает экспериментальные результаты точно. (Например, если мы имеем наблюдения
для четырех различных значений X, то кубический полином
пройдет точно через все четыре точки.) Поскольку величина
используется часто в качестве меры эффективности регрессионной модели при объяснении вариации в данных, мы должны быть уверены, что увеличение
благодаря введению новых слагаемых в модель имеет некоторый реальный смысл, а не обусловлено всего лишь тем фактом, что число параметров в модели становится ближе к состоянию насыщения, т. е. к числу наблюдений. Это особенно опасно, когда имеются повторные наблюдения. Например, если мы имеем сто наблюдений, состоящих из пяти групп, содержащих по двадцать повторных наблюдений, то фактически мы имеем лишь пять величин, несущих содержательную информацию, и они представляются пятью средними значениями, а также 95 степеней свободы для суммы квадратов, связанной с «чистой» ошибкой, по 19 для каждой точки, где проводятся повторные опыты. Следовательно, модель, содержащая пять параметров, дает очень хорошее согласие с пятью средними и может дать величину
очень близкую к 1, особенно, если экспериментальная ошибка мала по сравнению с размахом для пяти средних. В этом случае тот факт, что сотня наблюдений может хорошо предсказываться с помощью модели, содержащей лишь пять параметров, не является удивительным, так как на самом деле модель предсказывает только пять различных определенных экспериментальных
точек, а не сто, как это могло показаться вначале. Может быть и так, что точных повторений нет, но точки в Х-пространстве (для которых имеются наблюдения
расположены близко друг к другу. Такая ситуация может быть, однако, не очевидной, хорошо скрытой благодаря определенному подбору экспериментальных данных. Графики данных и остатки (см. гл. 3 обычно позволяют обнаруживать такие «скопления» (кластеры — clasters) точек.