8.5.2. Испытание гипотезы для оценки линейности связи
Воспользуемся данными случайной выборки из генеральной совокупности для измерения линейной связи для совокупности. Мы не знаем, является ли связь в генеральной совокупности линейной. Случайная выборка может свидетельствовать о линейности связи переменных, тогда как в действительности в генеральной совокупности связь может быть нелинейной. Такого рода возможности показаны на рис. 8.17 и 8.18.
Рис. 8.17. Случайная выборка генеральной совокупности, с линейной связью
Рис. 8.18. Случайная выборка с нелинейной связью
Необходимо установить вероятность того, что линейная связь в выборочной совокупности свидетельствует о линейной связи в генеральной совокупности. В решении этой задачи нам поможет испытание гипотезы. Как в любой ситуации, где используются гипотезы, мы не можем без сомнения утверждать, что связь в генеральной совокупности совместима со связью в выборочной совокупности. Определим совместимость через испытание нулевой гипотезы. Линейная регрессия отображается в нескольких статистиках и можно провести проверку гипотезы для каждой из них, а потом сделать совокупный вывод. Нулевые гипотезы при этом формируются аналогично вышеуказанным. В данном случае нулевая гипотеза означает отсутствие линейной связи между зависимой и независимой переменными в генеральной совокупности.
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ p
Вычисление коэффициента корреляции Пирсона зависит от размера выборки. Если мы интерпретируем величину с точки зрения выборки, то не принимаем во внимание ее размер. Вывод о связи в генеральной совокупности зависит от размера выборочной совокупности. Так, если мы получили коэффициент корреляции, например 0,90, который рассчитан для выборочной совокупности из шести единиц, и сравниваем его с таким же значением, которое было рассчитано для совокупности из двадцати единиц, то во втором случае мы более уверены, что связь в генеральной
совокупности — линейная. Шанс получения выборочной совокупности, в которой связь линейна, из генеральной совокупности, в которой связь не линейна, уменьшается по мере увеличения размера выборки. Коэффициент корреляции оценивается с помощью -критерия:
Между переменными х и у не существует линейной связи, иначе говоря, независимая переменная х не помогает в предсказании значений у, т.е.
т.е. между переменными существует некая линейная связь, х помогает в прогнозировании у.
Используя эти альтернативные гипотезы, мы получим двусторонний критерий. Если бы мы решили, что должно быть только положительным, то и мы использовали бы односторонний критерий:
Количество степеней свободы равно так как мы рассчитали х и у для нахождения используя две степени свободы, — число пар значений выборки. Если бы нам понадобилось провести испытание при 5%-ном уровне значимости, используя двусторонний критерий, полученное значение критерия нужно сравнить с из Приложения 2.
Для того чтобы проиллюстрировать наши действия, вернемся к примеру 8.1. Мы получили значение коэффициента корреляции Тогда значение критерия:
Количество степеней свободы: (10-2) = 8
По таблицам Приложения 2 находим:
Рассчитанное значение критерия (9,45) больше, чем 2,306. Поэтому мы отвергнем Но на 5%-ном уровне значимости и выберем гипотезу т.е. мы в праве предположить, что коэффициент корреляции в генеральной совокупности не равен нулю, и что между временем и расстоянием существует линейная связь. Этот результат можно было предвидеть, учитывая высокое значение коэффициента корреляции
КРИТЕРИЙ ПРОВЕРКИ ГИПОТЕЗЫ О СВЯЗИ НА ОСНОВЕ ПОКАЗАТЕЛЯ НАКЛОНА ЛИНИИ РЕГРЕССИИ
В простой линейной регрессии критерий показателя наклона — коэффициента регрессии, выполняет те же функции, что и критерий коэффициента корреляции. Поэтому мы проводим либо испытание либо , но не оба сразу. В уравнении множественной регрессии, где имеется коэффициент регрессии для каждой независимой переменной, необходимы оба критерия, и они выполняют различные функции.
: Между переменными нет линейной связи и х не помогает в прогнозе у, т.е.
т. е. существует линейная связь, и х помогает в прогнозе у.
В этом случае используют двусторонний критерий. Однако как и при испытании мы можем заменить этот критерий на односторонний, если предполагаем, что или — более значимые гипотезы. Формула критерия похожа на ту, что мы использовали для цирв гл. 6. Когда дисперсия генеральной совокупности неизвестна, тестовая статистика для выборочной средней определяется как:
Тестовая статистика для коэффициента регрессии
Оцененная стандартная ошибка Ь:
где — дисперсия распределения остатков вдоль линии регрессии генеральной совокупности. Предположим, что дисперсия одинакова для всех значений х. Лучшей оценкой генеральной дисперсии а является:
Алгебраически это можно выразить как:
Чтобы проиллюстрировать наши действия, вернемся к примеру 8.1 о времени и расстоянии. Используем первое выражение для
Поэтому
Отсюда:
Значение критерия для
Если принять допустимые погрешности, то с учетом округления значение 11 же, как и значение для коэффициента корреляции: 9,47 по сравнению с 9,4
Чтобы вычислить двусторонний критерий на -ном уровне, сравним знач данного критерия со значением из Приложения 2:
Так как отвергнем гипотезу Но и принимаем гипотезу -ном уровне принятия решения с ошибкой доказательство будет непосле; тельным при наличии только нулевых гипотез. Таким образом, мы приш, такому же выводу, что и ранее. Мы выбрали предположение, что сущесп линейная связь между временем и расстоянием, т. е. помогает объяс! варьируемость признака у.