Главная > Методы корреляционного и регрессионного анализа
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

8. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И ПРОВЕРКА ЗНАЧИМОСТИ

В предыдущих главах неоднократно указывалось на необходимость оценки значимости коэффициентов регрессии и корреляции. В данной главе мы вплотную займемся этой проблемой. При этом мы ограничимся рассмотрением соответствующих критериев и методов проверки значимости с процедурой расчетов, не касаясь выводов формул. При применении обсуждаемых здесь методов предполагается выполнение исходных предпосылок линейного регрессионного анализа (см. раздел 2.9). Эти методы предназначены только для линейных, квазилинейных или приводимых к линейному виду функций регрессий.

8.1. РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ

В разделе 2.9 мы упоминали, что оценки параметров регрессии являются случайными величинами с определенными распределениями вероятностей. В силу того что качество оценки определяется ее распределением, рассмотрим более подробно выборочные распределения некоторых статистик. Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности выражается линейной регрессией;

возмущающая переменная и имеет нормальное распределение (предпосылка 6 из раздела 2.9) с математическим ожиданием (предпосылка 1) и дисперсией (предпосылка 2);

значения зависимой переменной при фиксированных значениях объясняющих переменных распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии распределены нормально с математическим ожиданием и дисперсией Отсюда следует, что величина

имеет стандартное нормальное распределение (см. раздел 1.7).

Поскольку дисперсия возмущающей переменной а также дисперсии оценок параметров регрессии неизвестны, вместо них используем выборочные дисперсии Формула (8.1) приобретает вид:

Статистика (8.2) имеет -распределение с степенями свободы. Это следует учитывать особенно при малом объеме выборки (см. раздел 1.7).

Рис. 20. Нормальная корреляция: а — поверхность нормального распределения; — эллипсы рассеяния

Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. (Для простоты слово «выборочный» мы будем часто опускать.) Итак, коэффициент корреляции является функцией от выборки. Его значения, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределением вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий:

1) случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение;

2) корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок

3) объем выборки достаточно велик.

Первое условие приводит к так называемой нормальной корреляции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в системе координат поверхностью, называемой поверхностью нормального распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры

генеральной совокупности обозначены греческими буквами. В сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоскостями, параллельными координатной плоскости получаются кривые распределения переменной у, соответствующие определенным значениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных распределений соответственно переменных х и у при фиксированных значениях у их. Если спроецировать на плоскость средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных распределений переменной у.

Пересекая поверхность распределения плоскостями, параллельными координатной плоскости в проекции на этой плоскости получаем семейство концентрических эллипсов различных размеров с одинаковой ориентацией главных осей и с общим центром в точке с координатами и называют эллипсами рассеяния. Точка пересечения линий регрессии у на на у совпадает с центром эллипсов рассеяния. Вследствие симметричности нормального распределения линии регрессии делят площадь эллипсов пополам (см. рис. 20, б).

Точное распределение выборочного коэффициента частной корреляции такое же, как и обычного коэффициента парной корреляции, вычисленного по выборке объема где число исключенных переменных. При перечисленных выше условиях его можно также аппроксимировать нормальным. Распределения коэффициента множественной корреляции, корреляционного отношения и индекса корреляции, напротив, даже при выборках сравнительно большого объема сильно отличаются от нормального.

По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корреляции к нормальному уменьшается. Распределение выборочного коэффициента корреляции становится все более асимметричным. Р. Фишер указал нормализующее преобразование случайной величины благодаря которому распределение может быть приближенно приведено к нормальному:

где - (натуральный) логарифм с основанием десятичный логарифм (логарифм с основанием 10). При соответственно При получаем

Р. Фишер показал, что распределение величины отдельные реализации которой определяются соотношением (8.3), при асимптотически

нормально с параметрами

Даже при небольших приближение достаточно хорошее. Как видно из (8.5), стандартное отклонение зависит не от величины параметра (коэффициента корреляции генеральной совокупности), а только от объема выборки С увеличением объема выборки становится меньше. Значения -преобразования Фишера могут быть определены с помощью таблицы логарифмов. Обратный пересчет в проводят с помощью соотношения

где — гиперболический тангенс от аргумента его можно определить по таблице логарифмов либо с помощью соотношения

Рис. 21. Распределение выборочного коэффициента корреляции при

При невыполнении третьего условия, т. е. когда объем выборки мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если , то с уменьшением объема выборки увеличивается асимметричность распределения Это осложняет проверку надежности выборочного коэффициента корреляции.

Если коэффициент корреляции двумерного нормального распределения равен нулю то в этом случае статистика

имеет -распределение с степенями свободы.

Categories

1
Оглавление
email@scask.ru