1.1.3. Распределение выборочного коэффициента корреляции и проверка гипотезы о статистической значимости линейной связи.
Какую величину выборочного коэффициента корреляции следует считать достаточной для статистически обоснованного вывода о наличии корреляционной связи между исследуемыми переменными? Ведь надежность статистических характеристик, в том числе и
, ослабевает с уменьшением объема соответствующей выборки, а потому принципиально возможны случаи, когда отклонение от нуля полученной величины выборочного коэффициента корреляции
оказывается статистически незначимым, т. е. целиком обусловленным неизбежным случайным колебанием выборки, на основании которой он вычислен. Ответить на этот вопрос помогает знание закона вероятностного распределения
. В случае совместной нормальной распределенности исследуемых переменных и при достаточно большом объеме выборки
распределение
можно считать приближенно нормальным со средним, равным своему теоретическому значению
и дисперсиеи
[10, с. 104]. Однако следует учитывать, что при малых значениях
близких к ±1, это приближение оказывается очень грубым. Кроме того, при малых
следует принимать во внимание, что величина
является смещенной оценкой своего теоретического значения
, в частности
.
Относительно хорошая степень приближения нормального распределения при малых значениях
позволяет получить простой критерий проверки гипотезы
, т. е. гипотезы об отсутствии корреляционной связи между исследуемыми переменными.
Используется тот факт, что величина
при условии
распределена по закону Стьюдента с
степенями свободы (см., например, [117, с. 181]. Поэтому если окажется, что
(здесь
(
) —
-ная точка распределения Стьюдента с
степенями свободы), то гипотеза об отсутствии корреляционной связи принимается. Используем этот критерий для исследования значимости корреляционной связи в примере
так что гипотеза об отсутствии корреляционной связи между процентом забракованного стекла и вакуумом в печи для его отжига должна быть отвергнута.
Доверительные интервалы для истинного значения коэффициента корреляции
можно построить из нормальной распределенности
. Концы интервала
можно вычислять по приближенной формуле
Здесь
в соответствии с ранее введенными обозначениями,
точка стандартного (0, 1)-нормального распределения, так что истинное значение коэффициента корреляции
с доверительной вероятностью
принадлежит интервалу
. Однако использование формулы (1.10) сопряжено со следующими оговорками: истинное значение коэффициента корреляции не должно быть близким к ±1; общее число наблюдений
должно быть достаточно велико; величина
в поправке к «смещению»
(т. е. в выражении
и в дисперсии
заменена ее приближенным (выборочным) значением
. Избавиться от этих ограничений позволяет следующее преобразование, предложенное Р. Фишером (см., например, [117, с. 383]:
Он показал, что величина z, определенная соотношением (1.11), уже при небольших
с хорошим приближением следует нормальному закону со средним
и дисперсией
Это позволяет построить доверительный интервал
для
по формуле
откуда следует, что истинное значение коэффициента корреляции
с той же доверительной вероятностью
заключено в пределах
Здесь
— это тангенс гиперболический от аргумента z (определяется с помощью соотношения
). Соответственно функция, определяющая величину z с помощью соотношения (1.11), это есть функция, обратная к тангенсу гиперболическому; так что часто вместо
пишут
. Нахождение z по данному значению
и, наоборот, определение
по заданной величине z производится с помощью табл. П. 7, в которой в крайних столбцах (левом и правом) приведены значения
а между ними — соответствующие значения
(знаки у аргумента и функции совпадают, так что если, например,
отрицателен, то и соответствующее значение
также отрицательно).
Так, задавшись 95%-ной доверительной вероятностью в примере В.3, находим
С помощью табл. П.7 находим:
так что с вероятностью 0,95 имеем —
Использование z — преобразованной величины
— оказывается более предпочтительным и при проверке значимое и корреляционной связи, когда число наблюдений
мало.
При построении доверительных интервалов для коэффициента корреляции, так же как и при проверке статистической значимости корреляционной связи, можно пользоваться специальными таблицами и графиками, в частности номограммой, изображенной на рис. 1.2.
Так, для построения доверительного интервала с помощью приведенных на рис. 1.2 номограмм следует отложить значение выборочного коэффициента корреляции
на горизонтальной оси и провести через эту точку вертикальную прямую. Ординаты
пересечения этой вертикальной прямой с двумя кривыми, над которыми надписан объем используемой выборки, и являются граничными точками искомого доверительного интервала, т. е.
. Рис. 1.2, а дает решение поставленной задачи с доверительной вероятностью Р = 0,95, а рис. 1.2, б — с доверительной вероятностью Р = 0,99
Критерий однородности двух или нескольких выборочных коэффициентов корреляции. Пусть по выборкам объемов
из каких-то двух нормальных генеральных совокупностей получены выборочные значения коэффициентов корреляции и
. Можно ли признать различие в значениях
статистически значимым или же это различие обусловлено случайными колебаниями выборок, следовательно, полученные величины
не противоречат гипотезе о том, что две рассмотренные генеральные совокупности имеют один и тот же теоретический коэффициент корреляции?
Для статистической проверки этих предположений используется факт приближенной (0, 1)-нормальной распределенности статистики (справедливый лишь в предположении истинности гипотезы об однородности
)
где
подсчитываются но формуле (1.11) соответственно отдельно по первой
и по второй
выборкам.
В табл. 1.1 приводится пример вычислений по схеме описанной процедуры (заимствован из [117, с. 386]).
Значение
в данном примере оказалось существенно меньше 5%-ной точки
-распределения с пятью степенями свободы
, так что следует признать непротиворечивость полученных выборочных значений коэффициентов корреляции (0,318; 0,106; 0,253; 0,340; 0,116 и 0,112) с гипотезой об их однородности.
Таблица 1.1