Главная > Методы корреляционного и регрессионного анализа
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

8.5. ПРОВЕРКА ЗНАЧИМОСТИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Как неоднократно отмечалось, для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистических характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь между исследуемыми переменными отсутствует, то коэффициент корреляции генеральной совокупности равен нулю. При практических исследованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случайно рассеиваются вокруг одноименного параметра генеральной совокупности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у их коэффициент корреляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда некоторые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния,

обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение выборочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у их существует статистически значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется критерием значимости.

Процедура проверки значимости начинается с формулировки нулевой гипотезы В общем виде она заключается в том, что между параметром выборки и параметром генеральной совокупности нет каких-либо существенных различий. Альтернативная гипотеза состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокупности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю Если в результате проверки окажется, что нулевая гипотеза не приемлема, то выборочный коэффициент корреляции значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Другими словами, предположение о некоррелированности случайных переменных в генеральной совокупности следует признать необоснованным. И наоборот, если на основе критерия значимости нулевая гипотеза принимается, т. е. лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелированности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости а, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероятность того, что нулевая гипотеза отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, являющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости а соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки образуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследовании. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной совокупности

требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и отрицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или меньше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании односторонней критической области меньше, чем при использовании двусторонней.

Рис. 24. Проверка нулевой гипотезы

Если распределение выборочной характеристики симметрично, то уровень значимости двусторонней критической области равен а, а односторонней — у (см. рис. 24). Ограничимся лишь общей постановкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми явлениями. При отсутствии связи коэффициент корреляции генеральной совокупности равен нулю Процедура проверки начинается с формулировки нулевой и альтернативной гипотез:

различие между выборочным коэффициентом корреляции незначимо,

различие между значимо, и следовательно, между переменными у их имеется существенная связь. Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной подчиняющейся распределению Стьюдента с степенями свободы. Вычисленная по результатам выборки статистика

сравнивается с критическим значением, определяемым по таблице распределения Стьюдента при заданном уровне значимости а и степенях свободы. Правило применения критерия заключается в следующем: если то нулевая гипотеза на уровне значимости а отвергается, т. е. связь между переменными значима; если то нулевая гипотеза на уровне значимости а принимается. Отклонение значения от можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возможную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики воспользоваться критическими значениями коэффициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если то можем утверждать, что связь между переменными существенная. Если то результаты наблюдений считаем непротиворечащими гипотезе об отсутствии связи.

Пример

Проверим гипотезу о независимости производительности труда от уровня механизации работ при по данным, приведенным в разделе 4.1. Ранее было вычислено, что По (8.38) получаем

По таблице распределения Стьюдента для находим критическое значение этой статистики: Поскольку нулевую гипотезу отвергаем, допуская ошибку лишь в 5% случаев.

Мы получим тот же результат, если будем сравнивать с критическим значением коэффициента корреляции найденным по соответствующей таблице при

Если нельзя предположить, что то не рекомендуется применять формулы (8.38) и (8.39), так как распределение асимметрично (см. раздел 8.1). В этом случае применяют -преобразование Фишера. Учитывая (8.3) и (8.5), получаем статистику

которая имеет -распределение с степенями свободы. Далее процедура проверки значимости проводится аналогично предыдущей с помощью -критерия.

Пример

Исходя из экономического анализа явлений предполагаем в генеральной совокупности сильную связь между производительностью труда и уровнем механизации работ. Пусть, например, . В качестве альтернативной в этом случае можем выдвинуть гипотезу так как выборочный коэффициент корреляции Таким образом, мы должны воспользоваться односторонней критической областью. Из (8.40) следует, что

Полученное значение сравниваем с критическим значением Имеем Таким образом, на уровне значимости 5% можно предполагать наличие очень тесной связи между изучаемыми признаками, т. е. исходные данные позволяют считать правдоподобным, что

Значимость коэффициентов частной корреляции проверяется аналогичным путем. Изменяется только число степеней свободы, которое становится равным где — количество объясняющих переменных. Значение статистики, вычисленное по формуле

сравнивается с критическим значением а, найденным по таблице -распределения при уровне значимости а и числе степеней свободы Принятие или отклонение гипотезы о значимости коэффициента частной корреляции производится по тому же правилу, что было описано выше. Проверку значимости можно осуществить также с помощью критических значений коэффициента корреляции по (8.39), а также используя -преобразование Фишера (8.40).

Пример

Проверим статистическую надежность коэффициентов частной корреляции, вычисленных в разделе 4.5, на уровне значимости Ниже, наряду с коэффициентами частной корреляции, приведены соответствующие им расчетные и критические значения статистики

В связи с тем что при принимается гипотеза о значимости коэффициентов делаем вывод: уровень механизации работ оказывает существенное влияние на производительность труда при исключении влияния среднего возраста работников (и среднего процента выполнения норм). Отличие от нуля остальных коэффициентов

частной корреляции может быть отнесёноза счет случайных колебаний в выборке, и поэтому по ним мы не можем сказать ничего определенного о частных влияниях соответствующих переменных.

О значимости коэффициента множественной корреляции судят по результату осуществления процедуры проверки значимости коэффициента множественной детерминации. Более подробно мы обсудим это в следующем разделе.

Часто представляет интерес вопрос: значимо ли отличаются друг от друга два коэффициента корреляции? При проверке этой гипотезы предполагается, что рассматриваются одни и те же признаки однородных совокупностей; данные представляют собой результаты независимых испытаний; применяются коэффициенты корреляции одного типа, т. е. либо коэффициенты парной корреляции, либо коэффициенты частной корреляции при исключении одинакового количества переменных.

Объемы двух выборок, по которым вычисляются коэффициенты корреляции, могут быть различны. Нулевая гипотеза: т. е. коэффициенты корреляции двух рассматриваемых совокупностей равны. Альтернативная гипотеза: Из альтернативной гипотезы следует, что должна быть использована двусторонняя критическая область. Другими словами, следует проверить, значимо ли отличается от нуля разность Воспользуемся статистикой, имеющей приближенно нормальное распределение:

где — результаты -преобразований коэффициентов корреляции — объемы выборок. Правило проверки: если то гипотеза отвергается; если то гипотеза принимается.

В случае принятия величина

после обратного пересчета в с помощью (8.6) служит сводной оценкой коэффициента корреляции Далее может быть проверена гипотеза с помощью статистики

имеющей нормальное распределение.

Пример

Пусть требуется установить при различна ли теснота связи между производительностью труда и уровнем механизации работ на предприятиях одной отрасли промышленности, расположенных в различных районах страны. Сравним предприятия, находящиеся в двух районах. Пусть для одного из них коэффициент корреляции вычислен по выборке объема (см. раздел 4.1). Для Другого района вычислен по выборке объема

После перевода обоих коэффициентов корреляций в -величины вычислим по (8.42) значение статистики X:

Критическое значение статистики при составляет Таким образом, гипотеза принимается, т. е. на основе имеющихся выборок мы не можем установить значимого различия между коэффициентами корреляции. При этом оба коэффициента корреляции значимы.

Используя (8.43) и (8.6), получим сводную оценку коэффициента корреляции для двух районов:

Наконец, проверим гипотезу, значимо ли отличается от нуля сводная оценка коэффициента корреляции с помощью статистики (8.44):

Так как при можем утверждать, что в генеральной совокупности имеется существенная связь между производительностью труда и уровнем механизации работ.

Критерий X может быть использован в различных аспектах. Так, вместо районов могут рассматриваться различные отрасли промышленности, например когда требуется определить, значимы ли различия по силе исследуемых связей между экономическими показателями предприятий, принадлежащих двум различным отраслям.

Пример

Пусть на основе двух выборок объема вычислены коэффициенты корреляции характеризующие тесноту связи между производительностью труда и уровнем механизации работ на предприятиях, принадлежащих двум отраслям промышленности (двум генеральным совокупностям). По (8.42) получим

Так как при нулевую гипотезу отвергаем. Следовательно, можно утверждать, что имеются значимые различия в тесноте связи между производительностью труда и уровнем механизации работ на предприятиях, относящихся к различным отраслям промышленности. Этот пример продолжим в разделе 8.7, где будет произведено сравнение регрессионных прямых, построенных для двух совокупностей.

Анализируя приведенные примеры, убеждаемся, что рассмотрение только абсолютной разницы сравниваемых коэффициентов корреляции

(объемы выборок в обоих случаях одинаковы) без проверки значимости этой разницы приведет к ошибочным заключениям. Это подтверждает необходимость пользоваться статистическими критериями при сравнении коэффициентов корреляции.

Процедуру сравнения двух коэффициентов корреляции можно обобщить на большее число коэффициентов при соблюдении указанных выше предпосылок. Гипотеза равенства коэффициентов корреляции между переменными у их выражается следующим образом: Она проверяется на основе коэффициентов корреляции вычисленных по выборкам объема из генеральных совокупностей. производится пересчет коэффициентов корреляций в -величины: Так как в общем случае неизвестен, находим его оценку через по формуле, являющейся обобщением (8.43):

Далее для проверки однородности выборочных коэффициентов корреляции используется статистика

имеющая -распределение с степенями свободы. Вычислен ное значение статистики сравнивается с критическим а, найденным по таблице -распределения. Если на уровне значимости а гипотеза отвергается. Если а, гипотеза принимается.

В последнем случае можно сделать пересчет полученного по (8.45), в значение по (8.6). Определенное таким образом представляет собой сводную оценку коэффициента корреляции для всех генеральных совокупностей.

Пример

В условиях примера, приведенного на с. 197, дополнительно рассмотрим коэффициенты корреляции, вычисленные для групп предприятий, расположенных в третьем и четвертом районах. Пусть В соответствии с (8.45) и (8.46) получаем

По табл. 5 приложения находим Так как нулевая гипотеза принимается. Данные выборок по четырем районам не позволяют признать существенными различия в тесноте связей между исследуемыми переменными. Поскольку нулевая гипотеза об однородности выборочных коэффициентов корреляции принята, можно найти

сводную оценку коэффициента корреляции для четырех районов. Для этого сделаем пересчет -значения в по (8.6):

Далее можно произвести проверку гипотезы, значимо ли отличается полученная сводная оценка коэффициента корреляции от нуля. Но по причине экономии места мы отказываемся от описания этой процедуры.

Кроме того, сводные оценки коэффициентов корреляции, вычисленные для нескольких районов, можно сравнить по различным отраслям промышленности. Критерий однородности коэффициентов корреляции позволяет произвести глубокий экономический анализ исследуемых явлений.

Рассмотрим теперь критерий для проверки значимости коэффициента ранговой корреляции Спирмэна. Нулевая гипотеза заключается в следующем: Если в генеральной совокупности то можно показать, что распределение выборочного коэффициента ранговой корреляции при объеме выборки связано с -распределением. А именно статистика

имеет -распределение с степенями свободы. Если то гипотеза отвергается. Если то гипотеза не противоречит результатам наблюдений. Таким образом, процедура проверки значимости коэффициента ранговой корреляции Спирмэна аналогична той же процедуре с обычным коэффициентом парной корреляции.

Значимость коэффициента ранговой корреляции х Кендэла при объеме выборок проверяется с помощью статистики

которая имеет асимптотически нормальное распределение. Если то на заданном уровне значимости нулевая гипотеза отвергается. Если то нулевая гипотеза принимается. Для нашего примера из раздела 7.2 по (8.48) имеем

По табл. 2 приложения для находим Сравнивая расчетное значение с критическим убеждаемся в том, что нулевую гипотезу следует отвергнуть. Итак, по десяти ранговым значениям можно сделать вывод о наличии существенной связи между производительностью труда и уровнем механизации работ.

Для проверки значимости коэффициента конкордации W Фридман предложил использовать статистику

которая имеет распределение степенями свободы. Для примера, приведенного в разделе 7.8, имеем

По табл. 5 приложения для уровня значимости степеням свободы находим критическое значение Так как нулевая гипотеза отвергается. Таким образом, оценка качества изделия тремя экспертами на уровне значимости согласована.

Categories

1
Оглавление
email@scask.ru