4.8. Корреляционные и регрессионные методы
Методы корреляционного и регрессионного анализа играют фундаментальную роль во многих разделах этой книги. Понятие корреляции двух случайных величин было введено в гл. 3 и получит дальнейшее развитие в
гл. 5. Понятие «линейная регрессия» лежит в основе методов оценивания частотной характеристики по входным и выходным данным (см. гл. 6 и 7). Однако материал этих глав излагается в терминах частот, что может “затемнить” его связь с более известными традиционными представлениями. Поэтому краткий обзор понятий «корреляция» и «регрессия» с точки зрения элементарной статистики будет полезным введением в данную тематику.
4.8.1. ЛИНЕЙНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы. Существование таких взаимосвязей и их относительную силу можно измерить коэффициентом корреляции определенным в разд. 3.2.1. В простом случае двух случайных величия х и у коэффициент корреляции задается формулой (3.35):
где - ковариация х и у, определенная формулой (3.33).
Пусть теперь из случайных величин и у получена выборка, состоящая из пар наблюденных значений. Коэффициент корреляции можно оценить по выборочным данным следующим образом:
Как и выборочный коэффициент корреляции лежит между — и принимает одно из граничных значений только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, вызванный ошибками измерения или же неполной коррелированностью случайных величин (рис. 4.4), приводит к уменьшению абсолютного значения
Для оценки точности выборочного значения удобно использовать некоторую функцию от
Рис. 4.4. Различные степепи корреляции: а — точная линейная корреляция; б - умеренная линейная корреляция; в — нелинейная корреляция; г - отсутствие корреляции.
В работе [4.2] показано, что распределение случайной величины можно аппроксимировать нормальным распределением с средним значением и дисперсией вида
На основе этих соотношений легко построить доверительные интервалы для по выборочной оценке в соответствии с рекомендациями разд. 4.4.
Из-за выборочной изменчивости оценок корреляции обычно приходится проверять, свидетельствует ли ненулевое значение выборочного коэффициента
корреляции о существовании статистически значимой корреляции между изучаемыми случайными величинами. Сделать это можно, проверив гипотезу причем отклонение гипотезы будет говорить о значимости корреляции. Из формул (4.63) и (4.64) следует, что при выборочное распределение будет нормальным с средним и дисперсией Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид
где стандартная, нормально распределенная случайная величина. Если значение окажется вне этого интервала, то это будет признаком наличия статистической корреляции с уровнем значимости а.
ПРИМЕР 4.6. ЛИНЕЙНЫЙ КОРРЕЛЯЦИОНЫЙ АНАЛИЗ. Табл. 4.3 содержит данные о росте и массе выбранных наугад студентов. Есть ли основания считать, что рост и масса студентов коррелированы при уровне значимости
Пусть х — рост, a у - масса. По табл. 4.3 вычислим величины, нужные для применения формулы (4.65):
Подставив эти значения в формулу (4.61), получим оценку коэффициента корреляции:
Таблица 4.3 Данные о росте и массе студентов (х - рост в сантиметрах, у — масса в килограммах)