Главная > Прикладной анализ случайных данных
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

4.8. Корреляционные и регрессионные методы

Методы корреляционного и регрессионного анализа играют фундаментальную роль во многих разделах этой книги. Понятие корреляции двух случайных величин было введено в гл. 3 и получит дальнейшее развитие в

гл. 5. Понятие «линейная регрессия» лежит в основе методов оценивания частотной характеристики по входным и выходным данным (см. гл. 6 и 7). Однако материал этих глав излагается в терминах частот, что может “затемнить” его связь с более известными традиционными представлениями. Поэтому краткий обзор понятий «корреляция» и «регрессия» с точки зрения элементарной статистики будет полезным введением в данную тематику.

4.8.1. ЛИНЕЙНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Исключительный интерес для широкого класса задач представляет обнаружение взаимных связей между двумя и более случайными величинами. Например, существует ли связь между курением и ожидаемой продолжительностью жизни или между умственными способностями и успеваемостью. В инженерных применениях такие задачи обычно сводятся к установлению связи между некоторым предполагаемым возбуждением и наблюдаемым откликом изучаемой физической системы. Существование таких взаимосвязей и их относительную силу можно измерить коэффициентом корреляции определенным в разд. 3.2.1. В простом случае двух случайных величия х и у коэффициент корреляции задается формулой (3.35):

где - ковариация х и у, определенная формулой (3.33).

Пусть теперь из случайных величин и у получена выборка, состоящая из пар наблюденных значений. Коэффициент корреляции можно оценить по выборочным данным следующим образом:

Как и выборочный коэффициент корреляции лежит между — и принимает одно из граничных значений только при наличии идеальной линейной связи между наблюдениями. Нелинейная связь и (или) разброс данных, вызванный ошибками измерения или же неполной коррелированностью случайных величин (рис. 4.4), приводит к уменьшению абсолютного значения

Для оценки точности выборочного значения удобно использовать некоторую функцию от

Рис. 4.4. Различные степепи корреляции: а — точная линейная корреляция; б - умеренная линейная корреляция; в — нелинейная корреляция; г - отсутствие корреляции.

В работе [4.2] показано, что распределение случайной величины можно аппроксимировать нормальным распределением с средним значением и дисперсией вида

На основе этих соотношений легко построить доверительные интервалы для по выборочной оценке в соответствии с рекомендациями разд. 4.4.

Из-за выборочной изменчивости оценок корреляции обычно приходится проверять, свидетельствует ли ненулевое значение выборочного коэффициента

корреляции о существовании статистически значимой корреляции между изучаемыми случайными величинами. Сделать это можно, проверив гипотезу причем отклонение гипотезы будет говорить о значимости корреляции. Из формул (4.63) и (4.64) следует, что при выборочное распределение будет нормальным с средним и дисперсией Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид

где стандартная, нормально распределенная случайная величина. Если значение окажется вне этого интервала, то это будет признаком наличия статистической корреляции с уровнем значимости а.

ПРИМЕР 4.6. ЛИНЕЙНЫЙ КОРРЕЛЯЦИОНЫЙ АНАЛИЗ. Табл. 4.3 содержит данные о росте и массе выбранных наугад студентов. Есть ли основания считать, что рост и масса студентов коррелированы при уровне значимости

Пусть х — рост, a у - масса. По табл. 4.3 вычислим величины, нужные для применения формулы (4.65):

Подставив эти значения в формулу (4.61), получим оценку коэффициента корреляции:

Таблица 4.3 Данные о росте и массе студентов (х - рост в сантиметрах, у — масса в килограммах)

По формуле (4.62) величина ; поэтому Гипотеза должна быть отвергнута с уровнем значимости 5%, поскольку не попадает в область принятия гипотезы, ограниченную величинами Следовательно, есть основания считать, что между ростом и массой студентов существует значимая корреляция.

Categories

1
Оглавление
email@scask.ru