8.3. ТЕСНОТА ЛИНЕЙНОЙ СВЯЗИ — КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ r
В приведенном выше примере данные подтвердили обоснованность линейной модели. Однако мы не имеем объективного представления о том, насколько хорошо аппроксимирует данные линейная модель. Подбор на основе графика в данном случае оказался точным, но он может быть обманчивым, так как распределение точек на графике зависит от выбора масштаба. Необходимо объективное измерение тесноты линейной связи.
Мы полагаем, что связь между переменными существует. Рассмотрим две переменные х и у. Поле точек представлено на диаграмме рассеяния (рис. 8.7), на которой показана и линия регрессии, полученная методом наименьших квадратов. На этом графике добавлена линия
Рис. 8.7. Структура дисперсии зависимой переменной у
Если мы возьмем конкретное значение х, допустим то в любой точке выборки значению х будет соответствовать значение у. Фактически это могут быть несколько точек с одним и тем же значением х и разными значениями у, но в каждом случае фактическое значение у может быть разбито на два компонента. Это можно записать как: действительное значение у равно значению исходя из линейной связи между у и х плюс значение у, обусловленное другими факторами:
где — остаток, разница между фактическим значением у и значением прямой.
Линейная связь только частично объясняет вариации значений у. Необъясненная часть является остатком, е. Если бы связь между х и у была абсолютно линейной, то все были бы равными 0. По мере того, как сила линейной связи уменьшается, остаток увеличивается. Это соотношение формирует основу, на которой мы можем рассчитать силу линейной связи. Мы должны рассмотреть все точки, а не только одну-две. Общая вариация значения у может быть записана как:
Общая вариация значений у не зависит от значения х. Общее изменение у с учетом линейной связи между х и у может быть записано:
Это выражение соответствует той части вариации у, которая объясняется регрессией, т. е. введением независимой переменной х, поскольку вариация х и у связывается уравнением Вариация у, которая не объясняется линейной связью, записывается как:
Эта вариация возникает из-за других факторов, не включенных в линейную модель, т. е. эта вариация не объясняется данной регрессией.
Отношение объясненной вариации к общей вариации используется как мера линейности связи. Чем теснее связь, тем ближе это отношение к 1. Это отношение называется коэффициентом детерминации, обозначается и имеет вид:
Коэффициент детерминации часто выражается в процентах и показывает величину дисперсии у, которая объясняется независимой переменной х, включенной в модель в случае полной линейной связи между или 100%. Если связь отсутствует, то равно 0. Коэффициент детерминации не определяет, увеличивается ли или уменьшается у с ростом х. Эта информация может быть получена с помощью коэффициента корреляции Пирсона, который включает произведение переменных х и у; он обозначается Этот коэффициент может быть получен как квадратный корень из коэффициента детерминации:
Для вычислений полезно алгебраически преобразовать это выражение и воспользоваться следующей формулой:
Это и есть выборочный коэффициент корреляции. Значение всегда лежит между -1 и Знак такой же, как и знак коэффициента регрессии Если — положителен, показывая положительную связь между переменными, то коэффициент корреляции будет также положительным. Если коэффициент регрессии меньше нуля, то и коэффициент корреляции также отрицательный.
По мере того, как возрастает сила линейной связи, точки на графике будут лежать более близко к прямой линии, а величина будет ближе к 1. По мере уменьшения силы связи значение будет ближе к 0, а точки будут более рассеяны. При линейной связи не существует. Но это не значит, что не существует вообще никакой связи. На рис. 8.8 и 8.9 отражены случаи, когда значения коэффициента корреляции приближаются к 0.
Рис. 8.8. Случай отсутствия связи между переменными
Рис. 8.9. Сильная нелинейная связь между переменными
Вернемся к примеру 8.1, в котором рассматривается модель прогноза времени поставки в зависимости от расстояния внутри города. Коэффициент корреляции рассчитывается следующим образом:
По нашим данным коэффициент корреляции равен:
Это значение коэффициента корреляции очень близко к единице, что свидетельствует об очень тесной линейной связи между расстоянием и временем поставки. Этот вывод подтверждает первоначальное предположение, сделанное исходя из диаграммы.
Коэффициент детерминации показывает процент общей вариации времени поставки, который зависит от расстояния. В нашем случае коэффициент детерминации высох:
По выборочной модели можно вычислить ожидаемое время при заданном расстоянии поставки:
Выборочная модель объясняет 91,8% вариации времени доставки. Не объясняется 8,2% вариации времени поездки. Эта часть вариации обусловлена всеми остальными факторами, влияющими на время поездки, но не включенными в модель.