4.4. Корреляция

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

4.4. Корреляция

Как мы видели выше при рассмотрении условных вероятностей, часто интересно выяснить зависимость одной случайной величины от другой. Один из способов разобраться в характере зависимости между двумя действительными случайными величинами х и у состоит в графическом построении результатов отдельных осуществлений основного эксперимента; при этом случайные величины изображаются точками на плоскости (т. е. графически строятся различные измеренные значения этих величин, называемые часто выборочными точками) и изучается получающаяся фигура.

Фиг. 4.1 Диаграмма разброса

Такой график может иметь вид, показанный на фиг. 4.1; он называется диаграммой разброса. Если случайные величины х и у не являются взаимно зависимыми, то можно ожидать, что выборочные точки разбросаны более или менее по всей плоскости. С другой стороны, если величины сильно зависят друг от друга, то мы можем ожидать, что все выборочные точки группируются вблизи кривой, описывающей функциональную зависимость между этими величинами. Простейшей формой зависимости является линейная зависимость, представляющая большой практический интерес. Мы можем ожидать, что в этом случае выборочные точки концентрируются вдоль прямой линии, как показано, например, на фиг. 4.1.

Предположим, что диаграмма разброса указывает на то, что случайные величины х и у связаны друг с другом сильной линейной зависимостью. В этом случае интересно определить, какая из прямых линий

приводит к наилучшему предсказанию значений случайной величины у по выборочным значениям случайной величины х.

Для того чтобы ответить на этот вопрос, нужно прежде определить, что мы понимаем под термином «наилучшее». Один из удобных критериев, полезный во многих приложениях, — величина среднеквадратичной разности (ошибки) между истинным выборочным значением случайной величины у и предсказанным значением:

Прямой наилучшего предсказания оказывается при таком критерии качества та, которая обеспечивает наименьшую среднеквадратичную ошибку. Такую прямую нередко называют прямой среднеквадратичной регрессии.

Найдем теперь для нашей прямой значения начального отрезка а и наклона обеспечивающие наименьшую среднеквадратичную ошибку. Дифференцируя выражение для среднеквадратичной ошибки по а и и приравнивая нулю результаты, имеем

Решая относительно а и эти уравнения, получаем, что

Теперь можно подставить эти значения в (4.36) и убедиться, что при этом действительно имеет место минимум ошибки; мы нашли, таким образом, что уравнение прямой, обеспечивающей наилучшее предсказание, есть

Из этого выражения следует, что прямая наилучшего предсказания проходит через точку .

Удобно ввести нормированную величину соответствующую случайной величине и определяемую равенством

Легко видеть, что

т. е. среднее значение нормированной величины равно нулю, а ее стандартное отклонение — единице. Используя нормированную величину и вводя нормированное предсказание мы можем придать выведенному ранее выражению для прямой наилучшего предсказания особенно простую форму

здесь — коэффициент корреляции, определяемый соотношением

где — нормированная величина, соответствующая у. Коэффициент корреляции часто называют нормированной ковариацией случайных величин х и у. Соотношение (4.41) показывает, что коэффициент корреляции равен наклону прямой, дающей наилучшие предсказания значений по заданным выборочным значениям

Рассмотрим теперь среднее значение квадрата случайной величины Поскольку действительны, этот квадрат, а значит, и его среднее значение должны быть неотрицательны. Таким образом,

и, следовательно, наибольшие положительное и отрицательное значения, которые принимает коэффициент корреляции, равны

Пусть Тогда

Оба множителя в подинтегральной функции неотрицательны, и, следовательно, при непрерывной интеграл может быть равен нулю только в том случае, если для всех значений х и у, при которых совокупность пар значений для которых появляется с вероятностью нуль. Аналогично при равенство имеет место для всех значений х и у, для которых Таким образом, экстремальные значения соответствуют тем случаям, когда с вероятностью единица.

Независимость и линейная независимость. Если коэффициент корреляции действительных случайных величин х и у равен нулю,

то эти случайные величины называются некоррелированными или

линейно независимыми. Из соотношения (4.42), являющегося определением коэффициента корреляции, следует, что если смешанный момент случайных величин х и у равен произведению математических ожиданий этих величин,

то коэффициент корреляции равен нулю и, следовательно, х и у линейно независимы. Таким образом, если две случайные величины независимы, то они также линейно независимы.

С другой стороны, однако, линейно независимые случайные величины могут как быть, так и не быть независимыми. Это можно показать следующим образом. В § 4.3 было указано, что необходимым и достаточным условием независимости двух случайных величин является равенство их двумерной характеристической функции произведению соответствующих одномерных характеристических функций:

Предположим теперь, что двумерная характеристическая функция может быть разложена в ряд Тейлора в некоторой области, содержащей внутри себя начало координат плоскости . Тогда также можно разложить в ряд Тейлора, и, подставляя соответствующие разложения в приведенное выше выражение, мы получаем

Так так эти ряды должны быть равны почленно, то, следовательно, если двумерная характеристическая функция может быть разложена в ряд Тейлора, то для независимости двух случайных величин х и у необходимо и достаточно, чтобы для всех целых положительных смешанный момент этих случайных величин представлялся в виде произведения

Так как линейная независимость гарантирует выполнение последнего равенства только для то естественно, что линейно независимые случайные величины не обязательно являются независимыми;

соответствующий пример приведен в виде задачи 12 в конце настоящей главы. Однако, как мы увидим ниже, в частном случае, когда х и у имеют совместное гауссовское распределение, линейная независимость влечет за собой независимость в статистическом смысле.

<< Предыдущий параграф

Следующий параграф >>

Оглавление