Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
4.4. КорреляцияКак мы видели выше при рассмотрении условных вероятностей, часто интересно выяснить зависимость одной случайной величины от другой. Один из способов разобраться в характере зависимости между двумя действительными случайными величинами х и у состоит в графическом построении результатов отдельных осуществлений основного эксперимента; при этом случайные величины изображаются точками на плоскости
Фиг. 4.1 Диаграмма разброса Такой график может иметь вид, показанный на фиг. 4.1; он называется диаграммой разброса. Если случайные величины х и у не являются взаимно зависимыми, то можно ожидать, что выборочные точки разбросаны более или менее по всей плоскости. С другой стороны, если величины сильно зависят друг от друга, то мы можем ожидать, что все выборочные точки группируются вблизи кривой, описывающей функциональную зависимость между этими величинами. Простейшей формой зависимости является линейная зависимость, представляющая большой практический интерес. Мы можем ожидать, что в этом случае выборочные точки концентрируются вдоль прямой линии, как показано, например, на фиг. 4.1. Предположим, что диаграмма разброса указывает на то, что случайные величины х и у связаны друг с другом сильной линейной зависимостью. В этом случае интересно определить, какая из прямых линий
приводит к наилучшему предсказанию Для того чтобы ответить на этот вопрос, нужно прежде определить, что мы понимаем под термином «наилучшее». Один из удобных критериев, полезный во многих приложениях, — величина среднеквадратичной разности (ошибки)
Прямой наилучшего предсказания оказывается при таком критерии качества та, которая обеспечивает наименьшую среднеквадратичную ошибку. Такую прямую нередко называют прямой среднеквадратичной регрессии. Найдем теперь для нашей прямой значения начального отрезка а и наклона
Решая относительно а и
Теперь можно подставить эти значения в (4.36) и убедиться, что при этом действительно имеет место минимум ошибки; мы нашли, таким образом, что уравнение прямой, обеспечивающей наилучшее предсказание, есть
Из этого выражения следует, что прямая наилучшего предсказания проходит через точку Удобно ввести нормированную величину
Легко видеть, что
т. е. среднее значение нормированной величины равно нулю, а ее стандартное отклонение — единице. Используя нормированную величину
здесь
где — нормированная величина, соответствующая у. Коэффициент корреляции часто называют нормированной ковариацией случайных величин х и у. Соотношение (4.41) показывает, что коэффициент корреляции равен наклону прямой, дающей наилучшие предсказания значений Рассмотрим теперь среднее значение квадрата случайной величины
и, следовательно, наибольшие положительное и отрицательное значения, которые принимает коэффициент корреляции, равны
Пусть
Оба множителя в подинтегральной функции неотрицательны, и, следовательно, при непрерывной Независимость и линейная независимость. Если коэффициент корреляции действительных случайных величин х и у равен нулю,
то эти случайные величины называются некоррелированными или линейно независимыми. Из соотношения (4.42), являющегося определением коэффициента корреляции, следует, что если смешанный момент
то коэффициент корреляции равен нулю и, следовательно, х и у линейно независимы. Таким образом, если две случайные величины независимы, то они также линейно независимы. С другой стороны, однако, линейно независимые случайные величины могут как быть, так и не быть независимыми. Это можно показать следующим образом. В § 4.3 было указано, что необходимым и достаточным условием независимости двух случайных величин является равенство их двумерной характеристической функции произведению соответствующих одномерных характеристических функций:
Предположим теперь, что двумерная характеристическая функция может быть разложена в ряд Тейлора в некоторой области, содержащей внутри себя начало координат плоскости
Так так эти ряды должны быть равны почленно, то, следовательно, если двумерная характеристическая функция может быть разложена в ряд Тейлора, то для независимости двух случайных величин х и у необходимо и достаточно, чтобы для всех целых положительных
Так как линейная независимость гарантирует выполнение последнего равенства только для соответствующий пример приведен в виде задачи 12 в конце настоящей главы. Однако, как мы увидим ниже, в частном случае, когда х и у имеют совместное гауссовское распределение, линейная независимость влечет за собой независимость в статистическом смысле.
|
1 |
Оглавление
|