Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
1.3. КОРРЕЛЯЦИЯ И РЕГРЕССИЯПроведение факторного анализа предполагает определенный базис статистических знаний, например умение вычислять среднее значение и стандартное отклонение, использовать статистические критерии, а также знакомство с корреляционным и регрессионным анализом. Большинство книг по статистике обсуждает эти вопросы. В этой главе кратко описываются основные понятия корреляционного и регрессионного анализа. Факторный анализ исходит в большинстве случаев непосредственно из коэффициентов корреляции, поэтому мы также начнем с обсуждения метода их вычисления. Предположим, у группы, состоящей из Если из контекста ясно, что Кроме среднего значения вычисляют меру отклонения значений каждой переменной от этой средней. Для этого сначала определяют так называемую сумму квадратов отклонений отдельных значений от среднего (сокращенно СКО). В табл. 1.1 в строке 3 приведено выражение суммы квадратов отклонений, обозначенное До этого момента каждая переменная рассматривалась отдельно, по значениям каждой были вычислены среднее значение и стандартное отклонение. Теперь поставим вопрос: как можно по одной из этих величин делать заключение о другой? Этот вопрос, заключающийся, по существу, в том, как по величине Таблица 1.1. Формулы корреляционного и регрессионного исчисления
Теперь нужно провести через это скопление точек прямую так, чтобы исходя из х «как можно точнее» оценить значение у. Эти оценки у по принятому методу оценивания являются тогда наиболее точными, если сумма квадратов их вертикальных отклонений от действительных значений по возможности является наименьшей. Итак, требуется найти параметры прямой
из условия
Такая прямая изображена на рис. 1.2. Как и для любой прямой, параметр b здесь характеризует наклон прямой к оси 0, а параметр а является аддитивной постоянной. Условие (1.2) соответствует требованию метода наименьших квадратов, так как сумма квадратов отклонений должна обращаться в минимум. Применение этого метода дает оценки параметров а и b наилучшие в смысле метода наименьших квадратов. Метод наименьших квадратов может также служить для подбора любой кривой, его возможности не ограничиваются только применением к оценке параметров прямой. Изображенная на рис. 1.2 прямая называется прямой регрессии у по
Рис. 1.2. Прямая регрессии у по х. х и у — средние значения переменных. Отклонения отдельных значений от линии регрессии обозначены пунктиром. Величина Формулы для вычисления указаны в табл. 1.1 (строка 10). Угловой коэффициент наклона прямой b называется коэффициентом регрессии. Теперь зададимся вопросом, можно ли исходя из тех же самых наблюдений Определить как можно точнее соответствующее значение
Рис. 1.3. Прямая регрессии х по у. Поле корреляции построено для тех же самых пар значений На рис. 1.3 для тех же самых пар значений При определении взаимосвязи всегда предполагается, что известно, какая величина является исходной, а какая — целевой функцией. Прежде чем составлять уравнение регрессии, выясняют для себя, какую переменную выбрать в качестве аргумента, а какую — в виде функции. Допустима другая постановка задачи, при которой не интересуются направлением и формой зависимости, а хотели бы знать, как сильна связь между двумя рядами наблюдений, относящихся к одним и тем же объектам. Это уже задача корреляционного исчисления. Коэффициент корреляции служит мерой линейной взаимосвязи между двумя измеряемыми величинами. Он может принимать значения между +1 и -1. Если он равен нулю, то линейная связь между х и у отсутствует. Если он равен +1 или —1, то связь строго линейная. На рис. 1.4 схематично изображены возможные поля корреляций при различных значениях коэффициентов корреляции. На диаграмме А точки случайно разбросаны на координатной плоскости. По величине Допускается ошибка, если от одного уравнения переходят к другому путем перестановки аргумента и функции. Величина этой ошибки зависит от значения коэффициента корреляции. Диаграмма В, так же как и Б, отражает строгую линейную связь между х и у. Прямая, однако, не проходит через центр координат.
Рис. 1.4. Схематичное изображение различных видов зависимостей с соответствующими значениями линейного коэффициента корреляции. Описание см. в тексте Кроме того, у увеличивается с уменьшением х, и наоборот. Поэтому коэффициент корреляции отрицателен. Итак, отрицательный знак у коэффициента корреляции свидетельствует об обратной линейной зависимости между х и у, а положительный знак — о прямой линейной зависимости, т. е. с увеличением х увеличивается и у. Крутизна линии регрессии не оказывает влияния на величину коэффициента корреляции или его знак. Знак коэффициента корреляции отражает лишь направление связи между обеими переменными. На диаграмме Д также схематично показано поле корреляции при отрицательном коэффициенте корреляции. Формулы для вычисления коэффициента корреляции приведены в табл. 1.1. При этом сначала определяется сумма произведений отклонений. Мы уже познакомились с суммой квадратов отклонений для каждой переменной. Вместо того, чтобы возводить в квадрат эти отклонения, а затем суммировать, как указано в строке 3 табл. 1.1, отклонение отдельного значения от средней арифметической одной переменной умножают на соответствующее отклонение другой переменной, а затем суммируют. Таким образом, получают сумму произведений отклонений По аналогии с дисперсией, которую получают делением суммы квадратов отклонений на В литературе на английском языке по регрессионному анализу полную дисперсию разлагают на две составляющие: дисперсию переменной, обусловленную регрессией, и остаточную дисперсию, вызванную ошибками наблюдений. Из рис. 1.2 видно, что расстояние
Второе слагаемое в правой части равенства является удвоенным произведением систематической и случайной составляющих и при суммировании оно обращается в нуль, если (
или
Левая часть равенства (1.3) называется полной дисперсией переменной у. Первый член правой части является дисперсией, связанной с регрессией. Эта дисперсия характеризует рассеивание за счет исследуемого фактора, т. е. является так называемой «объяснимой» дисперсией. Второй член правой части равенства является «необъяснимой» дисперсией, известной под названием остаточной дисперсии. Происхождение этих названий объясняется следующим образом. Отклонения Отклонения, изображенные на схеме А, входят в полную дисперсию величины у. На схеме Б изображены отклонения, которые носят систематический характер. Они соответствуют дисперсии, обусловленной регрессией. На схеме В представлены отклонения эмпирических точек от регрессионной прямой, которые носят несистематический характер. Частное от деления дисперсии, обусловленной регрессией, на полную дисперсию называют коэффициентом детерминации. Коэффициент детерминации используют как характеристику доли вариации в полной дисперсии, обусловленной влиянием фактора
Коэффициент детерминации изменяется от 0 до 1. Извлекая квадратный корень из этого коэффициента, получим коэффициент корреляции Формулой (1.4) можно пользоваться также при нелинейной регрессионной модели. Дисперсия, обусловленная регрессией, вычисляется тогда относительно соответствующих линий регрессий. В случае линейной связи при вычислении коэффициента детерминации, а также коэффициента корреляции безразлично, из какого уравнения регрессии исходят — х по у или у по х. Важно, чтобы вычисленные коэффициенты корреляции дополнительно сверялись с линейной моделью.
Рис. 1.5. Полная дисперсия; дисперсия, обусловленная регрессией; остаточная дисперсия На схеме А изображены отклонения отдельных значений от средней. На схеме В изображены отклонения оценок от наблюдаемых величин. Отклонения носят несистематический характер. Например, может встретиться случай, изображенный на диаграмме Е, рис. 1.4. Линейный коэффициент корреляции равен нулю, и налицо существование однозначной нелинейной связи. Следовательно, коэффициент корреляции измеряет также качество согласованности опытных данных с принятой гипотезой о линейности связи. Если коэффициент корреляции несущественно отличается от нуля, то это не означает отсутствие связи вообще, а только подтверждает отсутствие линейной связи. Таким образом, мы косвенно затронули вопрос о значимости коэффициента корреляции. Чтобы ответить на него, коротко рассмотрим принцип применения статистических критериев. Формулируется нулевая гипотеза
Вероятность ошибки 1-го рода обозначается через а, ошибки 2-го рода — через
превысит критическое значение, которое следует ожидать менее чем в 1% случаев при данном объеме выборки. Величина t при условии Если хотят проверить гипотезу о том, относятся ли оба вычисленных коэффициента корреляции к одной и той же совокупности, то используют
имеет нормальное распределение со средним значением Это преобразование позволяет также построить доверительный интервал для коэффициента корреляции. Чтобы ответить на вопрос, различаются ли два коэффициента корреляции и полученных по выборкам объема
Рис. 1.6. Геометрическая интерпретация коэффициента корреляции Затем вычисляют величину
Величина и также нормально распределена со средним значением 0 и дисперсией 1. Из таблицы нормального распределения можно по вычисленному значению и определить соответствующий уровень значимости. Если и больше 2,58, то разность между двумя коэффициентами корреляции считаем значимой при вероятности допустить ошибку Обратимся еще раз к геометрической интерпретации коэффициента корреляции. На рис. 1.6 в системе координат Вычисление коэффициента корреляции удобно производить по схеме, приведенной в табл. 1.2. При этом сначала вычисляют среднее значение, сумму квадратов отклонений и стандартное отклонение для каждой переменной, а затем сумму произведений отклонений обеих переменных от своих средних. После этого вычисляются коэффициенты регрессии и корреляции. В качестве примера в табл. 1.2 использованы данные о систолическом и диастолическом кровяном давлении десяти лиц, находящихся под медицинским наблюдением. В первом блоке таблицы приведены исходные данные, во втором блоке производятся вычисления отдельно для каждой переменной, а в третьем блоке — вычисления, общие для обеих переменных. С помощью клавишной вычислительной машины весьма просто получить сумму отдельных значений переменных, а также сумму квадратов этих значений.
Рис. 1.7. Прямые регрессии у по х и х по у, вычисленные в табл. 1.2 Полученные значения заносятся в строки (1) и (3) вычислительной схемы, причем в левой части этой схемы производятся вычисления для х, а в правой части — для у. В каждой строке выполняется соответствующая операция по определенной формуле. В строке (4) квадрат суммы отдельных значений делится на При оценке коэффициента корреляции кроме уровня значимости следует учитывать ряд других соображений, которые вытекают из определения коэффициента корреляции И иногда приводят к ошибочной интерпретации. Таблица 1.2. Схема вычислений коэффициента корреляции и уравнений регрессии (см. скан) Коэффициент корреляции является параметром двумерного нормального распределения. Но если случайные величины имеют другое совместное распределение, отличное от нормального, то коэффициент корреляции не входит непосредственно в выражение этого закона распределения и поэтому не имеет четкого истолкования. Но даже в этом случае его используют как общепринятый статистический показатель, наподобие стандартного отклонения, которое является параметром одномерного нормального распределения. Для альтернативных и качественных признаков такие показатели, как ковариация и коэффициент корреляции, должны применяться с большой осторожностью. Имеются другие показатели взаимосвязи между переменными, более подходящие в этом случае, которые тоже можно оценивать на значимость. Как это отражается на факторном анализе, если элементами исходной матрицы являются другие показатели взаимосвязи или неправильно вычисленные коэффициенты корреляции, — предмет особого разговора. Перед вычислением коэффициента корреляции следует проверить гипотезу о нормальности обоих распределений и линейности связи между ними. В общем достаточно внимательно всмотреться в поле корреляции. В крайнем случае линейность регрессии можно проверить по схеме, предложенной Б. Уолкером, которую можно найти также в [176; 3]. Проверку гипотезы о нормальности распределения производят с помощью критерия
|
1 |
Оглавление
|