Главная > Методы корреляционного и регрессионного анализа
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

2.7. ЛИНЕЙНАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

В действительности каждое явление определяется действием не одной причины, а нескольких, даже комплексом причин. Их совместное действие может по-разному сказываться на следствии. «Следствие порождается совокупным действием множества причин. Сложное сочетание причин приводит к различным результатам. Действуя на следствие в одном и том же направлении, они усиливают влияние друг друга. Если часть причин имеет обратное направление в отношении объекта действия, то их совместное действие на следствие ослабляется или даже сводится на нет. Может возникнуть даже такая ситуация, когда вполне определенная, реально действующая причина не имеет явного следствия. Это означает, что наряду с этой причиной действует другая, поглощающая действие первой» [14]. Итак, необходимо исследовать воздействие различных причин, т. е. исследовать зависимость одного явления от ряда других явлений, вызывающих первое.

Совершенно очевидно, что не все причины и факторы, в какой-то степени оказывающие влияние на изучаемое явление, могут быть исследованы. Мы вынуждены ограничиться только существенными причинами.

Экономическое явление детерминируется множеством одновременно и совокупно действующих причин. Поэтому перед нами стоит задача исследования зависимости одной зависимой переменной от нескольких объясняющих переменных в условиях конкретного места и конкретного времени. Эту задачу можно решить с помощью множественного, или многофакторного, регрессионного анализа. При этом снова ограничимся рассмотрением линейного соотношения между зависимой переменной у и объясняющими переменными хт. Мы обсудим также применение регрессионного анализа при нелинейном соотношении между переменными, но только для случая, когда возможна линейная аппроксимация.

Итак, при существовании линейного соотношения между переменными общее выражение уравнения множественной регрессии (2.1) записывается в виде

Объясняющие переменные оказывают совместное одновременное влияние на зависимую переменную у.

Как было сказано, мы не можем охватить весь комплекс причин и учесть случайность, присущую в той или иной степени причинному действию и определяемому им следствию. Поэтому, ограничиваясь наиболее важными объясняющими переменными, в выражение функции регрессии вводим аддитивную составляющую возмущающую переменную и, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Эмпирические значения у можно вследствие этого представить таким образом:

Итак, возмущающая переменная и интерпретируется так же, как и при простой линейной регрессии.

В выражении функции — расчетные значения регрессии. Они указывают средние значения переменной у в точке при фиксированных значениях объясняющих переменных в предположении, что только эти переменных являются причиной изменения переменной у. Значения у представляют собой оценки средних значений у для фиксированных значений переменных в точке

Коэффициенты — параметры регрессии (2.42). Постоянная регрессия снова выполняет в уравнении регрессии функцию выравнивания. Она определяет точку пересечения гиперповерхности регрессии с осью ординат.

Значения представляют собой оценки коэффициентов регрессии. Индекс при коэффициенте соответствует индексу объясняющей переменной. Так, указывает среднюю величину изменения у при изменении на одну единицу при условии, что другие переменные остаются без изменения; показывает, на сколько единиц в среднем изменится у, если бы переменная изменилась на единицу при условии, что переменные остались бы без изменения, и т. д. В то время как регрессия (2.42) охватывает совокупное одновременное влияние объясняющих переменных, коэффициенты регрессии указывают соответствующие усредненные частные влияния переменных в предположении, что остальные объясняющие переменные сохраняются на постоянном уровне. С точки зрения статистической методологии, таким образом, нет различия между множественной и частной регрессией. (На этом мы еще остановимся подробнее в следующем разделе.) По этой причине в литературе параметры называются как коэффициентами множественной, так и частной регрессии.

Такая содержательная интерпретация коэффициентов регрессии могла бы привести к ошибочному заключению, что достаточно определить несколько простых линейных регрессий переменной у по отдельным переменным Но, как мы уже упоминали ранее и в чем мы еще убедимся на примере, множественная регрессия хотя и охватывает одновременное действие объясняющих переменных, коэффициент регрессии исключает влияние остальных объясняющих переменных,

В случае простой линейной регрессии дело обстоит иначе. При простой линейной регрессии влияние прочих объясняющих переменных частично отражается в коэффициенте регрессии, что можно объяснить часто существующей двусторонней зависимостью объясняющих переменных. Итак, если располагают достаточной информацией и эмпирическим числовым материалом по нескольким причинам-факторам для переменной у, то целесообразнее и теоретически обоснованнее строить множественную регрессию. В разделе 2.5 мы уже указывали, что из-за рассеяния значений отдельных переменных функция регрессии необратима даже тогда, когда это оправдано логически и обосновано профессиональными соображениями. Необратимость характерна также для множественной регрессии. Если интересуются не только зависимостью переменной у от но также зависимостью переменной от у и то следует определить другую функцию (регрессию х на у и Теоретически существует сопряженных, или альтернативных, регрессий. Уже здесь мы обращаем внимание на то, что многосторонняя зависимость между переменными у и нарушает существенные предпосылки применения метода наименьших квадратов. Подробно речь об этом пойдем в главе 12.

Процедуру построения множественной регрессии рассмотрим на примере регрессии с двумя объясняющими переменными. Функция линейной множественной регрессии в этом случае записывается в виде

Задача состоит в оценке параметров регрессии по результатам выборочных наблюдений над переменными, включенными в анализ. Для этой цели снова применяем метод наименьших квадратов. Поставим условие, согласно которому регрессия должна по возможности хорошо согласовываться с Эмпирическими данными. Поэтому по тем же соображениям, что и в разделе 2.4, выдвинем требование, по которому сумма квадратов отклонений всех наблюдаемых значений зависимой переменной от значений, вычисленных по уравнению регрессии (т. е. сумма квадратов остатков), должна быть минимальна. Итак, должно выполняться требование

Подставляя вместо выражение (2.43), получим

Так же, как в разделе 2.4, 5 является функцией от неизвестных параметров регрессии. Необходимым условием выполнения (2.45) служит обращение в нульгчастных производных функции по каждому из параметров После соответствующих алгебраических

выкладок получаем следующую систему нормальных уравнений:

Если мы сравним эти уравнения с нормальными уравнениями простой линейной регрессии, то увидим большое сходство. Они отличаются лишь слагаемым, учитывающим новую переменную Следовательно, включение в анализ новых переменных не представляет больших трудностей.

Разделив обе части уравнения (2.46) на получим следующее выражение для постоянной регрессии

Подставляя (2.49) в (2.43), после некоторых простых преобразований получим выражение, аналогичное (2.25):

или

Решая систему нормальных уравнений относительно неизвестных параметров, получим

По аналогии с формулой (2.27) для простой регрессии можно коэффициенты множественной или частной регрессии представить через дисперсии и ковариации.

Разделив вначале обе части нормального уравнения (2.46) на и умножив их на вычтем их соответственно из левой и правой частей уравнения (2.47). В результате получим

Затем умножим обе части нормального уравнения (2.46) на предварительно поделенные на и вычтем их соответственно из левой и правой частей уравнения (2.48). В результате получим

Оба равенства мы можем представить следующим образом:

Разделив обе части равенств (2.53) и (2.54) на найдем, с учетом определений дисперсии и ковариации, выражения коэффициентов регрессии:

Используя данные примера из раздела 2.4, дополним их результатами наблюдений над второй объясняющей переменной — средним возрастом работников. Переменную х, использованную в примере раздела 2.4, обозначим теперь . В табл. 7 приведены значения, которые принимает переменная а также промежуточные результаты вычислений, необходимые для нахождения оценок коэффициентов регрессии.

Таблица 7. Средний возраст работников, средний процент выполнения нормы на 14 предприятиях и промежуточные результаты, необходимые для нахождения оценок параметров регрессии (см. скан)

Среднее значение переменной

Используя промежуточные результаты из табл. 3 и 7, по формулам (2.51) и (2.52) вычисляем коэффициенты регрессии:

Постоянную регрессии получаем по формуле (2.49):

Итак, в соответствии с формулой функции регрессии (2.43) уравнение регрессии можно записать в виде

Если рассматривать зависимость производительности одновременно от уровня механизации работ и от среднего возраста работников, то производительность труда в среднем изменится на при условии, что уровень механизации работ изменится на один процент при исключении влияния среднего возраста работников. Если исключить влияние уровня механизации работ, то производительность труда в среднем изменится на при изменении среднего возраста работников на один год.

По сравнению с коэффициентом регрессии в уравнении с одной объясняющей переменной частный коэффициент регрессии несколько уменьшился. Это объясняется тем, что переменная коррелирует с в чем мы еще убедимся с помощью количественного показателя. По этой причине переменная влияет на переменную у через вследствие чего ослабевает сила зависимости у от Наличие зависимости среди объясняющих переменных нарушает одно из основных предположений линейной модели регрессионного анализа, что влечет за собой особые проблемы. Более подробно эти проблемы мы обсудим в главе 9.

Подставляя последовательно значения переменных в полученное уравнение, найдем расчетные значения регрессии. Вычитая их из наблюдаемых значений переменной у, получим остатки:

По величине этих остатков можно сделать вывод, аналогичный выводу, сделанному в разделе 2.4 для простой линейной регрессии.

Сравнивая формулы (2.51) и (2.52) с (2.22) и (2.23), а также процедуры расчета, убеждаемся, что включение в регрессию новых объясняющих переменных усложняет аналитические выражения формул, а вместе с этим и вычисления. Обобщение модели множественной регрессии на объясняющих переменных требует использования матричных обозначений и владения техникой матричной алгебры. Кроме того, это необходимо для компактности изложения и применения некоторых стандартных вычислительных процедур, значительно облегчающих и ускоряющих проведение анализа [311.

Итак, будем исходить из выражения множественной регрессии (2.42). Как упоминалось в разделе 2.3, для постоянной в уравнении регрессии можно ввести фиктивную переменную принимающую значение, равное 1, для всех

С учетом (2.57), (2.3) и (2.42) линейную модель зависимости можно представить в виде

Результаты наблюдений записываем в форме вектор-столбца размерности Значения объясняющих переменных записываем в виде матрицы X размерности а остатки функции регрессии — в виде вектор-столбца размерности . Параметры регрессии образуют вектор-столбец размерности . Итак, имеем

Функций регрессии (2.42) может быть представлена компактно матричной форме

а функция (2.58) — соответственно

Для оценки неизвестных параметров в (2.59) мы снова применяем метод наименьших квадратов. Лежащее в основе этого метода требование о том, что сумма квадратов отклонений эмпирических значений от расчетных значений регрессии должна быть минимальна, в матричной записи имеет вид

или, подставляя вместо у его выражение,

Продифференцировав (2.62) по элементам вектора приравняем полученное выражение к нулю:

Отсюда получаем нормальные уравнения, которым должен удовлетворять вектор в при соблюдении требования (2.61):

Если матрица обратима, то мы получим в качестве решения системы нормальных уравнений вектор-столбец искомых параметров регрессии:

Матрица и вектор с учетом (2.57) имеют следующий вид:

Вернемся к нашему примеру. Но теперь будем рассматривать зависимость производительности труда одновременно от уровня механизации

работ, среднего возраста работников, а также от среднего процента выполнения нормы. Значения переменных приведены в табл. 7. Построим вектор у и матрицу X:

Для и получаем:

Выполняя действия, предписываемые (2.64), получим вектор оценок параметров регрессии:

По формуле (2.59) получим вектор значений регрессии:

Выполнив операцию вычитания, найдем вектор остатков, или вектор возмущающих воздействий:

Таким образом, уравнение регрессии, выражающее зависимость про изводительности труда от уровня механизации работ, среднего возраста работников и среднего процента выполнения нормы, имеет следующий вид:

Коэффициенты частной регрессии отражают зависимость производительности труда от соответствующей переменной при исключении влияния на зависимую переменную двух других объясняющих переменных. В то время как в нашем примере коэффициенты частной регрессии

имеют экономический смысл, принимает такое значение, которое трудно поддается объяснению с экономической точки зрения Это значение указывает на слабую отрицательную регрессию, т. е. с ростом среднего процента выполнения нормы производительность труда уменьшается. С точки зрения экономиста, это парадоксально. Почему же получился такой результат? На основе данных количественных соотношений между значениями переменных, включенных в анализ, можно еще раз убедиться, что ошибка в результатах вычислений отсутствует. Очевидно, причина кроется в малом числе наблюдений. Рассматриваемые 14 предприятий представляют собой элементы выборки. Если мы увеличим объем выборки, включив в нее большее число предприятий, то получим другие значения коэффициентов регрессии. Поэтому возникает необходимость проверки значимости коэффициента регрессии и указания интервала, в котором могут находиться оценки коэффициента регрессии под влиянием случайностей, присущих выборочным наблюдениям. При проверке значимости оценок коэффициентов регрессии устанавливается, достаточна ли величина оценки для статистически обоснованного вывода о наличии зависимости. Проверку значимости и последствия этой проверки мы обстоятельно обсудим в разделе 8.7.

В случае множественной регрессии более чем с двумя объясняющими переменными рекомендуется преобразовывать переменные. Из всех возможных способов преобразования мы хотим здесь остановиться на одном, который позволяет упростить расчеты определения оценок неизвестных параметров, а также облегчает исследование некоторых вопросов. Выполним следующее преобразование переменных у и которое называется стандартизацией (нормированием):

где — стандартные отклонения переменных у и Все переменные и соотношения между ними будут выражаться в стандартизованном масштабе. В этом масштабе за начало отсчета для каждой переменной принимается значение среднего, а за единицу измерения — величина стандартного отклонения. В стандартизованном масштабе упрощаются линейные соотношения между переменными. Легко увидеть, что при стандартизации фиктивная переменная а вместе с ней и постоянная регрессии исключаются, что способствует облегчению расчетов. Уравнение множественной линейной регрессии в стандартизованном масштабе приобретает вид

где — стандартизованные переменные, — стандартизованные коэффициенты регрессии.

Оценки стандартизованных коэффициентов множественной регрессии находят с помощью метода наименьших квадратов. В результате получаем формулы, аналогичные формулам обычных коэффициентов регрессии (выраженных в натуральном масштабе), но с учетом того, что отсутствуют и происходит замена переменных у на у,

на . По этой причине мы отказываемся от воспроизведения этих формул. Значительно важнее сейчас указать соотношение между обычными и стандартизованными коэффициентами регрессии также раздел 4.3):

Стандартизованные коэффициенты регрессии можно вычислить по коэффициентам регрессии выраженным в натуральном масштабе, и наоборот. Особенно удобны для сравнения стандартизованные коэффициенты регрессии. Как мы уже неоднократно отмечали, коэффициенты регрессии являются размерными величинами. При этом их размерность связана с размерностью исходных данных. В нашем примере коэффициент регрессии имеет размерность . В общем, размерность коэффициента регрессии выражается в единицах измерения переменной у на единицу измерения переменной Любое изменение единицы измерения переменной сказывается на коэффициенте регрессии. Стандартизованные переменные у и а также стандартизованные коэффициенты регрессии безразмерны. Благодаря этому становится возможным сравнение.

Сравнение происходит прежде всего при оценке интенсивности влияния объясняющих переменных на зависимую переменную. Из-за различной размерности переменных и коэффициентов регрессии, а также из-за различных средних значений переменных мы не можем для этой цели воспользоваться коэффициентами регрессии в натуральном масштабе. Несмотря на небольшое по величине значение коэффициента регрессии, соответствующая переменная может оказывать значительное влияние. Это прежде всего объясняется различным рассеянием (вариацией) значений переменных При стандартизации переменные выражаются в единицах стандартных отклонений, благодаря чему стандартные отклонения преобразованных переменных становятся равными единице. Стандартизованные коэффициенты множественной регрессии характеризуют скорость изменения среднего значения зависимой переменной по каждой из объясняющих переменных при постоянных значениях остальных переменных, включенных в анализ.

Для нашего примера мы получили следующие значения коэффициентов регрессии и стандартные отклонения в натуральном масштабе:

По формуле перевода (2.67) вычисляем стандартизованные коэффициенты регрессии:

Уравнение множественной регрессии в стандартизованном масштабе примет вид:

В отличие от обычных коэффициентов регрессии, выраженных в натуральном масштабе, стандартизованные коэффициенты можно непосредственно сравнивать друг с другом. По ним судят об интенсивности влияния изменений отдельных объясняющих переменных на изменение зависимой переменной у. Стандартизованные коэффициенты множественной регрессии показывают, на какую часть стандартного отклонения изменилось бы среднее значение зависимой переменной» если бы значение соответствующей объясняющей переменной увеличилось на стандартное отклонение, а прочие переменные остались без изменения. Благодаря тому, что все переменные выражены в сравнимых единицах измерения, стандартизованные коэффициенты регрессии показывают сравнительную силу влияния каждой объясняющей переменной на изменение зависимой переменной. В нашем примере с данными, собранными на 14 обследованных предприятиях, значения стандартизованных коэффициентов регрессии подтверждают наше мнение о необходимости проверки существенности влияния переменных на производительность труда. Наибольшее влияние на производительность труда оказывает изменение уровня механизации работ, а затем уже следуют средний возраст работников и процент выполнения нормы. С увеличением показателя механизации работ на величину стандартного отклонения при постоянных значениях переменных производительность труда в среднем увеличивается примерно на 0,929 единицы стандартного отклонения. Аналогично интерпретируются стандартизованные коэффициенты регрессии

Разобранный пример является иллюстрацией возможного применения множественного регрессионного анализа в практике народного хозяйства ГДР.

Categories

1
Оглавление
email@scask.ru