8.6. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

8.6. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

В предыдущих разделах было упомянуто о том, что вряд ли выбранная независимая переменная является единственным фактором, который повлияет на зависимую переменную. В большинстве случаев мы можем идентифицировать более одного фактора, способного влиять каким-то образом на зависимую переменную. Так, например, разумно предположить, что расходы цеха будут определяться количеством отработанных часов, использованного сырья, количеством произведенной продукции. По видимому, нужно использовать все факторы, которые мы перечислили для того, чтобы предсказать расходы цеха. Мы можем собрать данные об издержках, отработанном времени, использованном сырье и т.д. за неделю или за месяц Но мы не сможем исследовать природу связи между издержками и всеми другими переменными посредством корреляционной диаграммы. Начнем с предположений о линейной связи, и только если это предположение будет неприемлимо, попробуем использовать нелинейную модель. Линейная модель для множественной регрессии:

Вариация у объясняется вариацией всех независимых переменных, которые в идеале должны быть независимы друг от друга. Например, если мы решим использовать пять независимых переменных, то модель будет следующей:

Как и в случае простой линейной регрессии мы получаем по выборке оценки и т.д. Наилучшая линия для выборки:

Коэффициент а и коэффициенты регрессии вычисляются с помощью минимальности суммы квадратов ошибок Для дальнейшего регрессионной модели используют следующие предположения об ошибка любого данного

2. Дисперсия равна и одинакова для всех х.

3. Ошибки независимы друг от друга.

Эти предположения те же, что и в случае простой регрессии. Однако в случае они ведут к очень сложным вычислениям. К счастью, выполня вычисления, позволяя нам сосредоточиться на интерпретации и оценке торной модели. В следующем разделе мы определим шаги, которые необх предпринять в случае множественной регрессии, но в любом случае мы полагаться на компьютер.

ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ

Первый шаг обычно предполагает обдумать, как зависимая переменная быть связана с каждой из независимых переменных. Нет смысла нительные переменные х, если они не дают возможность объяснения вариа Вспомним, что наша задача состоит в объяснить вариацию изменения независимой переменкой х. Нам необходимо рассчитать коэффид корреляции для всех пар переменных при условии независимости наблк друг от друга. Это даст нам возможность определить, связаны х с у линей! же нет, независимы ли между собой. Это важно в множественной регр Мы можем вычислить каждый из коэффициентов корреляции, как пока: разделе 8.5, чтобы посмотреть, насколько их значения отличны от нуля нужно выяснить, нет ли высокой корреляции между значениями незавю переменных. Если мы обнаружим высокую корреляцию, например, между х то маловероятно, что обе эти переменные должны быть включены в оконч модель.

ШАГ 2. ОПРЕДЕНИЕ ВСЕХ СТАТИСТИЧЕСКИ ЗНАЧИМЫХ МОДЕЛ

Мы можем исследовать линейную связь между у и любой комбинацией переменных. Но модель имеет силу только в том случае, если значимая линейная связь между у и всеми х и если каждый коэффи регрессии значимо отличен от нуля.

Мы можем оценить значимость модели в целом, используя того, мы должны использовать -критерий для каждого коэффициента регр чтобы определить, значимо ли он отличен от нуля. Если коэффициент сии не значимо отличается от нуля, то соответствующая независимая перем не помогает в прогнозе значения у и модель не имеет силы.

Полная процедура заключается в том, чтобы установить множествениу нейную регрессионную модель для всех комбинаций независимых переме. Оценим каждую модель, используя F-критерий для модели в целом и -кри для каждого коэффициента регрессии. Если F-критерий или любой из -кря! незначимы, то эта модель не имеет силы и не может быть использована.

модели исключаются из рассмотрения. Этот процесс занимает очень много времени. Например, если у нас имеются пять независимых переменных, то возможно построение 31 модели: одна модель со всеми пятью переменными, пять моделей, включающие четыре из пяти переменных, десять — с тремя переменными, десять — с двумя переменными и пять моделей с одной.

Можно получить множественную регрессию не исключая последовательно независимые переменные, а расширяя их круг. В в этом случае мы начинаем с построения простых регрессий для каждой из независимых переменных поочередно. Мы выбираем лучшую из этих регрессий, т.е. с наивысшим коэффициентом корреляции, затем добавляем к этому, наиболее приемлемому значению переменной у вторую переменную. Этот метод построения множественной регрессии называется прямым.

Обратный метод начинается с исследования модели, включающей все независимые переменные; в нижеприведенном примере их пять. Переменная, которая дает наименьший вклад в общую модель, исключается из рассмотрения, остается только четыре переменных. Для этих четырех переменных определяется линейная модель. Если же эта модель не верна, исключается еще одна переменная, дающая наименьший вклад, остается три переменных. И этот процесс повторяется со следующими переменными. Каждый раз, когда исключается новая переменная, нужно проверять, чтобы значимая переменная не была удалена. Все эти действия нужно производить с большим вниманием, так как можно неосторожно исключить нужную, значимую модель из рассмотрения.

Не важно, какой именно метод используется, может быть несколько значимых моделей и каждая из них может иметь огромное значение.

ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙ

Эта процедура может бьгть рассмотрена с помощью примера, в котором определились три важнейших модели. Первоначально было пять независимых переменных но три из них — — исключены из всех моделей. Эти переменные не помогают в прогнозировании у.

Поэтому значимыми моделями оказались:

Модель 1: у прогнозируется только

Модель 2: у прогнозируется только

Модель 3: у прогнозируется вместе.

Для того, чтобы сделать выбор из этих моделей, проверим значения коэффициента корреляции и стандартного отклонения остатков Коэффициент множественной корреляции — есть отношение "объясненной" вариации у к общей вариации у и вычисляется так же, как и коэффициент парной корреляции для простой регрессии при двух переменных. Модель, которая описывает связь между у и несколькими значениями х, имеет множественный коэффициент корреляции который близок к и значение очень мало. Коэффициент детерминации который часто предлагается в ППП, описывает процент изменяемости у, которая обменяется моделью. Модель имеет значение в том случае, когда близко к 100%.

В данном примере мы просто выбираем модель с наибольшим значением и наименьшим значением Предпочтительной моделью оказалась модель следующем шаге необходимо сравнить модели 1 и 3. Различие между этими моделями состоит во включении переменной в модель 3. Вопрос в том повышает ли значительно точность предсказания значения у или же нет! Следующий критерий поможет ответить нам на этот вопрос — это частный F-критерий. Рассмотрим пример, иллюстрирующий всю процедуру построения множественной регрессии.

Пример 8.2. Руководство большой шоколадной фабрики заинтересовано в построении модели для того, чтобы предсказать реализацию одной из своих уже долго существующих торговых марок. Были собраны следующие данные.

Таблица 8.5. Построение модели для прогноза объема реализации (см. скан)

Определим "лучшую" модель для прогноза объема реализации.

Решение.

Шаг 1. Просмотр данных. Реализация за шесть месяцев — зависимая переменная у. У нас пять независимых переменных х, четыре из них — расходы на рекламу, цена товара, конкурентная цена и индекс потребительских затрат. Пятая переменная — время, которое может быть обозначено для первого периода — Январь-июнь 19X0- период 1, следующий период - 2 и т.д., до 16 — последнего периода, июль-декабрь 19X7. Вычислим коэффициенты корреляции, для всех шести переменных.

Воспользуемся процедурой проверки гипотез для определения значимости этих коэффициентов.

- коэффициент корреляции в генеральной совокупности равен нулю. Между парой переменных не существует никакой линейной связи.

В идеале это должно выполняться для всех пар независимых переменных.

коэффициент корреляции не равен нулю. Между парой переменных существует линейная связь.

Это должно выполняться для пар, образованных зависимой переменной с каждой независимымой переменной.

Проверим эти гипотезы на 5%-ном и 1%-ном уровнях значимости, используя двусторонний критерий. Из таблиц -распределения значение на -ном уровне значимости составляет:

а на -ном уровне:

Формула критерия:

степенями свободы.

Коэффициенты корреляции и соответствующий уровень значимости приведены ниже:

Таблица 8.6. Коэффициенты корреляции (в скобках указав уровень значимости)

Зависимая переменная, т.е. объем реализации, имеет невероятно сильную линейную связь со временем, расходами на рекламу товара и индексом потребительских расходов. К сожалению, независимые переменные, время и индекс потребительских расходов, очень высоко коррелированы. Маловероятно, что обе переменные должны быть включены в окончательную модель. Это же верно и для двух ценовых переменных с коэффициентом корреляции 0,70. Будем иметь это в виду в ходе выполнения шага 2.

Шаг 2. Нахождение всех статистически значимых моделей. Будем использовать обратный метод для нахождения значимых моделей. Начнем с рассмотрения всех переменных в модели и затем придем к четырем переменным вместо пяти и так далее, пока не будут определены значимые модели. Модель для пяти переменных имеет вид:

Установим сначала общую значимость модели, используя F-критерий. Компьютер производит обычно табличный анализ дисперсии, в котором общая вариация реализации разделена на две части: часть, которая объясняется моделью, и часть, которая не объясняется моделью, т.е. на вариацию, объясненную регрессией и необъясненную, или остаточную вариацию. Компьютер рассчитывает два показателя:

эта величина измеряет вариацию, объясненную регрессионной моделью.

которая измеряет вариацию, не объясненную регрессией.

Замечание: Общее число степеней свободы равно где — число данных в совокупности, в данном примере — число степеней свободы для регрессии, которая задана числом независимых переменных к. В данной модели — число степеней свободы для остатков может быть найдено как:

В данном примере

Если модель описывает связь между у и всеми независимыми переменными х, то величина остаточной вариации будет очень малой. Для всей модели в целом: нет линейной связи между какими-либо независимыми переменными и продажей, т.е. существует линейная связь между одной или большим числом независимых переменных, т.е. по крайней мере одна величина

Для того чтобы модель была полезной и имела силу, мы должны отвергнуть Но и принять Значение F-критерия есть соотношение двух величин, описанных выше:

Этот критерий с одним хвостом (односторонний), потому, что средний квадрат, обусловленный регрессией, должен быть больше, чтобы мы могли принять . В предыдущих разделах, когда мы использовали F-критерий, критерии были двусторонние, так как во главу угла ставилось большее значение вариации, каким бы оно ни было. В регрессионном анализе нет выбора — наверху (в числителе) всегда вариация у по регрессии. Если она меньше, чем вариация по остаточной величине, мы принимает Но, так как модель не объясняет изменений у. Это значение F-критерия сравнивается с табличным:

Из таблиц стандартного распределения F-критерия:

В нашем примере значение критерия:

поэтому мы получили результат с высокой достоверностью.

Проверим каждое из значений коэффициентов регрессии. Предположим, что компьютер сосчитал все необходимые -критерии. Для первого коэффициента гипотезы формулируются так:

время не помогает объяснить изменение продаж при условии, что остальные переменные присутствуют в модели, т.е.

время дает существенный вклад и должно быть включено в модель, т. е.

Проведем испытание гипотезы на -ном уровне, пользуясь двусторонним -критерием при:

Граничные значения на данном уровне:

Значение критерия:

Рассчитанные значения -критерия должны лежать вне указанных границ для того, чтобы мы смогли отвергнуть гипотезу

Так как все независимые переменные подчиняются этому правилу, то результаты проверки значимости для пяти переменных в данной модели обобщены в следующей таблице:

Таблица 8.7. Проверка значимости коэффициентов регрессии для пяти переменных

Сейчас мы видим, что наша модель не достоверна, потому что четыре коэффициента регрессии не значимо отличны от нуля. Нам нужно решить, какую переменную следует исключить из модели.

В табл. 8.8 представлены шаги, предпринятые по мере того, как мы сокращаем число переменных в модели от 5 до 4, затем до 3, до 2 и, наконец, до 1 независимой переменной. Прочерки показывают, что переменная не включена в модель. Пользуясь результатами наших исследований, можно решить, какая переменная должна быть исключена из рассмотрения. Для каждой модели мы испытываем всю регрессию и отдельные коэффициенты регрессии. Если модель подходит по всем критериям, то должно быть малым, как можно ближе к 1.

Таблица 8.8. Исследование различных моделей регрессии

Шаг 3. Какую из значимых моделей нужно использовать?

В нашем примере значение модели появились лишь тогда, когда количество переменных сократилось до двух. Сравнение моделей необходимо проводить через сопоставление стандартных отклонений остатков. Отклонение должно быть предельно малым числом. Первая модель с расходами на рекламу и индексом

потребительских расходов является наилучшей, так как по сравнению с для модели с расходами на рекламу и временем как независимыми переменными. Последний шаг — сравнение лучшей модели с двумя переменными с лучшей моделью с одной переменной. По величине корреляции выбираем лучшую модель с одной переменной при . Если бы добавление еще одной независимой переменной значительно улучшило модель, то мы смогли бы применить частный F-критерий для проверки. Этог критерий показывает, что введение величины расходов на рекламу значительно улучшает модель и нам нужно использовать две переменные: индекс потребительских расходов и расходы на рекламу. Окончательная модель:

Коэффициенты регрессии для расходов на рекламу и индекса потребительских расходов положительны, как мы и предполагали. Постоянная - ст.) выглядит абсурдной, но вспомним, что модель имеет силу только для значений, входящих в выборочную совокупность. Расходы на рекламу изменяются от 3,8 млн. ф. ст. до 19,8 млн. ф. ст., а индекс — от 98,4 до 112,9.

Этот пример хорошо показывает все сложности объяснения и расчета каждой отдельной величины многофакторной модели. Цель статистической модели — объяснить вариацию продаж, а не предоставить особую информацию по изолированному влиянию рекламы или индекса потребительских цен на реализацию. По данным выборки модель дает некоторое представление о таких эффектах. В выборочной совокупности всегда возникает противоречие между теми или иными переменными. Поэтому коэффициенты регрессии при отдельных переменных должны использоваться с особым вниманием.

Наконец, при анализе мы должны проверить структуру и размер ошибок, а потому мы должны заранее предполагать большие ошибки. Ошибки рассчитываются следующим образом:

Таблица 8.9. Размер ошибок (млн. ф. ст.)

Рис. 8.20. Распределение остатков для модели с двумя переменными

Оказалось восемь ошибок с отклонениями 10% или более от фактического объема продаж. Наибольшая из них — 27%. Будет ли размер ошибки принят компанией при планировании деятельности? Ответ на этот вопрос будет зависеть от степени надежности других методов.

8.7. НЕЛИНЕЙНЫЕ СВЯЗИ

Вернемся к ситуации, когда у нас всего две переменные, но связь между ними нелинейная. На практике многие связи между переменными являются криволинейными. Например, связь может быть выражена уравнением:

или:

или

Если связь между переменными сильная, т.е. отклонение от криволинейной модели относительно небольшое, то мы сможем догадаться о природе наилучшей модели по диаграмме (полю корреляции). Однако трудно применить нелинейную модель к выборочной совокупности. Было бы легче, если бы мы могли манипулировать нелинейной моделью в линейной форме. В первых двух записанных моделях функциям могут быть присвоены разные имена, и тогда будет использоваться множественная модель регрессии. Например, если модель:

лучше всего описывает связь между у и х, то перепишем нашу модель, используя независимые переменные

где

Эти переменные рассматриваются как обыкновенные независимые переменные, даже если мы знаем, что и х не могут быть независимы друг от друга. Лучшая модель выбирается так же, как и в предыдущем разделе.

Третья и четвертая модели рассматриваются по-другому. Тут мы уже встречаемся с необходимостью так называемой линейной трансформации. Например, если связь

то на графике это будет изображено кривой линией. Все необходимые действия могут быть представлены следующим образом:

Таблица 8.10. Расчет

Рис. 8.21. Нелинейная связь

Линейная модель, при трансформированной связи:

где

Рис. 8.22. Линейная трансформация связи

В общем, если исходная диаграмма показывает, что связь может быть изображена в форме: то представление у против X, где определит прямую линию. Воспользуемся простой линейной регрессией для установления модели: Рассчитанные значения а и — лучшие значения а и (5.

Четвертая модель, приведенная выше, включает трансформацию у с использованием натурального логарифма:

Взяв логарифмы по обеих сторон уравнения, получим:

поэтому: где

Если , то - уравнение линейной связи между Y и х. Пусть — связь между у и х, тогда мы должны трансформировать каждое значение у взятием логарифма по е. Определяем простую линейную регрессию по х для того, чтобы найти значения А и Антилогарифм записан ниже.

Таким образом, метод линейной регрессии может быть применен к нелинейным связям. Однако в этом случае требуется алгебраическое преобразование при записи исходной модели.

Пример 8.3. Следующая таблица содержит данные об общем годовом объеме производства промышленной продукции в определенной стране за период

Таблица 8.11. Годовой объем продукции

Требуется:

1. Нарисовать диаграмму, прокомментировать ее.

2. Нарисовать новую диаграмму за следующий год.

3. Предположим, что связь между общей годовой продукцией и временем может быть описана как:

где у — общий объем годовой продукции их — число лет с .

Используйте выборочную совокупность для оценки а и Объяснить получение

4. Используйте модель, описанную в для прогнозирования общего объема продукции. Прокомментируйте ваш прогноз.

Решение

1. Диаграмма по указанным данным.

Рис. 8.23. Диаграмма общего объема производства

Рисунок показывает, что между у и х существует некая связь, но она может быть криволинейной.

2. Трансформируем для начала значения объема производства в логарифмической форме.

Таблица 8.12. Логарифмы значений объема производства

Линейная связь между четко видна из диаграммы. Нелинейная же связь между у и х должка быть трансформирована в:

где:

Рис. 8.24. Изображение , соответствующих значениям х

3. Предполагаемая модель:

Пролагорифмируем обе части:

Отсюда:

Пусть Тогда ожидаемая линейная модель:

Для оценки А и В используем технику простой линейной регрессии:

Таблица 8.13. Расчеты для модели регрессии

Для выявления наилучшей модели применяется метод наименьших квадратов в выборочной совокупности:

Коэффициент А находится как:

т.е.

Поэтому линейная модель:

так как , то Так как то

Связь между общим объемом годовой продукции и числом лет с быть описана:

Интерпретация если мы перепишем эту модель таким образом: то природа связи станет более очевидна. Годовая про, 739 в году при Затем мы видим, что продукция растет в год. b — отношение объема производства в текущем году к объему в предыдущем году. Прогноз будущего объема продукции:

Нужно быть предельно внимательными, когда мы расширяем рамки построенной по выборочной совокупности. Предположим, что условия с 15 годы остаются неизменными. Это предложение может быть оправд для прогноза на год, но по мере того как мы будем двигаться далее, станет все менее надежен.

<< Предыдущий параграф

Следующий параграф >>

Оглавление