Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
8.6. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИВ предыдущих разделах было упомянуто о том, что вряд ли выбранная независимая переменная является единственным фактором, который повлияет на зависимую переменную. В большинстве случаев мы можем идентифицировать более одного фактора, способного влиять каким-то образом на зависимую переменную. Так, например, разумно предположить, что расходы цеха будут определяться количеством отработанных часов, использованного сырья, количеством произведенной продукции. По видимому, нужно использовать все факторы, которые мы перечислили для того, чтобы предсказать расходы цеха. Мы можем собрать данные об издержках, отработанном времени, использованном сырье и т.д. за неделю или за месяц Но мы не сможем исследовать природу связи между издержками и всеми другими переменными посредством корреляционной диаграммы. Начнем с предположений о линейной связи, и только если это предположение будет неприемлимо, попробуем использовать нелинейную модель. Линейная модель для множественной регрессии:
Вариация у объясняется вариацией всех независимых переменных, которые в идеале должны быть независимы друг от друга. Например, если мы решим использовать пять независимых переменных, то модель будет следующей:
Как и в случае простой линейной регрессии мы получаем по выборке оценки
Коэффициент а и коэффициенты регрессии
2. Дисперсия 3. Ошибки независимы друг от друга. Эти предположения те же, что и в случае простой регрессии. Однако в ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХПервый шаг обычно предполагает обдумать, как зависимая переменная быть связана с каждой из независимых переменных. Нет смысла ШАГ 2. ОПРЕДЕНИЕ ВСЕХ СТАТИСТИЧЕСКИ ЗНАЧИМЫХ МОДЕЛ Мы можем исследовать линейную связь между у и любой комбинацией Мы можем оценить значимость модели в целом, используя Полная процедура заключается в том, чтобы установить множествениу нейную регрессионную модель для всех комбинаций независимых переме. Оценим каждую модель, используя F-критерий для модели в целом и модели исключаются из рассмотрения. Этот процесс занимает очень много времени. Например, если у нас имеются пять независимых переменных, то возможно построение 31 модели: одна модель со всеми пятью переменными, пять моделей, включающие четыре из пяти переменных, десять — с тремя переменными, десять — с двумя переменными и пять моделей с одной. Можно получить множественную регрессию не исключая последовательно независимые переменные, а расширяя их круг. В в этом случае мы начинаем с построения простых регрессий для каждой из независимых переменных поочередно. Мы выбираем лучшую из этих регрессий, т.е. с наивысшим коэффициентом корреляции, затем добавляем к этому, наиболее приемлемому значению переменной у вторую переменную. Этот метод построения множественной регрессии называется прямым. Обратный метод начинается с исследования модели, включающей все независимые переменные; в нижеприведенном примере их пять. Переменная, которая дает наименьший вклад в общую модель, исключается из рассмотрения, остается только четыре переменных. Для этих четырех переменных определяется линейная модель. Если же эта модель не верна, исключается еще одна переменная, дающая наименьший вклад, остается три переменных. И этот процесс повторяется со следующими переменными. Каждый раз, когда исключается новая переменная, нужно проверять, чтобы значимая переменная не была удалена. Все эти действия нужно производить с большим вниманием, так как можно неосторожно исключить нужную, значимую модель из рассмотрения. Не важно, какой именно метод используется, может быть несколько значимых моделей и каждая из них может иметь огромное значение. ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙЭта процедура может бьгть рассмотрена с помощью примера, в котором определились три важнейших модели. Первоначально было пять независимых переменных Поэтому значимыми моделями оказались: Модель 1: у прогнозируется только Модель 2: у прогнозируется только Модель 3: у прогнозируется Для того, чтобы сделать выбор из этих моделей, проверим значения коэффициента корреляции и стандартного отклонения остатков В данном примере мы просто выбираем модель с наибольшим значением Пример 8.2. Руководство большой шоколадной фабрики заинтересовано в построении модели для того, чтобы предсказать реализацию одной из своих уже долго существующих торговых марок. Были собраны следующие данные. Таблица 8.5. Построение модели для прогноза объема реализации (см. скан) Определим "лучшую" модель для прогноза объема реализации. Решение. Шаг 1. Просмотр данных. Реализация за шесть месяцев — зависимая переменная у. У нас пять независимых переменных х, четыре из них — расходы на рекламу, цена товара, конкурентная цена и индекс потребительских затрат. Пятая переменная — время, которое может быть обозначено для первого периода — Январь-июнь 19X0- период 1, следующий период - 2 и т.д., до 16 — последнего периода, июль-декабрь 19X7. Вычислим коэффициенты корреляции, Воспользуемся процедурой проверки гипотез для определения значимости этих коэффициентов. - коэффициент корреляции в генеральной совокупности равен нулю. Между парой переменных не существует никакой линейной связи. В идеале это должно выполняться для всех пар независимых переменных.
Это должно выполняться для пар, образованных зависимой переменной с каждой независимымой переменной. Проверим эти гипотезы на 5%-ном и 1%-ном уровнях значимости, используя двусторонний критерий. Из таблиц
а на
Формула критерия:
Коэффициенты корреляции и соответствующий уровень значимости приведены ниже: Таблица 8.6. Коэффициенты корреляции
Зависимая переменная, т.е. объем реализации, имеет невероятно сильную линейную связь со временем, расходами на рекламу товара и индексом потребительских расходов. К сожалению, независимые переменные, время и индекс потребительских расходов, очень высоко коррелированы. Маловероятно, что обе переменные должны быть включены в окончательную модель. Это же верно и для двух ценовых переменных с коэффициентом корреляции 0,70. Будем иметь это в виду в ходе выполнения шага 2. Шаг 2. Нахождение всех статистически значимых моделей. Будем использовать обратный метод для нахождения значимых моделей. Начнем с рассмотрения всех переменных в модели и затем придем к четырем переменным вместо пяти и так далее, пока не будут определены значимые модели. Модель для пяти переменных имеет вид:
Установим сначала общую значимость модели, используя F-критерий. Компьютер производит обычно табличный анализ дисперсии, в котором общая вариация реализации разделена на две части: часть, которая объясняется моделью, и часть, которая не объясняется моделью, т.е. на вариацию, объясненную регрессией и необъясненную, или остаточную вариацию. Компьютер рассчитывает два показателя:
эта величина измеряет вариацию, объясненную регрессионной моделью.
которая измеряет вариацию, не объясненную регрессией. Замечание: Общее число степеней свободы равно
В данном примере Если модель описывает связь между у и всеми независимыми переменными х, то величина остаточной вариации будет очень малой. Для всей модели в целом: Для того чтобы модель была полезной и имела силу, мы должны отвергнуть Но и принять
Этот критерий с одним хвостом (односторонний), потому, что средний квадрат, обусловленный регрессией, должен быть больше, чтобы мы могли принять
Из таблиц стандартного распределения F-критерия:
В нашем примере значение критерия:
Проверим каждое из значений коэффициентов регрессии. Предположим, что компьютер сосчитал все необходимые
Проведем испытание гипотезы на
Граничные значения на данном уровне:
Значение критерия:
Рассчитанные значения Так как все независимые переменные подчиняются этому правилу, то результаты проверки значимости для пяти переменных в данной модели обобщены в следующей таблице: Таблица 8.7. Проверка значимости коэффициентов регрессии для пяти переменных
Сейчас мы видим, что наша модель не достоверна, потому что четыре коэффициента регрессии не значимо отличны от нуля. Нам нужно решить, какую переменную следует исключить из модели. В табл. 8.8 представлены шаги, предпринятые по мере того, как мы сокращаем число переменных в модели от 5 до 4, затем до 3, до 2 и, наконец, до 1 независимой переменной. Прочерки показывают, что переменная не включена в модель. Пользуясь результатами наших исследований, можно решить, какая переменная должна быть исключена из рассмотрения. Для каждой модели мы испытываем всю регрессию и отдельные коэффициенты регрессии. Если модель подходит по всем критериям, то Таблица 8.8. Исследование различных моделей регрессии
Шаг 3. Какую из значимых моделей нужно использовать? В нашем примере значение модели появились лишь тогда, когда количество переменных сократилось до двух. Сравнение моделей необходимо проводить через сопоставление стандартных отклонений остатков. Отклонение должно быть предельно малым числом. Первая модель с расходами на рекламу и индексом потребительских расходов является наилучшей, так как
Коэффициенты регрессии для расходов на рекламу и индекса потребительских расходов положительны, как мы и предполагали. Постоянная - Этот пример хорошо показывает все сложности объяснения и расчета каждой отдельной величины многофакторной модели. Цель статистической модели — объяснить вариацию продаж, а не предоставить особую информацию по изолированному влиянию рекламы или индекса потребительских цен на реализацию. По данным выборки модель дает некоторое представление о таких эффектах. В выборочной совокупности всегда возникает противоречие между теми или иными переменными. Поэтому коэффициенты регрессии при отдельных переменных должны использоваться с особым вниманием. Наконец, при анализе мы должны проверить структуру и размер ошибок, а потому мы должны заранее предполагать большие ошибки. Ошибки рассчитываются следующим образом:
Таблица 8.9. Размер ошибок (млн. ф. ст.)
Рис. 8.20. Распределение остатков для модели с двумя переменными Оказалось восемь ошибок с отклонениями 10% или более от фактического объема продаж. Наибольшая из них — 27%. Будет ли размер ошибки принят компанией при планировании деятельности? Ответ на этот вопрос будет зависеть от степени надежности других методов. 8.7. НЕЛИНЕЙНЫЕ СВЯЗИВернемся к ситуации, когда у нас всего две переменные, но связь между ними нелинейная. На практике многие связи между переменными являются криволинейными. Например, связь может быть выражена уравнением:
или:
или:
или
Если связь между переменными сильная, т.е. отклонение от криволинейной модели относительно небольшое, то мы сможем догадаться о природе наилучшей модели по диаграмме (полю корреляции). Однако трудно применить нелинейную модель к выборочной совокупности. Было бы легче, если бы мы могли манипулировать нелинейной моделью в линейной форме. В первых двух записанных моделях функциям
лучше всего описывает связь между у и х, то перепишем нашу модель, используя независимые переменные
где Эти переменные рассматриваются как обыкновенные независимые переменные, даже если мы знаем, что Третья и четвертая модели рассматриваются по-другому. Тут мы уже встречаемся с необходимостью так называемой линейной трансформации. Например, если связь
то на графике это будет изображено кривой линией. Все необходимые действия могут быть представлены следующим образом: Таблица 8.10. Расчет
Рис. 8.21. Нелинейная связь Линейная модель, при трансформированной связи:
где
Рис. 8.22. Линейная трансформация связи В общем, если исходная диаграмма показывает, что связь может быть изображена в форме: Четвертая модель, приведенная выше, включает трансформацию у с использованием натурального логарифма:
Взяв логарифмы по
поэтому: Если Таким образом, метод линейной регрессии может быть применен к нелинейным связям. Однако в этом случае требуется алгебраическое преобразование при записи исходной модели. Пример 8.3. Следующая таблица содержит данные об общем годовом объеме производства промышленной продукции в определенной стране за период Таблица 8.11. Годовой объем продукции
Требуется: 1. Нарисовать диаграмму, прокомментировать ее. 2. Нарисовать новую диаграмму за следующий год. 3. Предположим, что связь между общей годовой продукцией и временем может быть описана как:
где у — общий объем годовой продукции их — число лет с Используйте выборочную совокупность для оценки а и 4. Используйте модель, описанную в Решение 1. Диаграмма по указанным данным.
Рис. 8.23. Диаграмма общего объема производства Рисунок показывает, что между у и х существует некая связь, но она может быть криволинейной. 2. Трансформируем для начала значения объема производства в логарифмической форме. Таблица 8.12. Логарифмы значений объема производства
Линейная связь между
где:
Рис. 8.24. Изображение 3. Предполагаемая модель:
Пролагорифмируем обе части:
Отсюда:
Пусть
Для оценки А и В используем технику простой линейной регрессии: Таблица 8.13. Расчеты для модели регрессии
Для выявления наилучшей модели применяется метод наименьших квадратов в выборочной совокупности:
Коэффициент А находится как:
т.е.
Поэтому линейная модель:
так как Связь между общим объемом годовой продукции и числом лет с
Интерпретация
Нужно быть предельно внимательными, когда мы расширяем рамки
|
1 |
Оглавление
|