Глава 8. ЛИНЕЙНАЯ РЕГРЕССИЯ
8.1. ВВЕДЕНИЕ
Статистический анализ в предыдущих главах касался поведения отдельных переменных. Теперь перейдем к анализу поведения двух или более переменных и связи между ними.
Например, рассмотрим компанию, которая регулярно помещает рекламу на один из своих товаров в местную газету. Компания ведет записи ежемесячно о суммах денег, затраченных на рекламу и поступивших от продажи этого товара.
Если реклама эффективна, то можно предположить, что вероятно существует какая-то связь между затратами на рекламу и соответствующими ежемесячными объемами продаж. Предположим, что чем больше сумма затрат на рекламу, тем больше объем продаж (по крайней мере, в определенных пределах). Не существует теоретической основы, исходя из которой мы могли бы написать уравнение, которое точно показало бы связь продаж с расходами на рекламу. Имеется ряд факторов, неразрывно связанных между собой, которые точно определяют ежемесячный объем реализаций. Это такие факторы, как цена товара, цена товара-коккурента, период времени, погодные условия. Тем не менее, если расходы на рекламу являлись бы главным фактором, определяющим продажу, то знание связи между этими двумя переменными было бы очень полезным для оценки объема продаж и соответствующего планирования финансовой политики компании.
Обычно для определения связи между переменными используется термин «ассоциация». Термин «регрессия» используется для описания природы связи, термин «корреляция» — для измерения тесноты связи.
Нам необходимо знать, например, сильная ли связь между ежемесячными расходами на рекламу и ежемесячным объемом продаж. Знание этого фактора может обеспечить надежную оценку продаж. Если связь слабая, то ее изучение обеспечивает только описание продаж при весьма низкой надежности этого описания.
Процедура анализа связи между переменными необходима для установления природы любой связи. Теперь мы может разработать математическое уравнение или модель для описания этой связи с математической точки зрения. Линейные уравнения — простейшие для анализа, поэтому мы постараемся описать связь между переменными посредством линейной модели. Этот процесс носит название построения линейной регрессии. Степень пригодности линейной модели к исходным данным является индикатором силы линейной связи между переменными, а следовательно, и надежности любых оценок, производимых при помощи этой модели. На этой стадии полезно графическое представление данных.
Рис. 8.1 показывает, что линейная модель может быть применена при описании связи между продажей и расходами на рекламу.
Рис. 8.1. Пример линейной связи
Если бы мы получили другой график (см. рис. 8.2), то можно было бы сделать вывод, что линейная модель не применима при описании связи между объемом продаж и расходами на рекламу.
Рис. 8.2. Пример нелинейной сажан
Линейная регрессия — первый пример использования математических моделей. Цель любой модели — помочь понять конкретную ситуацию, а, возможно, и объяснить ее путем последующего анализа. Мы можем использовать модель для того, чтобы делать какие-либо прогнозы или предсказания. Модель обычно является упрощением реальной ситуации. Мы должны сделать простейшие предположения, чтобы суметь сконструировать модель, которая давала бы возможность управления, но сама по себе модель должна быть все-таки достаточно реалистичной, чтобы заслуживать внимания. Модели линейной регрессии используются наиболее часто.
Они включают в себя как простые модели для двух переменных, с которыми мы главным образом столкнемся, так и более совершенные модели для многих переменных, которых мы лишь коснемся. Эти модели широко используются потому, что существуют пакеты прикладных программ (ППП), которые осуществляют требуемые расчеты. Нужно быть предельно внимательным при использовании ППП для того, чтобы окончательно убедиться, что мы досконально понимаем результаты и правильно их оцениваем.
Эта глава охватывает анализ простой модели линейной регрессии, построенной на конкретных данных (парной линейной регрессии). В конце главы рассматриваются множественные регрессионные модели, несколько моделей нелинейной связи и, наконец, измерение корреляции с использованием коэффициента ранговой корреляции Спирмена.