2.4. ПОСТРОЕНИЕ РЕГРЕССИОННОЙ ПРЯМОЙ С ПОМОЩЬЮ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ (по несгруппированным данным)

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

2.4. ПОСТРОЕНИЕ РЕГРЕССИОННОЙ ПРЯМОЙ С ПОМОЩЬЮ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ (по несгруппированным данным)

Исходя из соображений профессионально-теоретического характера, исследователь рассматривает возможность описания зависимости изучаемых явлений линейной функцией. При этом следует учитывать характер скопления точек на диаграмме рассеяния. После экономического анализа можно приступать к выравниванию опытных данных, заключающемуся в построении гипотетической линии. Естественным требованием является сведение к минимуму ошибок при спецификации формы связи между переменными. Но эти ошибки обнаруживаются через отклонения эмпирических данных от значений регрессии т. е. они формируют значения возмущающей переменной и:

Из графика на рис. 11 видно, что — отклонение опытной точки от оцениваемой линии, измеренное по вертикали. Это отклонение может быть положительным или отрицательным в зависимости от того, по какую сторону от линии лежит конкретная точка.

При подборе прямой можно было бы выдвинуть требование, чтобы сумма отклонений всех точек от линии регрессии была равна нулю, т. е.

Другими словами, это условие можно было бы сформулировать таким образом: сумма положительных отклонений должна быть равна сумме отрицательных отклонений. Но соблюдение этого условия не дает возможности однозначно определить положение этой прямой на плоскости. Практически бесконечно много прямых будут удовлетворять условию (2.10), а именно: это будут веете прямые, которые проходят через точку с координатами х и у (рис. 12).

Для нахождения однозначного решения используют одну из естественных характеристик точности подбора прямой. Если все отклонения возвести в квадрат и сложить, то результат будет непосредственно зависеть от разброса точек около искомой линии.

Рис. 12. Регрессионные прямые, удовлетворяющие критерию (2.10)

Из всех возможных прямых должна быть выбрана такая, для которой мера рассеяния опытных точек будет минимальна. Соображения, по которым минимизируется сумма квадратов отклонений, а не сумма, например, абсолютных величин отклонений, аналогичны тем, по которым стандартное отклонение предпочитается среднему линейному отклонению (см. раздел 1.5).

В соответствии с приведенными рассуждениями вычисляем выборочную дисперсию, характеризующую меру разброса опытных данных вокруг значений регрессии, т. е. дисперсию остатков

Выражение, стоящее в знаменателе, указывает число степеней свободы. Оно определяется как разность между объемом выборки и числом параметров регрессии, подлежащих оценке. Так как в простой линейной

регрессии одна объясняющая переменная то число степеней свободы равно:

Корень квадратный из выражения (2.11) называется стандартной ошибкой оценки регрессии (см. раздел 3.6).

На основе выдвинутого нами требования стандартная ошибка должна быть минимальна, что может быть записано также в виде

т. е. сумма квадратов отклонений эмпирических значений переменной у от значений, вычисленных по уравнению прямой, должна быть минимальна. При данной постановке задачи речь идет об отклонениях, измеренных по вертикальной оси (рис. 13). Метод, основанный на требовании минимизации суммы квадратов отклонений, называется методом наименьших квадратов. С его помощью отыскиваются такие оценки параметров уравнения регрессии, которые сводят к минимуму выбранную меру разброса При этом происходит выравнивание эмпирических значений в одну линию регрессии. В случае линейной связи между переменными эта линия является прямой, прямой регрессии.

Рис. 13. Иллюстрация метода наименьших квадратов

Заменим в через (правая часть формулы и обозначим все выражение символом

— известные эмпирические значения, а — неизвестные параметры. При данных величина суммы квадратов отклонений в (2.14) обусловлена этими параметрами. В зависимости от выбора значений параметров эта сумма будет увеличиваться или уменьшаться. В соответствии с этим сумма квадратов отклонений

является функцией от искомых параметров т. е. функцией от двух переменных: Таким образом, проблема определения прямой регрессии при сформулированном выше требовании сводится к минимизации функции от двух переменных. Из математического анализа известно, что необходимым условием для этого служит обращение в нуль первых частных производных этой функции по каждому из параметров а вторые частные производные по должны быть положительными.

Приравняем первые частные производные функции (2.14) по к нулю:

Из выражений вторых частных производных по параметрам делаем вывод, что они положительны:

Поскольку речь идет о функции от двух переменных, для существования минимума этой функции требуется также выполнение достаточного условия:

Как видим, это условие также выполняется в силу того, что объясняющая переменная принимает различные значения. Поэтому ее дисперсия положительна, т. е. . В противном случае невозможно было бы однозначно определить параметры

Итак, функция в (2.14) достигает минимума, если определяются из (2.15) и (2.16). Произведя соответствующие выкладки, получаем из (2.15) и (2.16) следующие уравнения:

Мы пришли к системе двух уравнений первой степени относительно неизвестных параметров соотношения (2.20) и (2.21) образуют систему нормальных уравнений, составленных с учетом требования метода наименьших квадратов. На решении этих уравнений базируется

ется определение прямой регрессии, так как параметры минимизируют функцию тогда и только тогда, когда они удовлетворяют нормальным уравнениям.

В нормальных уравнениях (2.20) и (2.21) не известны только параметры Их можно определить с помощью детерминантов (правило Крамера). Введя для простоты обозначение суммы без индексов, получим выражения для

Определив можно по (2.9) вычислить значения регрессии для заданной области значений объясняющей переменной х. Эти значения регрессии представляют собой наилучшее в смысле метода наименьших квадратов линейное приближение (аппроксимацию) к эмпирическим значениям так как выбранная мера разброса сводится при этом к минимуму.

Можно получить значения несколько иным способом. Разделим нормальное уравнение (2.20) на

После подстановки (2.24) в (2.9) и некоторых преобразований будем иметь:

Если найдено, то легко вычислить по (2.24). Формула (2.25) показывает, что искомая линия проходит через точку средних значений — центр тяжести скопления точек на диаграмме рассеяния.

Коэффициент регрессии может быть представлен также следующим образом:

Разделив в формуле (2.26) числитель и знаменатель на получим в числителе ковариацию между переменными х и у, а в знаменате — дисперсию переменной х (см.раздел 1.5). Итак, коэффициент

рессии можно представить в виде отношения ковариации к дисперсии

Как уже упоминалось, — это мера, которая в среднем указывает влияние изменения объясняющей переменной х на зависимую переменную у. Часто при экономических исследованиях интересуются не столько самой прямой регрессии, сколько влиянием, которое оказывает одно экономическое явление на другое. В этом случае речь идет прежде всего об определении коэффициентов регрессии.

Рассмотрим теперь пример простой линейной регрессии. Пусть исследуется зависимость производительности труда от уровня механизации работ по данным 14 промышленных предприятий (см. табл. 3). Исходя из экономических соображений уровень механизации работ выбран в качестве объясняющей переменной.

Таблица 3. Рабочая таблица вычисления оценок параметров уравнения регрессии при изучении зависимости производительности труда от уровня механизации работ (см. скан)

Расположение точек на диаграмме рассеяния (см. рис. 14) позволяет предположить линейную связь между переменными. Поэтому имеет смысл искать зависимость в виде функции (2.9). Для этого по статистическим данным следует найти оценки параметров Вначале составим рабочую таблицу, которая содержит все исходные данные и промежуточные результаты, необходимые для вычисления оценок параметров.

В таблице приведены значения которые не нужны непосредственно для вычисления Но эти значения потребуются нам дальше. По

таблице находим средние значения обеих переменных:

По формулам (2.24) и (2.23) вычисляем

Оцениваемое соотношение можно записать в виде

Подставляя в полученное уравнение значения из табл. 3, вычислим значения регрессии

Совокупность расчетных значений, называемых также предсказанными, образует прямую регрессии (рис. 14), отражающую зависимость производительности труда от уровня механизации работ, при условии, что остальные неучтенные факторы и случайности не оказывают влияния на производительность труда.

Чтобы провести прямую на графике, достаточно определить значения регрессии для двух значений переменной х, удаленных друг от друга на некоторое расстояние. Через две точки, нанесенные на график, проводится прямая регрессии.

Прямая регрессии пересекает ось ординат в точке Тангенс угла наклона прямой к оси абсцисс В данном примере коэффициент регрессии показывает, что производительность труда в

среднем возрастает на если коэффициент механизации работ увеличивается на один процент. Итак, коэффициент регрессии является показателем влияния изменения уровня механизации работ на производительность труда в предположении, что влияние прочих факторов отсутствует.

После определения оценок параметров регрессии а также значений можно по формуле (2.2) вычислить остатки

Остатки используются в качестве характеристики точности оценки регрессии или степени согласованности расчетных значений регрессии и наблюдаемых значений переменной у (см. главу 3).

Рассматривая остатки как отклонения наблюдений от значений, которые следует ожидать в среднем, можно сделать ряд практических выводов. Так, для данного примера можно ответить на вопрос, появятся ли в среднем предприятия с экстремально большими отклонениями в изучаемом показателе.

Проведя анализ хозяйственной деятельности предприятий, на которых

Рис. 14. Диаграмма рассеяния и регрессионная прямая, отражающая зависимость производительности труда от уровня механизации работ

были выявлены как положительные, так и отрицательные отклонения от ожидаемого среднего уровня экономического показателя, можно наметить основные задачи по организации социалистического соревнования. С этой точки зрения мы должны были бы прежде всего проанализировать деятельность предприятий 1, 7 и 10, показатели производительности труда на которых отличаются большими отклонениями от предсказанных значений в ту и другую сторону. По остаткам также замечаем, что большинство предприятий имеют положительные отклонения данного экономического показателя, которые уравновешиваются отрицательными отклонениями аналогичных показателей небольшого числа предприятий. Из этого следует вывод о существенной доли влияния последних на исследуемый признак в общей совокупности 14 предприятий. На предприятиях, обнаруживших отрицательные отклонения фактических значений показателя производительности труда от расчетных, следовало бы уделить особое внимание экономической и идеологической работе.

Применение метода наименьших квадратов для нахождения оценок параметров регрессии требует выполнения ряда предпосылок относительно возмущающей переменной и. Эти предпосылки мы обсудим для общего случая множественной регрессии в разделе 2.9.

<< Предыдущий параграф

Следующий параграф >>

Оглавление