Главная > Методы корреляционного и регрессионного анализа
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

2.9. ИСХОДНЫЕ ПРЕДПОСЫЛКИ РЕГРЕССИОННОГО АНАЛИЗА И СВОЙСТВА ОЦЕНОК

При применении метода наименьших квадратов в разделах 2.4 и 2.7 для нахождения оценок параметров простой и множественной регрессии было ясно, что должны выполняться некоторые предпосылки. Они касаются прежде всего случайной переменной и, которая по формуле (2.60) является аддитивной составляющей, учитывающей ошибки измерения и ошибки спецификации. Эти предпосылки имеют общий характер, т. е. они не определяются объемом выборки и числом включенных в анализ переменных. Отметим наиболее существенные из них.

Предпосылка 1. Интерпретация значений регрессии показала, что мы с помощью метода наименьших квадратов должны найти такие значения переменной у, которые можно было бы ожидать в среднем для заданных значений переменных Из этого следует, что при нахождении оценок переменной у (значений регрессии) предполагается существование зависимости переменной у только от тех объясняющих переменных которые включены в регрессию. Таким образом предполагается, что при заданных значениях переменных на переменную у не оказывают влияния никакие другие систематически действующие факторы и случайности. Влияние этих прочих факторов и случайностей учитывается случайной возмущающей переменной и. При этом полагаем, что для фиксированных значений переменных среднее значение возмущающей переменной и равно нулю:

или

Следствием этого предположения является такая интерпретация: средний уровень значений переменной у определяется только функцией (2.59) и возмущающая переменная и не коррелирует со значениями регрессии или

Из этой предпосылки вытекает, что среднее значение переменной у при фиксированных значениях переменных (условное математическое ожидание) равно значению регрессии

или

Далее, согласно этой предпосылке имеем

Как мы уже убедились при применении Метода наименьших квадратов, требование (2.76) удовлетворяется.

Предпосылка 2. Дисперсия случайной переменной а должна быть для всех одинакова и постоянна:

Это свойство возмущающей переменной и называется гомоскедастичностью. Оно связано с интерпретацией и как переменной, отражающей чистый суммарный эффект от воздействия на зависимую переменную неучтенных факторов-причин и имеющей вероятностный характер. При этом при переходе от одного объекта наблюдения к другому (в примере из раздела 2.4 - от одного промышленного предприятия к другому), а при рассмотрении временных рядов в различные периоды времени эти неучтенные факторы оказывают одинаковое влияние.

Предпосылка 3. Значения случайной переменной и попарно некоррелированы или, что является еще более сильной предпосылкой, они попарно независимы в вероятностном смысле:

Эта предпосылка приобретает большое значение прежде всего в том случае, когда исходные данные представляют собой временные ряды. Тогда говорят об отсутствии автокорреляции возмущающей переменной u. К этому вопросу мы вернемся в разделе 11.3.

Предпосылки 2 и 3 можно обобщить, применяя матричную форму записи:

где I — единичная матрица порядка Произведение есть симметрическая матрица порядка Поскольку операция нахождения математического ожидания должна быть отнесена к каждому элементу матрицы, имеем

Элементы, стоящие на главной диагонали матрицы (2.80), являются дисперсиями, а элементы вне главной диагонали — ковариациями. Учитывая предпосылки 2 и 3, получим

Предпосылка 4. Применяя метод наименьших квадратов, мы уже отмечали, что система нормальных уравнений имеет решение только

тогда, когда существует обратная матрица Поэтому мы Должны предположить, что невырожденная матрица или, что то же самое,

Последнее означает, что число наблюдений должно превышать число параметров, иначе невозможна оценка этих параметров Таким образом,

что является необходимым и достаточным условием существования обратной матрицы

Обсуждаемая предпосылка касается соотношений между объясняющими переменными, в том числе фиктивной переменной, значение которой всегда равно единице. Согласно этой предпосылке между объясняющими переменными не должно существовать строгой линейной зависимости. Наличие линейной связи между объясняющими переменными называется мультиколлинеарностью, этот вопрос мы обсудим в главе 9.

В случае простой линейной регрессии в силу того, что объясняющая переменная х при принимает различные значения, предпосылка сводится к условию

Это совпадает с достаточным условием (2.19), которое рассматривалось в разделе 2.4 при обосновании метода наименьших квадратов.

Предпосылка 5. Объясняющие переменные не должны коррелировать с возмущающей переменной и, т. е.

или

Эта предпосылка находит свое выражение в том, что переменные объясняют переменную у, но мы не можем утверждать обратное, т. е. переменная у не объясняет переменные Итак, предполагается односторонняя зависимость переменной у от переменных и отсутствие взаимосвязи. Этой проблемой, которую мы уже обсуждали в связи с сопряженными прямыми регрессии (см. раздел 2.5), мы займемся в главе 12.

Нередко еще исходят из предпосылки о законе распределения возмущающей переменной.

Предпосылка 6. Возмущающая переменная распределена нормально. Предполагается, что она не оказывает существенного влияния на переменную у и представляет собой суммарный эффект от большого числа незначительных некоррелированных влияющих факторов. Эта предпосылка одновременно означает, что зависимая переменная у или переменные у и распределены нормально.

Как мы видели, переменная у формируется частично за счет объясняющих переменных а частично за счет возмущения

и. Обычно исходя из соображений профессионально-теоретического характера устанавливают общий вид искомой функциональной зависимости. Затем с помощью определенного метода (например, метода наименьших квадратов) оцениваются неизвестные параметры регрессии

Оценки параметров регрессии зависят от наблюдаемых значений переменных. Большей частью регрессионный анализ производится по результатам выборочных обследований, т. е. по данным, представляющим собой случайную выборку из совокупности всех мыслимых наблюдений над переменными (понятие генеральной совокупности см. в разделе 1.5). Для примера из раздела 2.7 14 предприятий, по которым приведены значения переменных — производительность труда, уровень механизации работ, средний возраст работников и средний процент выполнения нормы, можно рассматривать как элементы выборки из совокупности всех возможных предприятий какой-либо одной отрасли народного хозяйства ГДР. Если бы мы в выборку включили другие предприятия этой отрасли и рассматривали значения указанных экономических показателей за тот же период времени на этих предприятиях, то получили бы другие ряды наблюдений над переменными. Таким образом, значения переменных изменяются от выборки к выборке. Кроме того, мы можем изменять объем выборки (например, отобрать 20 предприятий). При тех же предположениях о виде функции регрессии и том же способе оценивания (метод наименьших квадратов) по результатам новой выборки могут получиться другие численные значения параметров регрессии. Оценки параметров регрессии являются функциями от наблюдаемых значений.

Оценки параметров регрессии зависят также от применяемых способов оценивания. Метод наименьших квадратов — один из наиболее распространенных способов оценивания неизвестных параметров регрессии по эмпирическим данным. Наряду с методом наименьших квадратов для этой цели существуют и другие способы. На них мы остановимся более подробно в главе 12. Здесь же только отметим, что по одним и тем же статистическим данным и при одних и тех же предположениях о виде функции регрессии различные способы оценивания приведут к различным оценкам параметров регрессии. Отсюда следует, что оценки параметров регрессии могут принимать множество различных значений. Исходя из того, что любая статистика, а следовательно, и статистическая оценка в отличие от оцениваемых теоретических (истинных) значений параметров является случайной величиной, мы можем оценку параметров регрессии рассматривать как случайную переменную с определенным распределением вероятностей. Распределение этой случайной величины в большой степени зависит от закона распределения возмущающей переменной и.

В распределении выборочной характеристики величина является параметром регрессии генеральной совокупности, который указывает действительно существующую зависимость переменной у от переменной х в генеральной совокупности. Параметры регрессии неизвестны. Если бы они были известны, регрессионный анализ был бы не нужен.

Задача регрессионного анализа состоит в нахождении истинных значений параметров, т. е. в определении соотношения между генеральной совокупности

или

С помощью регрессионного анализа при указанных выше предпосылках находят оценки параметров регрессии, наиболее хорошо согласующиеся с опытными данными. Используя определенный способ оценивания, получают возможные реализации случайных величин-оценок параметров регрессии, которые обозначают через Эти реализации более или менее удалены от значения параметра (рис. 17). Разность между возникающая за счет оценивания на основе имеющихся в распоряжении данных, называется ошибкой оценки. При выборе процедуры оценивания регрессии стараются сделать эту ошибку как шжно меньше, т. е. пытаются найти такие оценки параметров регрессии относительно которых с достаточно большой вероятностью можно утверждать, что они незначительно отличаются от истинного значения параметра В. В этом смысле оценки параметров регрессии, удовлетворяющие упомянутому требованию, называются хорошими. Методы оценивания называются также хорошими, если их результатами являются оценки с желательными свойствами. Некоторые из этих свойств (без доказательств) мы сейчас рассмотрим (см. также раздел 1.5).

Рис. 17. Распределение вероятностей двух несмещенных оценок параметра регрессии при данном объеме выборки

Несмещенность оценок параметров регрессии. Решение нормальных уравнений может быть записано в виде

Вектор есть оценка вектора параметров регрессии . Соотношение, существующее в генеральной совокупности, между переменной у и объясняющими переменными записывается в виде матричного уравнения

Подставляем теперь (2.85) в (2.64):

Находим математическое ожидание выражения (2.86), полагая, что значения объясняющих переменных фиксированы:

Оценки параметров регрессии называют несмещенными, если их математические ожидания равны значениям параметров регрессии :

или для одного параметра регрессии:

Средняя ошибок оценок, вычисленная по всем возможным оценкам равна нулю. Как следует из (2.87), оценки параметров регрессии являются несмещенными, если выполняется предпосылка . В противном случае оценки имеют систематическое смещение. Величина смещения определяется вторым слагаемым в правой части матричного уравнения (2.87). Так как в приведенных преобразованиях мы существенно опирались на предположение о постоянстве значений х, величина смещения обусловлена возмущающей переменной и. Оценки, полученные методом наименьших квадратов, обладают свойством несмещенности.

Состоятельность оценок параметров регрессии. Как мы видели, существует разница между оценкой параметра регрессии и истинным значением параметра , если регрессионный анализ проводится не по всей генеральной совокупности, а по выборке из нее. Другое желательное свойство оценки — ее состоятельность. Оно состоит в том, что с ростом объема выборки оценка параметра регрессии сходится по вероятности к теоретическому значению параметра , т. е. ошибка оценки стремится к нулю:

Условие означает, что выборка так велика, что она идентична бесконечной генеральной совокупности. Итак, с увеличением числа наблюдений вероятность появления большой ошибки оценки становится меньше.

Состоятельность — важнейшее и минимально необходимое требование, которое должно предъявляться к качеству оценок с тем, чтобы эти оценки были в определенном смысле «хорошими» и «надежными».

Эффективность оценок параметров регрессии. В силу того что оценка параметров регрессии, как всякая статистическая оценка, представляет собой случайную величину, ее можно охарактеризовать дисперсией и математическим ожиданием Обозначим выборочную дисперсию оценки параметра регрессии через а стандартное отклонение — через (способ вычисления см. в разделе 3.6). Величина дисперсии может быть различна. На рис. 17 изображено распределение вероятностей двух несмещенных оценок параметра регрессии. Математическое ожидание распределений обеих оценок совпадает с параметром

генеральной совокупности р. Различные распределения могут возникнуть, например, из-за применения двух различных способов оценивания. При этом оценка обладает меньшей дисперсией, чем оценка В таких случаях говорят, что оценка эффективнее оценки Эффективные оценки параметров регрессии являются несмещенными и обладают наименьшей дисперсией по сравнению со всеми остальными несмещенными оценками:

В этом смысле эффективные несмещенные оценки наилучшие.

Нормальное распределение оценок параметров регрессии. Оценки параметров регрессии при фиксированных значениях объясняющих переменных в силу постулирования нормального закона распределения возмущения и (предпосылка 6) также распределены нормально. Если же возмущающие переменные не следуют нормальному распределению, то при соблюдении других довольно общих предпосылок относительно объясняющих переменных оценки параметров регрессии распределены асимптотически нормально, т. е. с ростом объема выборки их распределение стремится к нормальному. Асимптотически нормально распределенные оценки состоятельны.

Асимптотически несмещенные оценки параметров регрессии. Оценки параметров регрессии являются асимптотически несмещенными, если их математическое ожидание с увеличением объема выборки сходится по вероятности к теоретическому значению оцениваемого параметра:

Это одновременно означает, что ошибка оценки с ростом объема выборки становится меньше. Состоятельные оценки — такжеасимптотически несмещенные.

Асимптотические эффективные оценки параметров регрессии. Оценки параметров регрессии называются асимптотически эффективными, если они распределены асимптотически нормально, являются асимптотически несмещенными и обладают асимптотически минимальной дисперсией по сравнению со всеми другими состоятельными оценками.

Асимптотические свойства оценок параметров регрессии имеют большое значение, так как они не относятся к точно фиксированному объему выборки. Какими же свойствами обладают оценки параметров линейной функции регрессии, полученные методом наименьших квадратов (МНК-оценки)?

Если выполняются шесть перечисленных в этом разделе предпосылок, особенно предпосылки 1, 5 и 6, то МНК-оценки параметров регрессии — состоятельные, несмещенные и эффективные. В классе всех линейных несмещенных процедур оценивания МНК-оценки обладают наименьшей дисперсией. В этом смысле они представляют собой наилучшие линейные несмещенные оценки параметров р.

Те случаи, когда не выполняется одна или несколько предпосылок, не будут здесь обсуждаться. Ответы на эти вопросы можно найти в специальной литературе.

Categories

1
Оглавление
email@scask.ru