1.2. Линейные модели регрессии

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

1.2. Линейные модели регрессии

Одна из наиболее общих задач Статистики состоит в -вании степени связи между двумя случайными величинами (если такая связь существует). Такими парами случайных величин Могут быть, например, рост и вес, зарплата и уровень интеллекта, возраст мужа и жены в момент вступления в брак, длина и ширина листьев, температура и давление некоторого объема газа, длина металлического стержня и его температура. Если имеется пар наблюдений над такими

случайными величинами, то наблюдения можно представить точками на плоскости, получая так называемую диаграмму рассеяния. Затем можно попытаться подобрать по этим точкам некоторую гладкую кривую таким образом, чтобы они располагались как можно "ближе" к этой кривой. Ясно, что нам не следует ожидать того, что все точки диаграммы лягут на соответствующую кривую, поскольку каждая из случайных величин в рассмотренных выше примерах подвержена случайным флуктуациям в результате воздействия факторов, которыми мы не в состоянии управлять. Даже если между какими-то двумя величинами, как, например, между температурой и давлением, существует совершенно определенная связь, то на диаграмме рассеяния все же будут наблюдаться флуктуации, вызванные ошибками измерений.

Весьма часто тип эмпирической кривой определяется экспериментальными или теоретическими соображениями, как в приводимых ниже примерах.

Пример 1.1. Закон Ома утверждает, что если -ток (в амперах), протекающий через сопротивление (в омах), напряжение (в вольтах) на этом сопротивлении, то три эти величины связаны соотношением . В прямоугольных координатах закон Ома выражается прямой линией, проходящей через начало координат, так что подтверждением закона будет линейный характер диаграммы рассеяния. Величину можно оценить по наклону эмпирической прямой.

Пример 1-2. Согласно законам механики, для удержания от соскальзывания по наклонной плоскости с углом наклона 0 тела, имеющего вес необходимо приложить силу Полагая мы опять получаем прямую линию, проходящую через начало координат. В этом случае наблюдаемые значения будут несколько отклоняться от прямой линии из-за ошибок в измерении и из-за наличия трения между рассматриваемым телом и плоскостью.

Пример 1.3. Теоретическая химия предсказывает, что при сохранении постоянной температуры данного количества газа его объем V и давление приблизительно удовлетворяют соотношению Обозначая получаем

Пример 1-4. При более тщательном проведении экспериментов оказывается, что уравнение, связывающее давление и объем, имеет вид где Однако и здесь можно добиться

линейности уравнения связи, переходя к логарифмам в обеих частях указанного равенства:

или в соответствующих обозначениях

Поэтому значения можно оценить по положению эмпирической прямой, выравнивающей экспериментальные данные.

Пример 1.5. Закон обратного квадрата утверждает, что сила, с которой притягиваются друг к другу два тела, расстояние между которыми равно задается формулой

где Переходя к логарифмам, получаем соотношение

По экспериментальным данным можно оценить значение и проверить гипотезу о том, что

Пример 1.6. Эксперименты показывают, что металлический стержень при нагревании удлиняется и это удлинение пропорционально повышению температуры. Если взять пару идентичных стержней и приложить их концами друг к другу, то приращение их суммарной длины ровно в два раза превысит приращение длины одного стержня, так что удлинение стержня пропорционально его исходной длине: Мы приходим к рассмотрению модели прямой линии где -длина стержня при температуре (измеренной от соответствующего начала координат), а -так называемый коэффициент линейного температурного расширения. Для более точных расчетов предлагается квадратичная модель

Если в нашем распоряжении нет никаких теоретических или экспериментальных соображений, которые могли бы помочь в выборе типа эмпирической кривой, то такой выбор иногда бывает осуществить довольно трудно, как это показывает рис. 1.1. Здесь прямая линия представляется не, менее удобной для использования, чем любая другая, поскольку она описывается малым числом параметров, хотя очевидна необходимость иметь какую-то. меру, характеризующую качество подбора кривой, чтобы можно было сравнивать различные эмпирические кривые. Иногда точки на диаграмме рассеяния располагаются таким образом, что не наблюдается никакого их группирования, и соответственно нет никаких

оснований предполагать наличие в наблюдениях какого бы то ни было тренда. Например, на основании диаграммы рассеяния, представленной на рис. 1.2, можно говорить либо о полном отсутствии связи между величинами либо о весьма незначительной связи между ними.

Рис. 1.1. Аппроксимация одних и тех же данных двумя различными кривыми.

Рис. 1.2. Диаграмма рассеяния: отсутствие связи между переменными X и у.

Во многих случаях одна из переменных, скажем X, не случайна, а фиксирована или управляема. Например, X может обозначать год выпуска, - количество товаров, выпущенных некоторой фирмой в том же году. Примером, в котором X является управляемой величиной, служит эксперимент, в котором производится измерение урожая получаемого с единицы площади при использовании фиксированных количеств X некоторого удобрения. В том и другом случае для каждого значения мы имеем случайную величину со средним значением т.е. где Функция называется при этом функцией регрессии случайной величины на X, а график этой функции — кривой регрессии на

Для описания того, каким образом функцию можно оценить по имеющимся парам наблюдений рассмотрим простой случай, когда прямая Наша модель имеет в этом случае вид

Весьма элегантным методом оценивания параметров и является так называемый метод наименьших квадратов. Этот метод

оценивания, приводящий к оценкам, обладающим определенными оптимальными свойствами, основывается на привлекательной идее выбора таких значений и которые минимизируют сумму квадратов вертикальных уклонений точек от аппроксимирующей (эмпирической) кривой Иначе говоря, мы минимизируем при этом сумму по отношению к параметрам

Рис. 1.3. Метод наименьших квадратов заключается в минимизации

Ясно, что указанный принцип наименьших квадратов может быть применен к любой кривой регрессии Однако выполнение минимизации может оказаться довольно затруднительным, если только функция не является линейной относительно неизвестных параметров. Например, функция нелинейна, а функция линейна по параметрам

Из предыдущих примеров мы видели, что обе переменные могут быть случайными. При этом пара случайных величин имеет некоторое совместное распределение, и мы можем определить две функции регрессии: Например, предполагая линейный характер связи, получаем соотношение

и далее можем эффективно действовать таким образом, как если бы величина X вовсе не была случайной. Конечно, любые получаемые при этом выводы являются условными по отношению к наблюдаемым значениям

Пример 1.7. Предположим, что имеется популяция, состоящая из животных, и что последовательно производится отловов животных из этой популяции. Будем считать, что вероятность отлова каждого животного в каждом случае постоянна и равна Пусть обозначает количество животных, пойманных при

отлове, количество животных, пойманных перед отловом. Используя биномиальную модель, получаем соотношение

опять выражающее линейную зависимость.

Важным применением моделей регрессии является употребление их в прогнозировании. В этом случае подбирается модель, позволяющая предсказывать значения для будущих значений х. Ясно, что мы должны быть весьма уверенными в модели, если хотим чтобы наши прогнозы были достаточно надежными. Предположим, например, что истинной является модель, приведенная на рис. 1.4.

Рис. 1.4. Истинная модель, состоящая из двух прямых линий.

Хотя мы в состоянии хорошо аппроксимировать по имеющимся данным левую часть графика, тем не менее было бы опрометчиво делать прогнозы о значениях для имея в распоряжении только значения для Мы меньше рискуем ошибиться, если станем предсказывать значения У лишь для значений лежащих в пределах интервала наблюдений.

Часто случайная величина зависит не от одной, а от нескольких переменных, скажем так что здесь можно говорить уже о поверхности регрессии

В этой книге мы концентрируем внимание на важном классе линейных моделей, в которых функция регрессии имеет вид

т. е. линейна по параметрам Выбор для рассмотрения только линейных моделей вовсе не столь ограничителен, как это может показаться. Например, многие функции нескольких переменных являются приблизительно линейными в достаточно малых областях или могут быть приведены к линейным с помощью надлежащего преобразования, как мы уже видели выше. Кроме того, сами могут быть функциями от каких-то других переменных например или соотношение приводит к полиномиальной регрессии). Можно включить в наше рассмотрение также и "категоризованные" модели, используя фиктивные переменные . Предположим, например, что мы хотим сравнить средние двух популяций, скажем Можно объединить при этом данные в одну модель

где если является наблюдением переменной в противном случае Приблизительно описав природу линейных моделей, приведем теперь краткую сводку вопросов, рассмотренных в этой книге.

После того как произведен выбор модели, ее неизвестные параметры можно оценить, используя метод наименьших квадратов. Этот метод лучше всего описывается геометрически, с использованием теории матриц. Теоретические аспекты метода приведены в гл. 3, а вычислительные алгоритмы описаны в гл. И. Имея совместное распределение величин можно исследовать статистические свойства соответствующих оценок наименьших квадратов.

Следующей задачей, рассмотренной в книге, является задача проверки гипотез. Например, нас могли бы заинтересовать задачи проверки гипотез в примере в примере 1.6 или в (1.1). Все эти задачи являются частными случаями задачи проверки гипотезы где некоторая линейная комбинация параметров . В общем случае нас интересует проверка значений целой совокупности линейнцх комбинаций, а именно проверка гипотезы Эта задача обсуждается в гл. 4, а приложения ее к моделям типа (1.1) описаны в гл. 9 и 10.

Помимо проверки гипотез, мы можем пожелать построить доверительные интервалы для тех или иных параметров или для линейных комбинаций параметров либо получить доверительные интервалы для значений будущих наблюдений. Такие построения проводятся в гл. 5. В весьма важной гл. 6 рассматриваются предположения о характере распределений случайных составляющих лежащие в основе развитой к этому моменту теории. Описаны критерии и графики, позволяющие проверять выполнение соответствующих предположений.

В связи с важностью одномерной линейной регрессии, она подробно обсуждается в гл. 7. В гл. 8 рассмотрена полиномиальная регрессия, в которой возникают свои собственные проблемы.

До сих пор мы обычно предполагали, что подлежащая изучению модель уже выбрана. Однако во многих практических ситуациях возникает необходимость решить, какие из возможных переменных следует включать в модель.. Этому важному вопросу посвящена гл. 12.

Остаток настоящей главы и гл. 2, в которой рассматривается многомерное нормальное распределение, призваны снабдить читателя некоторыми теоретическими сведениями, необходимыми для чтения остального материала.

<< Предыдущий параграф

Следующий параграф >>

Оглавление