Главная > Прикладной регрессионный анализ, книга 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

1.1. ПРЯМОЛИНЕЙНАЯ ЗАВИСИМОСТЬ МЕЖДУ ДВУМЯ ПЕРЕМЕННЫМИ

Во многих экспериментальных работах мы хотим исследовать, как изменения одной переменной влияют на другую. Иногда две переменные связаны точным уравнением прямой линии. Например, если сопротивление простой цепи поддерживается постоянным, то протекающий ток I меняется линейно при линейном изменении напряжения V в соответствии с законом Ома Если бы мы не знали закона Ома, то могли бы найти зависимость эмпирически, изменяя V и измеряя поддерживая тем временем фиксированным. Тогда мы бы увидели, что график зависимости I от V дает более или менее прямую линию, проходящую через начало координат. Мы сказали «более или менее», так как, хотя зависимость фактически точная, наши измерения могут содержать малые ошибки, и поэтому точки на графике, возможно, не попадут строго на линию, а будут разбросаны вокруг нее случайным образом. Однако для предсказания по частным значениям V (при фиксированном мы будем использовать прямую, проходящую через начало координат. Иногда линейная зависимость не точна (даже без учета ошибки). Но тем не менее она может иметь смысл. Пусть, например, рассматриваются рост и вес взрослых мужчин из некоторой данной популяции. Если мы нанесем на график пары чисел (рост, вес), то результат будет примерно соответствовать рис. 1.1. (Такое изображение обычно называют диаграммой рассеяния, или точечной диаграммой.)

Заметим, что для любого заданного роста встречаются различные веса и наоборот. Такая вариация может, в частности, получиться из-за ошибки измерений, но прежде всего это, конечно, следствие разброса между индивидами. Поэтому не приходится ожидать никакого единственного однозначного уравнения связи между ростом и весом. Однако мы можем обнаружить, что средний наблюденный вес при заданном росте растет с увеличением роста. Геометрическое место точек средних наблюденных весов при данных ростах (при изменении роста) назовем регрессионной кривой веса от роста.

Рис. 1.1. Рост и вес 30 мужчин-америкаицев

Обозначим это следующим образом: Существует также и регрессионная кривая роста от веса, подобная рассмотренной, которую мы можем записать так: Предположим, что обе эти «кривые» есть прямые (какими они могут и не быть). Вообще эти две кривые не есть одно и то же, что хорошо видно на рисунке.

Пусть мы теперь располагаем надежными данными по индивидуальным ростам, но не знаем соответствующих весов, которые хотим оценить. Что мы должны сделать? Мы должны найти из регрессионной линии веса от роста средние наблюденные веса индивидов данных ростов и использовать эти средние как оценки весов, которыми мы не располагали.

Пары случайных переменных, таких, как пара (рост—вес), имеют двумерное распределение вероятностей некоторого типа. Если мы установим связь между зависимой случайной величиной У и величиной X, которая является переменной, но не является случайной переменной, то уравнение У относительно X будет называться уравнением регрессии. Хотя это название, строго говоря, некорректно, оно, как мы уже говорили, укоренилось и широко распространено.

Почти всюду в этой книге мы будем предполагать, что переменные-предикторы не подвержены случайной вариации, тогда как отклики, напротив, подвержены. С практической точки зрения весьма редко такое предположение оказывается безупречным, но если это не так, то требуются гораздо более сложные методы построения зависимостей. Чтобы обойти возникшую трудность, мы используем метод наименьших квадратов только в таких ситуациях, где можно предположить, что вся возможная случайная вариация в любом предикторе столь мала по сравнению с наблюдаемым диапазоном его изменения, что ею вполне можно пренебречь.

Рис. 1.2. Зависимость отклика от фактора

И это предположение выполняется не часто, но оно подразумевается в каждой работе, посвященной методу наименьших квадратов, где предикторы считаются «фиксированными». (В таком контексте слово «фиксированный» означает «неслучайный», а вовсе не то, что предикторы вообще не могут иметь различных значений или уровней.) За дальнейшими подробностями обратитесь к параграфу 2.14.

Можно убедиться, что знать вид зависимости весьма полезно и когда зависимость строго линейная, и когда она линейна лишь для средних значений. (Зависимость может быть, конечно, более сложной, чем линейная, но мы будем пока рассматривать именно этот простой случай.)

Прямолинейная зависимость может быть полезна, даже если известно, что такое соотношение вообще не может быть верным. Рассмотрим зависимость отклика от фактора, показанную на рис. 1.2. Она, очевидно, нелинейна в диапазоне Однако если бы мы заинтересовались главным образом интервалом то линейное уравнение для наблюдений в этих пределах могло бы обеспечить вполне адекватное представление. Конечно, построенное уравнение неприменимо для значений X, выходящих за эти границы, так как оно не может обеспечить разумного предсказания.

(Подобные замечания можно сделать и в тех случаях, когда рассматривается более чем одна независимая переменная (предиктор). Пусть мы хотим исследовать, каким образом отклик зависит от факторов Мы получаем уравнение регрессии для

данных, которые «покрывают» некоторую область в «пространстве X». Пусть точка лежит вне области, покрываемой исходными данными. Хотя математически можно получить предсказанное значение для отклика в точке мы должны ясно понимать, что доверять такому предсказанию крайне опасно и опасность возрастает при удалении от исходной области, если, конечно, не привлекается некоторая имеющаяся дополнительная информация, делающая уравнение регрессии пригодным в широкой области пространства Заметим, что иногда трудно понять сразу, что интересующая нас точка лежит за пределами данной области многомерного пространства. Возьмем в качестве простого примера область, ограниченную эллипсом на рис. 1.3, внутри которой лежат все точки а соответствующие им значения лежащие на перпендикуляре к странице, здесь не показаны. Мы видим, что в область попадают точки, для которых Тем не менее, хотя обе координаты точки Р лежат в этих пределах, сама точка находится вне области. Если рассматривается больше переменных, то легко могут возникнуть недоразумения такого типа.)

Рис. 1.3, Точка вне области, покрываемой данными

1
Оглавление
email@scask.ru