Главная > Методы принятия решений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

8.2. ПРОСТАЯ МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ

Простая линейная регрессия связана с тем, что мы называем двумерным распределением, т.е. распределением двух переменных. Существует ли линейная связь между двумя переменными или нет? Всегда лучше использовать две переменные, нежели одну. Например, нас интересует соотношение между ростом и весом у определенной группы людей; между ценой и количеством проданного товара; возрастом служащих и их заработной платой; возрастом и весом кур; еженедельными издержками и отработанным временем в отделах; пройденной дистанцией и затраченным временем.

Первым шагом в анализе является изучение переменных: какие из них относятся к факторам, каково их влияние друг на друга. Предположим, что фермер хочет предсказать вес кур, которых он выращивает. Вес — это переменная, которую он желает предсказать, поэтому это будет зависимая переменная. Отмечать значения зависимой переменной будем на оси OY. Пусть вес курицы зависит от ее возраста. Тогда возраст — это независимая переменная, значение которой нам известно по предположению и которое мы можем использовать при оценке ее веса. Независимая переменная будет отмечаться нами на оси ОХ. Если мы установим природу связи, между возрастом и весом курицы, то сможем предсказать вес курицы в данном возрасте. Любая курица, для которой реальный вес значительно отличается от прогнозируемого, может быть подвергнута обследованию.

Теперь мы должны ответить на вопрос: как изменяется вес в зависимости от изменения возраста. Во-первых, можно предположить, что вес увеличивается с возрастом. Когда курица совсем взрослая, мы можем предположить, что ее вес с небольшими отклонениями зависит от пищи и погодных условий. Прибавка в весе и ее вес в зрелом возрасте также будет зависеть от породы и способа ее выращивания и кормления. Существует также множество других факторов, помимо возраста, влияющих на вес. Процесс исследования возможной связи переменных — зависит ли зависимая переменная у от независимой переменной х и от других факторов, которые также могут повлиять на связь, — очень важная часть статистического моделирования. Наша цель — не просто построить какую-то любую линейную регрессию, а постараться выяснить, чем объясняется вариация веса

курицы с помощью моделирования, и решить, можно ли определить вес курицы, зная только ее возраст.

Вероятно, выводом из вышеприведенной задачи будет то, что существуют несколько взаимосвязанных между собой факторов для определения точного веса конкретно взятой курицы. Общая картина связи представлена на рис. 8.3.

Рис. 8.3. Возможная связь между весом и возрастом курицы определенной породы

Теперь мы должны собрать данные для того, чтобы проверить правильность наших предположений о наличии и характере связи между переменными.

О Пример 8.1. Пример касается времени, которое занимают поставки. Мы займемся специальными услугами — поставками на короткие расстояния внутри города. Оценим стоимость услуги, определив время поставки при любом расстоянии.

Факторы, помимо пройденного расстояния, которые повлияют на затраченное время: пробки на дорогах, время суток, дорожные работы, погода, дорожная система, водитель, вид транспорта. Однако первоначальное исследование будет предельно простым, насколько это возможно: будем рассматривать связь только между расстоянием, измеряемым кратчайшим маршрутом на линиях, и затраченным временем в минутах. Рассмотрим всевозможные поездки за определенный период, которые могут быть совершены в городе. Измерим время и расстояние каждой десятой поездки, начиная с произвольно выбранного часа и дня недели. Фирма работает шесть дней в неделю, кроме воскресенья. Случайное число, выброшенное игральной костью — 2, таким образом, следующий вторник — выбранный нами день. Услуги оказываются с 8 ч утра до 6 ч вечера. Случайное число от 0 до 9, полученное из таблицы случайных чисел для выбора бремени, оказалось числом 6. Таким образом, первая поездка после часа дня (т. е. шестой час, начиная с восьми утра). Затем мы отберем каждую десятую поставку. Выборочные данные первых десяти поставок будут использованы для анализа.

Таблица 8.1. Исходные данные о расстоянии и времени поставок

Нам нужно объяснить изменения времени (переменная принимая расстояние в качестве независимой переменной х. Предположим, что затраченное время растет по мере увеличения расстояния. Представим данные на графике, чтобы определить связь, которая существует между переменными (рис. 8.4).

Рис. 8.4. Завис ни ость времени поставок от расстояния по совокупности случайных дайны» о поставках

Рис. 8.4 свидетельствует об общем увеличении времени с увеличением расстояния. Точки на графике собраны в пучки вокруг прямой линии. Это означает, что мы можем использовать линейную модель для описания связи между двумя переменными. Точки не находятся точно на линии. Но было бы удивительно, если бы это было так, с точки зрения остальных факторов, которые могут повлиять на время поездки. Линейная модель, описывающая связь между двумя переменными,

будет приближением к действительности — к истинному времени и расстоянию. Рис. 8-6 показывает каилучшкй вариант.

Для совокупности, данные из которой мы используем, существует множество различных расстояний при различном времени. Фактически, для любого расстояния существует распределение возможного времени поставок. Наш пример включает десять поездок. Их можно сгруппировать по дальности поставки. Например, поставки на расстояние 1,0 мили 1,3, 1,5, 2,4, 3,0 миль и т.д.

Рис. 8.5. Распределение времени поставок при определенном расстоянии

Эта идея важна для последующего анализа. Вернемся к нашим предположениям: наилучшей моделью для описания связи между временем поездки и расстоянием будет линейная модель. Теперь нам необходимо найти способ для нахождения приемлемой схемы определения точек этой линии по исходным данным. Эта линия называется линией наилучшего подбора.

Рис. 8.6. Зависимость времени поставки от расстояния поставки

Показанная на рис. 8.6 линия — это возможная линейная модель для описания связи между переменными. Уравнение этой линии может быть записано следующим образом:

где а — определяется как пересечение линии регрессии с осью у; b — угол наклона линии регрессии, называется коэффициентом регрессии. Рассмотрим конкретное значение пройденного пути, которое мы обозначим как х. Для х, фактическое время будет тогда как время, прогнозируемое линейной моделью (теоретическое) определяется из уравнения:

Разница между этими двумя значениями:

называется ошибкой, или отклонением, или остатком. Мы можем определить величину ошибки для всех отмеченных точек. Линейная модель, которая наилучшим образом аппроксимирует данные — одна из тех, для которой общая ошибка выборки имеет наименьшее значение. Чтобы рассчитать ее, нужно избежать позитивных и негативных значений. Это можно сделать, возведя все ошибки в квадрат и делая их положительными величинами. Линия наилучшего подбора — та, которая минимизирует квадраты разниц между рассматриваемыми значениями у и соответствующими значениями х, рассчитанными с помощью линии наилучшего подбора. Эта линия называется линией регрессии, полученной методом наименьших квадратов. Может быть избран и другой критерий подбора наилучшей линии.

Используя различные расчеты, можно определить наклон и пересечение линии регрессии с осью методом наименьших квадратов.

Формулы для определения угла наклона линии регрессии и ее пересечения с осью следующие:

где а — размер выборки;

Соответствующие расчеты для выборки даны ниже. Линейная модель:

Таблица 8.2. Расчет линии регрессии

Последние три графы используются в последующих расчетах.

Подставим эти значения в линейную модель:

Время поставки (мин.) = 5,91 + 2,66 расстояние (миль).

Наклон линии регрессии (2,66 минут на милю) — это рассчитанное количество минут, приходящиеся на одну милю расстояния поставки. Пересечение (5,91 минут) — это рассчитанное время для подготовки к поездке и доставки товаров, т.е. необходимое для каждой поездки время в сравнении с реально затраченным временем. Пересечение дает средний эффект всех влияющих факторов за исключением расстояния. Напомним, что в нашем примере эти значения основаны на малом объеме данных. Мы должны оценить реальность полученных оценок, т.е. подсчитать доверительные интервалы для параметров а и

1
Оглавление
email@scask.ru