Главная > Прикладной регрессионный анализ, книга 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

1.2. ЛИНЕЙНАЯ РЕГРЕССИЯ: ПОДБОР ПРЯМОЙ

Мы упоминали, что уравнение прямой может быть полезно во многих ситуациях для обобщения наблюдаемой зависимости одной переменной от другой. Теперь покажем, как такое уравнение можно получить методом наименьших квадратов, когда имеются экспериментальные данные. Выделим в машинной распечатке на с. 30 двадцать пять наблюдений переменной 1 (количество пара (в фунтах), израсходованного за месяц) и переменной 8 (средняя температура воздуха в градусах Фаренгейта). Соответствующие пары наблюдений приведены в табл. 1.1 и нанесены на график рис. 1.4.

Предположим, что линия регрессии переменной, которую мы обозначим от переменной (X) имеет вид

Рис. 1.4. Данные и подобранная прямая

Тогда можно записать линейную модель:

так что для данного X соответствующее значение состоит из величины плюс добавка при учете которой любой индивидуальный У получает возможность не попасть на линию регрессии.

Таблица 1.1. Двадцать пять наблюдений переменных 1 и 8

Уравнение - это модель, в которую мы верим. Начнем с предположения, что эта модель установлена, но на последующих стадиях будем проверять, так ли это на самом деле. Предположение о математической модели процесса необходимо с многих статистических точек зрения. Следует подчеркнуть, что то, что мы обычно делаем, есть постулирование модели либо предварительное допущение о ее правильности. Модель надо всесторонне критически исследовать в разных аспектах. Это наше «мнение» о ситуации на первой стадии исследования и это «мнение» может измениться, если мы найдем на более поздней стадии, что факты против него. Величины называют параметрами модели.

(Примечание. Когда мы говорим, что модель линейна или нелинейна, мы имеем в виду линейность или нелинейность по параметрам. Величина наивысшей степени предиктора в модели называется порядком модели. Например,

есть регрессионная модель второго порядка (по X) и линейная (по Если только специально не оговаривается, что модель нелинейна, а это может быть сделано, то имеется в виду линейная по параметрам модель, а слово «линейная» обычно опускается. Порядок модели может быть любым. Обозначение вида часто используется в полиномиальных моделях, где параметр соотносится с X, в то время как соотносится с Естественное обобщение обозначений такого рода встречается, например, в параграфах 5.1 и 7.7.)

Итак, в уравнении (1.2.1) величины неизвестны, причем величину на самом деле будет трудно исследовать, поскольку она меняется от наблюдения к наблюдению. Однако остаются постоянными, и, хотя мы не умеем находить их точно без изучения всех возможных сочетаний , мы можем использовать информацию, содержащуюся в двадцати пяти наблюдениях табл. 1.1, для получения оценок и параметров Запишем это в таком виде:

где (читается «К с крышечкой») обозначает предсказанное значение для данного X, когда определены. Уравнение (1.2.2) можно использовать как предсказывающее уравнение; подстановка в него значения X позволяет предсказать «истинное» среднее значение для этого

Общепринято обозначение оценок параметров маленькими латинскими буквами, а самих параметров — греческими: соответственно. Правда, довольно часто встречаются и такие

обозначения для оценок: Да мы и сами воспользуемся ими в гл. 10.

Нашей процедурой оценивания будет метод наименьших квадратов. Возник спор, насчет того, кто же первый предложил этот метод. По-видимому, он был разработан независимо Карлом Фридрихом Гауссом (1777—1855) и Адриеном Мари Лежандром (1752—1833), ибо Гаусс начал им пользоваться до 1803 г. (он настаивал на дате около 1795 г., но доказательств для этой более ранней даты нет), а Лежандр опубликовал первое сообщение в 1805 г. Когда Гаусс в 1809 г. написал, что он пользовался методом наименьших квадратов раньше, чем были опубликованы результаты Лежандра, началась ссора из-за приоритета. Эти данные тщательно изучены и обсуждены в работе Плэкетта из цикла «Исследования по истории теории вероятностей и статистики» (см.: Plackett R. L. Studies in the history of probability and statistics. XXIX. The discovery of the method of least squares.- Biometrika, 1972, 59, p. 239-251), которую мы настоятельно рекомендуем читателю. Еще рекомендуем публикации: Eisenhart С. The meaning of «least» in least squares.- Journal of the Washington Academy of Sciences. 1964, 54, p. 24-33 (перепечатано в Precision Measurement and Calibration, ed. H. H. Ku. National Bureau of Standards Special Publication 300, 1969, 1) и статью «Карл Фридрих Гаусс» из Международной энциклопедии социальных наук (Gauss, Carl Friedrich. International Encyclopedia of the Social Sciences.- New York: Macmillan Co., Free Press Div., 1968, 6, p. 74-81), а также связанную с этой проблемой работу: Stig1ег S. М. Gergonnes’s 1815 paper on the design and analysis of polynomial regression experiments. Historia Mathematica, 1974, 1, p. 431- 447 (cm. c. 433).

При некоторых предположениях, которые обсуждаются в гл. 2, этот метод обладает определенными свойствами. Пусть мы имеем множество из наблюдений нашем примере Тогда уравнение (1.2.1) можно записать в виде

Рис. 1.5. Вертикальные отклонения, минимизирующие сумму квадратов в методе наименьших квадратов

где Следовательно, сумма квадратов отклонений от «истинной» линии есть

Будем подбирать значения оценок так, чтобы их подстановка вместо в уравнение (1.2.4) давала наименьшее возможное (минимальное) значение см. рис. 1.5. (Заметим, что это фиксированные числа, которые нам известны.) Мы можем определить дифференцируя уравнение (1.2.4) сначала по затем по и приравнивая результаты к нулю. Тогда

так что для оценок имеем

где при приравнивании выражений (1.2.5) к нулю мы подставили вместо Из (1.2.6) имеем:

или

Эти уравнения называют нормальными.

Решение уравнений (1.2.8) относительно угла наклона прямой — дает

где суммирование всегда ведется от до а два выражения для это обе правильные, но несколько различные формы одной и

той же величины. Так как по определению

имеем:

Отсюда следует эквивалентность числителей в (1.2.9), а заодно, при замене на X, эквивалентность знаменателей. Величина называется нескорректированной суммой квадратов коррекцией на среднее значение Разность между ними называется скорректированной суммой квадратов Аналогично называется нескорректированной суммой смешанных (парных) произведений, а коррекцией на среднее. Разность между ними называется скорректированной суммой произведений

Первая форма уравнения (1.2.9) обычно используется для вычисления на микрокалькуляторе, поскольку с ней гораздо легче работать и нет нужды в громоздких подсчетах для каждого выражений и соответственно. Полезно иметь в виду, что для уменьшения ошибок округления лучше всего сохранять в процессе счета столько знаков после запятой, сколько возможно. (Такая стратегия хороша и вообще. Округлять лучше всего на «стадии выдачи результатов», а не на промежуточных этапах.) Многие из цифровых компьютеров дадут более точные ответы, если воспользоваться второй формой уравнения (1.2.9). Это обусловлено машинной системой округления.

Здесь и далее возьмем удобные обозначения и запишем:

Заметим, что все эти выражения эквивалентны. Аналогично можно записать:

Вот легко запоминающаяся формула для

Решение уравнения (1.2.8) относительно свободного члена (отрезка на оси ординат при дает

С помощью подстановки уравнения (1.2.10) в уравнение (1.2.2) можно получить оцениваемое уравнение регрессии:

где определяется уравнением (1.2.9).

Отметим, что если в (1.2.11) положить то окажется, что . А это означает, что точка ( лежит на подобранной прямой. Выполним теперь эти вычисления, пользуясь данными табл. 1.1. Мы найдем, что:

Поэтому подобранное уравнение есть

Построенная линия регрессии нанесена на рис. 1.4. Мы можем составить таблицу предсказанных значений для каждого из 25 значений для которого известно наблюденное значение и найти остатки как это сделано в табл. 1.2. Остатков получается столько же, сколько исходных данных.

Отметим, что так как

то

Значит и сумма остатков будет равна нулю. На практике из-за ошибок округления она может оказаться не точно равной нулю.

Таблица 1.2. Результаты наблюдений, расчетные значения и остатки

В любой регрессионной задаче сумма остатков всегда равна нулю, если член (30 входит в модель. Это следствие первого из нормальных уравнений. Исключение из модели приводит к тому, что отклик обращается в нуль, когда все предикторы равны нулю. Такое предположение слишком сильно и потому обычно не справедливо. В линейной модели в исключение означает, что линия проходит через точку т. е. что она отсекает нулевой отрезок при Заметим здесь, до более подробного обсуждения в параграфе 5.4, что исключение из модели всегда возможно с помощью «центрирования» данных, но это совершенно не то же самое, что приравнивание Если, например, мы запишем уравнение (1.2.1) в виде

или

где то оценки для и будут такими:

в соответствии с уравнением (1.2.9) и

так как при любом значении Поэтому с полным успехом можно записать центрированную модель, совсем опуская свободный член (отрезок):

Мы потеряли один параметр, но это соответствует потере в данных, так как величины представляют собой только различных элементов информации (в связи с тем, что их сумма равна нулю), тогда как содержат различных элементов информации. «Потерянная» часть информации была эффективно использована для надлежащей корректировки модели, позволяющей исключить свободный член.

1
Оглавление
email@scask.ru