Главная > Прикладная статистика: Исследование зависимостей
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

1.1.5. Измерение степени тесноты связи при нелинейной зависимости.

При отклонениях исследуемой зависимости от линейного вида, как уже отмечалось, коэффициент корреляции теряет свой смысл как характеристика степени тесноты связи. В этих случаях исследователь должен воспользоваться имеющимися у него двумерными выборочными данными с целью построения оценок для определенной выше, в некотором смысле универсальной теоретической характеристики степени тесноты связи — индекса корреляции (см. формулу (1.6)). Способ построения таких оценок выбирается в зависимости от природы имеющихся у нас выборочных данных и от характера некоторых дополнительных допущений.

Корреляционное отношение. Наиболее привлекательной в этом смысле является ситуация, в которой характер выборочных данных (их количество, «плотность» расположения на плоскости) допускает их группировку по оси объясняющей переменной и возможность подсчета так называемых «частных» средних ординат внутри каждого интервала группирования.

Пусть такое группирование данных произведено. При этом, как обычно, k — число интервалов группирования по оси абсцисс; (i = 1, 2, ..., k) — число выборочных точек, попавших интервал группирования; среднее значение ординат точек, попавших в i-й интервал группирования. Тогда, как легко понять, выборочным аналогом (оценкой) введенной ранее дисперсии of будет величина

где общее среднее .

Соответственно получаем оценку для в виде

где выборочная дисперсия индивидуальных результатов наблюдения около общего среднего у вычисляется по формуле

Величину принято называть корреляционным отношением зависимой переменной по независимой переменной Его вычисление не обременено никакими дополнительными допущениями относительно общего вида регрессионной зависимости (1.1). Однако, в отличие от коэффициента корреляции, корреляционное отношение несимметрично по отношению к исследуемым переменным, т. е., вообще говоря, . Кроме того, корреляционное отношение, по определению, является величиной неотрицательной, так как под ним подразумевается результат извлечения арифметического значения корня квадратного из .

В остальном свойства корреляционного отношения во многом похожи на свойства коэффициента корреляции.

Из (1.5) и (1.6), в частности, немедленно следует, что подобно коэффициенту корреляции корреляционное отношение не может быть больше единицы. Из следует наличие однозначной функциональной связи между , и, наоборот, однозначная функциональная связь между свидетельствует о том, что . Далее, отсутствие корреляционной связи между означает, что условные средние сохраняют постоянное значение, равное общему среднему у, а потому Наоборот, если и следовательно, частные средние не зависят от т. е. соответствующая линия регрессии параллельна горизонтальной оси.

Отметим, что между нет какой-либо простой зависимости. Некоррелированность с (т. е. равенство нулю величины ) не влечет за собой непосредственно некоррелированности с . Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Допустим, например, что принимает значения: с вероятностями 1/3 каждое. В этом случае (в силу симметрии параболы относительно оси и симметричности распределения ).

Можно показать, что корреляционное отношение не может быть меньше абсолютной величины коэффициента корреляции , характеризующего зависимость между теми же переменными. В случае линейной зависимости эти две характеристики связи совпадают. Это позволяет использовать величину разности в качестве меры отклонения регрессионной зависимости от линейного вида (см. п. 6.3.3).

И наконец, все замечания относительно смысловой интерпретации коэффициента корреляции (в частности, о логическом соотношении понятий «корреляционная зависимость, связь между переменными, их причинная взаимообусловленность») остаются в силе и для корреляционного отношения.

Проверка гипотезы об отсутствии корреляционной связи Какую величину корреляционного отношения можно признать статистически значимо отличающейся от нуля, т. е.достаточной для статистически обоснованного вывода о наличии корреляционной связи между исследуемыми переменными? Ведь так же, как и в случае прямолинейного типа зависимости, принципиально возможны ситуации, когда отклонение от нуля полученной величины корреляционного отношения является статистически незначимым, т. е. обусловленным лишь неизбежными случайными колебаниями выборки.

Для построения соответствующего критерия воспользуемся фактом приближенной -распределенности случайной величины

справедливым в предположении, что (или, что то и что условные распределения зависимой переменной при любом фиксированном описываются нормальным законом с постоянной дисперсией (см., например, [65, с. 401]).

Поэтому, если окажется, что

то гипотеза об отсутствии корреляционной связи между отвергается с уровнем значимости а (здесь, как и ранее, - -ная точка -распределения с числом степеней свободы числителя и знаменателя находится из табл. П.5). При выполнении обратного неравенства значение корреляционного отношения признается статистически незначимым, т. е. делается вывод об отсутствии корреляционной связи между и

Доверительные интервалы для истинного значения корреляционного отношения можно построить, опираясь на тот факт, что статистика

приближенно подчиняется так называемому «нецентральному -распределению», который оказывается справедливым в предположении -нормальности случайных величин и при любом отличном от нуля истинном значении корреляционного отношения

Действительно, как известно (см., например, [14, гл. 61), случайная величина

подчиняется нецентральному -распределению с числами степеней свободы числителя и знаменателя соответственно параметром нецентральности а, если суть взаимно независимые нормальные случайные величины, обладающие одинаковыми дисперсиями, причем а

Намечая доказательство сформулированного выше утверждения о статистике определенной формулой (1.17), заметим, что в нашем случае в роли случайных величин грубо говоря, выступают значения а в роли случайных величин — значения Отметим также следующие соотношения, в справедливости (в некоторых случаях приближенной) которых нетрудно убедиться:

(здесь ) — неизвестная нам функция регрессии по — средняя точка интервала группирования по оси асбцисс, а среднее значение функции регрессии):

И наконец, параметр нецентральности в соответствии с (1.18) и с учетом (1.6) в нашем случае имеет вид

Далее воспользуемся тем (см., например, [30, с. 99]), что распределение статистики при достаточно хорошо аппроксимируется обычным (центральным) -распределением с числом степеней свободы числителя, приблизительно равным числом степеней свободы знаменателя, равным Поэтому в нашем случае распределение статистики

приближенно описывается -распределением с числом степеней свободы числителя

и числом степеней свободы знаменателя

Таким образом, получаем следующее правило построения приближенных доверительных интервалов для истинного значения корреляционного отношения

1) пользуясь формулой (1.16), вычисляем точечную оценку для истинного значения корреляционного отношения

2) по формуле (1.19) подсчитываем вспомогательное число степеней свободы v числителя для аппроксимирующего центрального -распределения;

3) задавшись уровнем доверия , с помощью табл. П.5 находим 100 -ную точку и -ную точку -распределения с числом степеней свободы числителя и знаменателя

4) утверждаем, что приблизительно с вероятностью истинное значение корреляционного отношение удовлетворяет неравенствам

Проиллюстрируем работоспособность описанного метода на следующем примере. Пусть в результате обработки 132 экспериментальных точек получено выборочное значение корреляционного отношения . При этом мы воспользовались разбиением диапазона изменения независимой переменной на равных интервалов группирования. Соответственно получаем в качестве вспомогательного числа степеней свободы числителя величину (частное округляем до целого числа). Задавшись доверительной вероятностью , из табл. П.5 находим (полагая ):

И наконец, в соответствии с формулой (1.20) находим левый () и правый () концы доверительного интервала для истинного значения

Таким образом, при точечной оценке истинное значение заключено в пределах от до с вероятностью, приблизительно равной 0,9, т. е. .

В этом примере хорошо видна существенная несимметричность концов интервальной оценки относительно точечной оценки (правый конец интервальной оценки отстоит от точечной оценки на 0,33, в то время как левый конец — всего лишь на

Для значений точечных оценок , близких к нулю или к единице, левый или правый конец интервальной оценки может терять содержательный смысл, выходя за пределы отрезка [0, 1]. В этом случае в качестве левого или правого конца интервальной оценки следует брать соответствующее граничное значение — нуль или единицу (причина подобных нежелательных ситуаций — в аппроксимационном подходе к решению данной задачи). Однако описанный прием все-таки следует признать гораздо более точным, чем применяемый иногда метод построения интервальных оценок для необоснованно использующий приблизительную -нормальность статистики

Оценка индекса корреляции по несгруппированным данным. Если характер имеющихся у нас выборочных данных таков, что не допускает их сколько-нибудь удовлетворительной группировки по оси объясняющей переменной (недостаточно велико , точки ) слишком «разрежены» на плоскости), то построению оценок для мы вынуждены предпослать принятие той или иной гипотезы об общем виде регрессионной функции (1.1). О статистических методах проверки подобного рода гипотез см. ниже, гл. 6. Пусть, например, в результате анализа, описанного в гл. 6, нами принята гипотеза о том, что интересующая нас регрессионная зависимость имеет вид алгебраического полинома второго порядка, т. е. Тогда для оценки введенной ранее характеристики степени тесноты связи между исследуемыми переменными — коэффициента детерминации (или индекса корреляции ) исследователю приходится вначале вычислить оценки для неизвестных параметров — коэффициентов , входящих в уравнение регрессии (см. гл. 7). И лишь после этого, ориентируясь на правую часть формулы (1.6), мы получим в качестве оценки для величину:

так как нетрудно показать [65], что величина

является в данном случае выборочным аналогом (оценкой) теоретической дисперсии участвующей в (1.6).

Пусть в общем случае нами принята гипотеза об общем виде интересующей нас зависимости , где — некоторая известная функция аргумента зависящая от неизвестного параметра .

Тогда, пользуясь рекомендациями гл. 7, строим оценки неизвестных параметров, входящих в описание функции регрессии, после чего вычисляем оценку коэффициента детерминации по формуле

Замечание. Можно показать, что, как и следовало ожидать, в частном случае оценка, определяемая соотношением (1.21), совпадает с квадратом выборочного коэффициента корреляции

Следует отметить, что вычисление и использование выборочных характеристик степени тесноты связи типа (1.21) затруднено по меньшей мере тремя обстоятельствами: 1) необходимостью предварительного выбора общего вида регрессионной зависимости; 2) необходимостью предварительного вычисления оценок для входящих в уравнение регрессии неизвестных параметров; 3) отсутствием строгих рекомендаций по их проверке на статистическую значимость и по построению соответствующих интервальных оценок.

1
Оглавление
email@scask.ru