Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

2.4. ПОДСТАНОВКА ОЦЕНОК НАИМЕНЬШИХ КВАДРАТОВ

2.4.1. Метод Йейтса

Классический и общепринятый подход к пропускам в дисперсионном анализе обязан своим происхождением в основном Йейтсу Он состоит в следующем: 1) заменить все пропущенные значения их оценками наименьших квадратов где определенное в (2.2), получено по строкам с присутствующими применить метод анализа для полных данных. Этот подход с подстановкой оценок наименьших квадратов на первый взгляд создает порочный круг небесполезен на практике, так как для него вроде бы требуется знать при оценивании величиной до получения (3,. Как это ни удивительно, но можно относительно

легко вычислять для пропущенных до непосредственного вычисления если отсутствует небольшое число значений.

Процедура Йейтса обосновывается тем, что она дает 1) правильные оценки наименьших квадратов и 2) правильную остаточную сумму квадратов, т. е. получаемая оценка будет правильна и равна Доказать два этих факта довольно легко. Пусть обозначает оценки наименьших квадратов отсутствующих значений, которыми для простоты обозначений мы будем считать первые наблюдений. Методы для полных данных, примененные к заполненным данным, минимизируют величину

по 0. По определению минимизирует вторую сумму в но минимизирует и первую сумму, делая ее равной нулю. Следовательно, при заполнении пропусков оценками наименьших квадратов 1) достигает минимума при равна минимальной сумме квадратов остатков по присутствующим значениям Отсюда 1) правильная оценка наименьших квадратов равна оценке наименьших квадратов 0, полученной с помощью программы дисперсионного анализа для полных данных и 2) правильная оценка наименьших квадратов получается из оценки для полных данных,

Анализ с подстановкой вместо пропущенных несовершенен: он приводит к заниженной оценке ковариационной матрицы суммы квадратов, относящиеся к набору линейных комбинаций 0, завышены, хотя при небольшой доле пропусков эти смещения часто относительно малы. Теперь мы приступим к рассмотрению методов вычисления значений

2.4.2. Формулы для пропущенных значений

Один из подходов состоит в том, чтобы заменять пропущенные значения с помощью явного выражения. Впервые применяя эту идею, Аллан и Уишарт [см. Allan and Wishart (1930)] вывели формулы для оценки наименьших квадратов для одного пропущенного значения в плане рандомизированных блоков и в плане латинских квадратов. Например, для рандомизированных блоков при обработках и В блоках оценкой наименьших квадратов пропущенного значения для обработки в блоке является

где соответственно сумма наблюденных значений для обработки и блока а сумма всех наблюденных Уилкинсон [см. Wilkinson (1958а)] обобщил эту работу, приведя таблицу с формулами для многих планов и структур пропусков.

2.4.3. Итеративный подбор пропущенных значений

Хартли [Hartley (1956)] предложил общий неитеративный метод оценки одного пропущенного значения, который по его предложению следует использовать итеративно при большем числе пропусков. Метод для одного пропуска состоял в подстановке трех различных пробных значений вместо пропуска и вычислении суммы квадратов остатков для каждого из этих значений. Тогда, поскольку сумма квадратов остатков квадратична по пропущенному значению, можно найти значение для одного пропуска, минимизирующее эту сумму. Этот подход менее привлекателен, чем другие методы.

Хили и Уэстмакот [Healy and Westmacott (1956)] описали известный итеративный метод, который иногда приписывают Йейтсу, а иногда — даже Фишеру. В этом методе 1) вместо всех пропусков подставляют начальные значения; 2) проводят анализ для полных данных; 3) для пропусков получают предсказываемые значения; 4) подставляют эти значения вместо пропусков; 5) снова проводят анализ для полных данных и т. д., пока значения для пропусков не станут меняться мало, или, что эквивалентно, пока остаточная сумма квадратов не перестанет существенно уменьшаться.

Как мы покажем в примере 8.5, метод Хили и Уэстмакота — пример ЕМ-алгоритма, описываемого в гл. 7. Каждая итерация уменьшает остаточную сумму квадратов или (что то же самое при соответствующей нормальной модели) увеличивает правдоподобие. В некоторых случаях сходимость может быть медленной. Были предложены специальные методы ускорения [см. Реагсе (1965), с. 111; Ргеесе (1971)]. В некоторых случаях они увеличивают скорость сходимости, в других же нарушают монотонное уменьшение остаточной суммы квадратов (см. сводку условий в [Jarrett (1978)]).

2.4.4. Ковариационный анализ с современными пропусков

Общий неитеративный метод, предложенный Бартлетом [см. Bartlett (1937)], заключается в подстановке начальных значений вместо пропусков и проведении ковариационного анализа с сопеременной (covariate, сопутствующая переменная) пропусков для каждого пропущенного значения. По определению сопеременная пропусков — это индикатор пропущенного значения, т. е. всегда нуль, за исключением случая, когда пропущено значение, тогда она равна 1. При вычитании коэффициента для сопеременной пропуска из начального значения получается оценка наименьших квадратов пропуска. Кроме того, остаточный средний квадрат и суммы квадратов для всех контрастов, пересчитанные по сопеременной пропусков, принимают свои истинные значения. Мы докажем эти результаты в разделе 2.5.

Хотя этот метод привлекателен в определенных отношениях, его часто нельзя реализовать непосредственно, потому что специализированные программы дисперсионного анализа могут не обладать возможностью вести обработку при многих сопеременных. Оказывается, однако, что метод Бартлета можно применять, располагая только имеющимися программами дисперсионного анализа для полных данных и программой обращения симметричной матрицы . В следующем разделе доказано, что метод Бартлета дает правильные результаты, в других же разделах рассмотрено получение этих результатов только с помощью программ дисперсионного анализа для полных данных.

1
Оглавление
email@scask.ru