Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

12.3. МЕТОДЫ ДЛЯ МОДЕЛЕЙ С ИГНОРИРУЕМЫМИ ПРОПУСКАМИ

Теперь продемонстрируем применение байесовской теории из раздела 12.2 на ряде простых примеров. Некоторые результаты согласуются с оценками и стандартными ошибками квазирандомизационного подхода из гл. 4, однако, как можно показать с помощью простых обобщений этих стандартных результатов, модельному подходу присуща гибкость при выводе оценок и стандартных ошибок в нетрадиционных ситуациях. Во всех примерах взят простой случайный выбор из конечной популяции с пропусками в Y, но не в Поскольку ни один из примеров не опирается на существование переменных плана они не включены в выражения, хотя легко провести непосредственное обобщение на случай расслоения. Во всех примерах предполагается, что пропуски игнорируемы, но, возможно, зависимы от значений полностью наблюдаемых переменных

Пример 12.2. Модели весовых групп с известными частотами в группах. Допустим, что из популяции с объектами извлечена простая случайная выборка объема значениях переменной У есть пропуски, соответствующие случайному подвыбору значений выборки внутри групп, формируемых по переменной зарегистрированной у всех объектов выборки. Пусть означают соответственно число объектов и среднее группе популяции Нашей целью является оценить общее среднее в популяции

где

Допустим, что значения У в группе по нормальному закону со средним и дисперсией и что и имеют локально равномерные априорные распределения, как и в примере 12.1. Считая объем выборки большим, известными, получим (с помощью выкладок, аналогичных примеру 12.1), что данные по отвечающим (по объектам без пропусков) нормальны со средним

и дисперсией

где число ответивших, и выборочные среднее и дисперсия значений У в выборке отвечающих в группе. Обратите

внимание, что (12.11) — это среднее пострасслоения, его дисперсия, полученные в (4.15) и (4.16) соответственно в рамках квазирандомизационной теории. Значит, эти выражения дают байесовские интервалы, совпадающие с доверительными интервалами для частотного подхода из раздела 4.4.3.

Пример 12.3. Модели весовых групп с неизвестными частотами в группах. Допустим, что мы имеем такую же постановку, как в предыдущем примере, но с неизвестными в группах, что обычно бывает, когда переменная, изучаемая в обследовании. Байесовские выводы основаны на его апостериорном распределении при заданном которое получают из апостериорного распределения , условного по заданным из примера 12.2, интегрируя по апостериорному распределению условному по

В частности, среднее и дисперсия этого распределения равны:

и

где суммирование проводится по весовым группам Допустим, что объекты распределены по весовым группам как полиномиальные случайные величины с вероятностями и индексом 1 при локально равномерном по априорном распределении. Тогда

где выборочная доля в группе. Далее

Отсюда

Подставляя эти выражения в (12.13) и (12.14), получаем

— оценку весовых групп (4.10) и после некоторых выкладок

Это выражение приближенно равно оценке среднеквадратической ошибки оценки весовых групп, приведенной после (4.12).

Гибкость модельного подхода при вычислении оценок и стандартных ошибок можно легко увидеть на примере, когда весовые группы формируются совместно по уровням двух или более факторов. Пусть

где индекс относится к группе, соответствующей уровням двух классифицирующих переменных. Модель

для отвечающих и неотвечающих объектов в группе и локально равномерными априорными распределениями для и ведет к оценкам весовых групп или пострасслоения, как и ранее. Если число отвечающих

мало в некоторых группах, можно подобрать более экономную модель для описания средних в группах. Например, данным может хорошо соответствовать аддитивная модель

где теперь Эту модель можно оценивать методом наименьших квадратов, обеспечивая прогноз отсутствующих значений У. Можно строить также объединенную оценку дисперсии, подбирая модель, в которой дисперсии считаются равными при всех и (или) .

Другой модельный подход, с помощью которого можно уменьшить добавочную дисперсию оценки весовых групп (по сравнению с оценкой пострасслоения (12.11)), — моделирование вероятности групп Например, может оказаться приемлемым предположение о независимости классифицирующих факторов и что ведет к оценкам (без учета поправок на конечность популяции)

где .

Гибкость модельного подхода при сглаживании средних в группах, дисперсий и пропорций вероятностей особенно полезна, когда весовые группы определяются совокупностью трех или более факторов, т. е. в случаях, когда для оценки пострасслоения и весовых групп требуется достаточно большое число отвечающих в каждой группе, где есть пропуски. Как видно из следующего примера, модельный подход можно также приспособить и для случая с присутствием сопеременных для прогноза пропущенных значений.

Пример 12.4. Заполнение по регрессии. Рассмотрим более общий случай. Пусть извлечена простая случайная выборка объема где К переменных зарегистрированы у всех объектов выборки, а наличие пропуска не зависит от условно по Предположим, что

где известная функция, характеризующая разнородность дисперсии. Априорные распределения параметров предполагаются локально равномерными. Тогда оценками пропущенных значений служат их апостериорные средние

где оценки коэффициентов методом наименьших квадратов с весом объекта, равным

Частные случаи оценок, основанных на этой модели, включают оценки из предыдущего примера, получаемые из (12.5) при и при представляющих фиктивные переменные для весовых групп. В их число также входят оценки отсутствующих по отношению

где средние У и единственной переменной отвечающих. Эту оценку получают, полагая в Если получается регрессионная оценка отсутствующих

Эта оценка появляется также в соответствии с рандомизационной теорией при двойном выборе [Cochran (1977), гл. 12], когда переменная, зарегистрированная в большой исходной выборке, переменная, зарегистрированная в случайно извлеченном подмножестве объектов этой выборки.

При непосредственном применении модельных методов регрессионную модель (12.15) можно использовать не только для оценки отсутствующих значений, но и для построения выводов о параметрах популяции. При этом важно выбирать модели, которые «приспосабливаются» к выборочному плану, т. е. нечувствительны к неточному выбору модели. Последними работами по этой важной теме для полностью зарегистрированных данных являются, например, [Royall and Herson (1973)] или [Hansen, Madow and Tepping (1982)], обсуждение этой работы см. в [Rubin (1985)].

Эту модель можно использовать более узко — просто для вычисления значений для подстановки с последующим оцениванием характеристик популяции по заполненным данным, проводимым с помощью рандомизационных методов. Конечно, при заполнении пропусков модельный подход не ограничивается линейными моделями вида (12.15). Например, для бинарной У обычно предпочтительнее логистическая регрессия. Для категориальных данные образуют частично классифицированную таблицу сопряженности с полными объектами, классифицированными по и неполными объектами, классифицированными только по По этим данным можно строить логлинейные модели для таблиц сопряженности, описанные в гл. 9. Эти модели дают оценки условной вероятности того, что объект с пропуском имеет категорию с при заданных сопеременных Подстановки можно получать, приписывая частично классифицированный объект к ячейке с с вероятностью Эта процедура близка к ЕМ-алгоритму для МП-оценивания, обсуждавшемуся в гл. 7.

Поскольку одна подстановка обычно не может представлять неопределенность в выборе подставляемых значений для пропуска (при заполнении каждого пропуска одним значением), для справедливости выводов в общем случае при проведении анализа нужны специальные процедуры. Одним из таких подходов является многократное заполнение.

1
Оглавление
email@scask.ru