Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

7.3. ОПИСАНИЕ ЕМ-АЛГОРИТМА

Описание шага совсем просто: «Проводить максимально правдоподобное оценивание 6 так, как будто нет пропусков, т. е. как будто они заполнены». Таким образом, на шаге ЕМ-алгоритма используются те же вычислительные методы, что и при МП-оценивании по

На шаге находят условное ожидание «пропущенных данных» при фиксированных наблюденных данных и текущих оценках параметров, а затем заменяют «пропущенные данные» найденными ожидаемыми значениями. «Пропущенные данные» взяты в кавычки, так как на практике в ЕМ-алгоритме не обязательно происходит действительное заполнение пропусков. Ключевая идея ЕМ-алгоритма, оформившаяся из частной идеи итеративного заполнения пропусков, состоит в том, что «пропущенные данные» — это не а функции от входящие в логарифм правдоподобия для полных данных, т. е.

Точнее, пусть текущая оценка параметра 6. На шаге ЕМ-алгоритма находят ожидаемый логарифм правдоподобия при условии

На шаге ЕМ-алгоритма определяют максимизируя этот ожидаемый логарифм правдоподобия:

Пример 7.1. Одномерные нормальные данные. Допустим, что по где наблюдаются, отсутствуют, и предположим, что выполняется ОС. Ожидаемое значение каждого пропуска у, при заданных и равно При этом, согласно примеру 5.1, логарифм правдоподобия для всех линеен по достаточным статистикам и Значит, на шаге алгоритма получаются значения

для текущих оценок параметров. Заметьте, что простая подстановка вместо пропусков привела бы к отсутствию в (7.6) члена

Для полных данных равна а это На шаге используются эти же выражения с текущими ожиданиями достаточных статистик, вычисленными на шаге и подставляемыми вместо не полностью наблюдаемых достаточных статистик. Следовательно, на шаге вычисляются

Полагая в уравнениях получаем, что итерации сходятся к

и

ОМП параметров по при условии ОС. Конечно, в этом примере ЕМ-алгоритм не нужен, поскольку можно получить ОМП в явном виде.

Пример 7.2. Полиномиальный случай. Этим примером начиналось описание ЕМ-алгоритма во введении к [Dempster, Laird and Rubin (1977)]. Пусть постулируется, что вектору данных наблюденных частот соответствует полиномиальное распределение с вероятностями Ставится цель найти Определим как полиномиальную случайную переменную с вероятностями где Заметим, что если бы наблюдались «полные данные» была бы получена немедленно:

Заметим, также, что логарифм правдоподобия линеен по 0, так что поиск математического ожидания при заданных и включает те же вычисления, которые требуются для определения математического ожидания при заданных и когда, по существу, происходит подстановка оценок пропущенных значений:

Таким образом, на итерации мы имеем на шаге при оценке

а на шаге согласно (7.9)

Итеративное повторение шагов (7.10) и (7.11) и определяет ЕМ-алгоритм для этой задачи. На деле, полагая и объединяя два уравнения, мы получим квадратное уравнение относительно значит, явное решение для ОМП. В табл. 7.1 показано, как последовательность значений оценок в ЕМ-алгоритме сходится к этому решению с начальной точки

Пример 7.3. Двумерное нормальное распределение с пропусками в обеих переменных. Простой, но нетривиальный пример ЕМ-алгоритма возникает в случае двумерного нормального закона с общей структурой пропусков: в первой группе объектов наблюдается но отсутствует во второй группе наблюдаются и в третьей группе наблюдается но отсутствует Мы хотим вычислить ОМП среднего и ковариационной матрицы

Рис. 7.1. Структура пропусков для примера 7.3.

В отличие от примера 7.2 (и аналогично примеру 7.1) заполнение пропусков на шаге «не работает», так как логарифм правдоподобия линеен не по данным, а по следующим достаточным статистикам:

которые являются простыми функциями выборочных средних, дисперсий и ковариаций. Следовательно, на шаге нужно найти условные ожидания сумм (7.12) при заданных Для группы объектов с присутствием и условное ожидание величин (7.12) равно их наблюдаемым значениям. Для группы, где присутствуют, а пропущены, ожидания равны наблюдаемым


Таблица 7.1. (см. скан) Последовательность оценок в ЕМ-алгоритме для примера 7.2

значениям, ожидания можно найти с помощью регрессии на

где функции от соответствующие регрессии на (детали см. в примере 6.1). Для группы с присутствующими и пропущенными вычисление отсутствующих членов в достаточных статистиках проводится с помощью регрессии на Найдя ожидания и для каждого объекта в трех группах, вычислим ожидания достаточных статистик (7.12) как суммы этих величин по объектам. На шаге по «заполненным» достаточным статистикам определяются обычные моментные оценки и

ЕМ-алгоритм для этой задачи состоит в итеративном повторении этих шагов. Другие детали для этого примера рассматриваются в гл. 8, где описан ЕМ-алгоритм для многомерного нормального распределения общего вида с любой структурой пропусков.

1
Оглавление
email@scask.ru