Главная > Распознавание образов и анализ сцен
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.5. БАЙЕСОВСКОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ

6.5.1. БАЙЕСОВСКИЙ КЛАССИФИКАТОР

Методы максимума правдоподобия не рассматривают вектор параметров как случайный — он просто неизвестный. Предварительное знание о возможных значениях 0 необязательно, хотя на

практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что случайная величина с известным априорным распределением , и будем использовать выборки для вычисления апостериорной плотности . Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач.

Начнем с четкого определения основных предположений. Предполагаем, что

1. Число классов известно.

2. Априорные вероятности для каждого класса известны, .

3. Вид условных по классу плотностей известен, с, но вектор параметров неизвестен.

4. Часть знаний о заключена в известной априорной плотности

5. Остальная часть знаний о содержится в множестве S из выборок извлеченных независимо из смеси с плотностью

После этого мы могли бы непосредственно начать вычисление Однако давайте сначала посмотрим, как эта плотность используется для определения байесовского классификатора. Предположим, что состояние природы выбирается с вероятностью и вектор признаков х выбран в соответствии с вероятностным законом . Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисления апостериорной вероятности

Покажем явно роль выборок, записав это в виде По правилу Байеса

Так как выбор состояния природы был сделан независимо от ранее полученных выборок: то мы получим

Введем вектор неизвестных параметров, написав

Поскольку сам х не зависит от выборок, то Аналогично, так как знание состояния природы при выбранном х нам ничего не говорит о распределении , имеем

Таким образом, получаем

То есть наша наилучшая оценка для получена усреднением по . Хорошая это или плохая оценка, зависит от природы и мы должны, наконец, заняться этой плотностью.

6.5.2. ОБУЧЕНИЕ ВЕКТОРУ ПАРАМЕТРОВ

Используя правило Байеса, можем написать

где независимость выборок приводит к

С другой стороны, обозначив через множество выборок, мы можем записать соотношение (20) в рекуррентной форме

Это основные соотношения для байесовского обучения без учителя. Уравнение (20) подчеркивает связь между байесовским решением и решением по максимуму правдоподобия. Если существенно равномерна в области, где имеется пик , то имеется пик в том же самом месте. Если имеется только один существенный пик при и этот пик очень острый, то соотношения (19) и (18) дают

То есть эти условия оправдывают использование оценки по максимуму правдоподобия, используя ее в качестве истинного значения 0 при создании байесовского классификатора.

Естественно, если плотность была получена при обучении с учителем с использованием большого множества помеченных выборок,

она будет далека от равномерной и это решающим образом повлияет на когда мало. Соотношение (22) показывает, как при наблюдении дополнительных непомеченных выборок изменяется наше мнение об истинном значении и особое значение приобретают идеи модернизации и обучения. Если плотность смеси идентифицируема, то с каждой дополнительной выборкой становится все более острой, и при достаточно общих условиях можно показать, что сходится (по вероятности) к дельта-функции Дирака с центром в истинном значении 0. Таким образом, даже если мы не знаем класса выборок, идентифицируемость дает нам возможность узнать вектор неизвестных параметров и вместе с этим узнать плотности компонент

Тогда это и есть формальное байесовское решение задачи обучения без учителя. В ретроспективе тот факт, что обучение без учителя параметрам плотности смеси тождественно обучению с учителем параметрам плотности компонент, не является удивительным. Действительно, если плотность компонент сама по себе является смесью, то тогда действительно не будет существенной разницы между этими двумя задачами.

Однако существуют значительные различия между обучениями с учителем и без учителя. Одно из главных различий касается вопроса идентифицируемости. При обучении с учителем отсутствие идентифицируемости просто означает, что вместо получения единственного вектора параметров мы получаем эквивалентный класс векторов параметров. Однако, поскольку все это приводит к той же плотности компонент, отсутствие идентифицируемости представляет теоретических трудностей. При обучении без учителя отсутствие идентифицируемости представляет более серьезные трудности. Когда 0 нельзя определить единственным образом, смесь нельзя разложить на ее истинные компоненты. Таким образом, в то время как может все еще сходиться к величина описываемая выражением (19), в общем не сойдется к , т. е. существует теоретический барьер в обучении.

Другая серьезная проблема для обучения без учителя — вычислительная сложность. При обучении с учителем возможность нахождения достаточной статистики дает возможность получить решения, которые решаются как аналитическими, так и численными методами. При обучении без учителя нельзя забывать, что выборки получены из плотности смеси

и поэтому остается мало надежды найти простые точные решения для Такие решения связаны с существованием простой достаточной статистики, и теорема факторизации требует возможности

представления следующим образом:

Но по формулам (21) и (1) имеем

Таким образом, есть сумма с произведений плотностей компонент. Каждое слагаемое суммы можно интерпретировать как общую вероятность получения выборок с определенными метками, причем сумма охватывает все возможные способы пометки выборок. Ясно, что это приводит к общей смеси и всех х, и нельзя ожидать простой факторизации. Исключением является случай, когда плотности компонент не перекрываются, так что, как только в 0 изменяется один член, плотность смеси не равна нулю. В этом случае есть произведение ненулевых членов и может обладать простой достаточной статистикой. Однако, поскольку здесь допускается возможность определения класса любой выборки, это сводит задачу к обучению с учителем и, таким образом, не является существенным исключением.

Другой способ сравнения обучения с учителем и без учителя состоит в подстановке плотности смеси в (22) и получении

Если мы рассматриваем особый случай, где а все остальные априорные вероятности равны нулю, соответствующий случаю обучения с учителем, в котором все выборки из класса 1, то формула (23) упрощается до

Сравним уравнения (23) и (24), чтобы увидеть, как дополнительная выборка изменяет нашу оценку 0. В каждом случае мы можем пренебречь знаменателем, который не зависит от . Таким образом, единственное значительное различие состоит в том, что в случае обучения с учителем мы умножаем априорную плотность для 0 на плотность компоненты , в то время как в случае обучения без учителя мы умножаем на плотность смеси

Предполагая, что выборка действительно принадлежит классу 1, мы видим, что незнание принадлежности какому-либо классу в случае обучения без учителя приводит к уменьшению влияния на

изменение . Поскольку может принадлежать любому из с классов, мы не можем использовать его с полной эффективностью для изменения компонент (компоненты) , связанных с каким-нибудь классом. Более того, это влияние мы должны распределить на различные классы в соответствии с вероятностью каждого класса.

6.5.3. ПРИМЕР

Рассмотрим одномерную двухкомпонентную смесь с где известны. Здесь

Рассматриваемая как функция от х, эта плотность смеси представляет собой суперпозицию двух нормальных плотностей, причем одна имеет пик при а другая при Рассматриваемая как функция от , плотность имеет один пик при Предположим, что априорная плотность равномерна в интервале от а до b. Тогда после одного наблюдения

где — нормирующие константы, независимые от . Если выборка находится в пределах , то имеет пик при . В противном случае она имеет пики либо при если либо при если Отметим, что прибавляемая константа велика, если близок к Это соответствует тому факту, что если близок к то более вероятно, что он принадлежит компоненте и, следовательно, его влияние на нашу оценку для уменьшается.

С добавлением второй выборки плотность обращается в

(см. скан)

Рис. 6.5. Байесовское обучение без учителя.

(см. скан)

Рис. 6.6. Эффект сужения априорной плотности.

К сожалению, первое, что мы узнаем из этого выражения, — это то, что усложняется уже при Четыре члена суммы соответствуют четырем способам, которыми можно извлекать выборки из двухкомпонентных популяций. При выборках будет членов, и нельзя найти простых достаточных статистик, чтобы облегчить понимание или упростить вычисления.

Возможно использование соотношения

и численного интегрирования для того, чтобы получить приближенное числовое решение . Это было сделано для данных табл. 6.1 при зйачениях . Априорная плотность равномерная на интервале от —4 до 4, Включает данные этой таблица. Эти данные были использованы для рекуррентного вычисления Полученные результаты представлены на рис. 6.5. Когда стремится к бесконечности, мы с уверенностью можем ожидать, что будет стремиться к всплеску в точке График дает некоторое представление о скорости сходимости.

Одно из основных различий между байесовским и подходом по максимуму правдоподобия при обучении без учителя связано с априорной плотностью . Рис. 6.6 показывает, как изменяется , когда предполагается, что равномерна на интервале от 1 до 3, в зависимости от более четкого начального знания о 0. Результаты этого изменения больше всего проявляются, когда мало. Именно здесь различия между байесовским подходом и подходом по максимуму правдоподобия наиболее значительны. При увеличении важность априорного знания уменьшается, и в этом частном случае кривые для практически идентичны. В общем случае можно ожидать, что различие будет мало, когда число непомеченных выборок в несколько раз больше эффективного числа помеченных выборок, используемых для определения .

6.5.4. АППРОКСИМАЦИЯ НА ОСНОВЕ ПРИНЯТИЯ НАПРАВЛЕННЫХ

РЕШЕНИЙ

Хотя задачу обучения без учителя можно поставить просто как задачу определения параметров плотности смеси, ни метод максимума правдоподобия, ни байесовский подход не дают простых аналитических результатов. Точные решения даже простейших нетривиальных примеров ведут к необходимости применения численных методов; объем вычислений при этом растет экспоненциально в зависимости от числа выборок. Задача обучения без учителя слишком важна, чтобы отбросить ее только из-за того, что точные решения

слишком трудно найти, и поэтому были предложены многочисленные процедуры получения приближенных решений.

Так как основное различие между обучением с учителем и без учителя состоит в наличии или отсутствии меток для выборок, очевидным подходом к обучению без учителя является использование априорной информации для построения классификатора и использования решений этого классификатора для пометки выборок. Такой подход называется подходом принятия направленных решений при обучении без учителя и составляет основу для различных вариаций. Его можно применять последовательно путем обновления классификатора каждый раз, когда классифицируется непомеченная выборка. С другой стороны, его можно применить при параллельной классификации, то есть подождать, пока все выборок будут классифицированы, и затем обновить классификатор. При желании процесс можно повторять до тех пор, пока не будет больше изменений при пометке выборок. Можно ввести различные эвристические процедуры, обеспечивающие зависимость любых коррекций от достоверности решения классификатора.

С подходом принятия направленных решений связаны некоторые очевидные опасности. Если начальный классификатор не достаточно хорош или если встретилась неудачная последовательность выборок, ошибки классификации непомеченных выборок могут привести к неправильному построению классификатора, что в свою очередь приведет к решению, очень приблизительно соответствующему одному из меньших максимумов функции правдоподобия. Даже если начальный классификатор оптимален, результат пометки не будет соответствовать истинной принадлежности классам; классификация исключит выборки из хвостов желаемого распределения и включит выборки из хвостов других распределений. Таким образом, если имеется существенное перекрытие между плотностями компонент, можно ожидать смещения оценок и неоптимальных результатов.

Несмотря на эти недостатки, простота процедур направленных решений делает байесовский подход доступным для численных методов, а решение с изъянами чаще лучше, чем отсутствие решения. При благоприятных условиях можно получить почти оптимальный результат при небольших вычислительных затратах. В литературе имеется несколько довольно сложных методов анализа специальных процедур направленных решений и сообщения о результатах экспериментов. Основной вывод состоит в том, что большинство этих процедур работает хорошо, если параметрические предположения правильны, если перекрытие между плотностями компонент невелико и если начальный классификатор составлен хотя бы приблизительно правильно.

1
Оглавление
email@scask.ru