Главная > Нейронные сети для обработки информации
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.5.2. Метод ортогонализации Грэма-Шмидта

Наиболее эффективным методом управления количеством скрытых нейронов остается применение специальной технологии обучения сети, основанной на методе ортогонализации наименьших квадратов, использующем классический алгоритм ортогонализации Грэма-Шмидта [8]. Отправная точка этого метода представление задачи обучения в виде линейной адаптации вектора весов сети направленной на минимизацию значения вектора погрешности е. Для обучающих выборок вектор ожидаемых значений имеет вид: При использовании К базисных функций и обучающих пар реакции скрытых нейронов образуют матрицу вида

в которой обозначает реакцию радиальной функции на обучающую выборку, . Если вектор реакций радиальной функции на все обучающие выборки обозначить то матрицу можно представить в форме

При таких обозначениях на каждом этапе обучения будет выполняться линейное равенство

где - вектор весов, а - вектор фактической погрешности обучения. Квадрат произведения соответствует ожидаемой энергии, исходящей от сигналов, задаваемых вектором которая и подвергается максимизации в процессе обучения.

Метод ортогонализации наименьших квадратов основан на преобразовании векторов во множество базисных ортогональных векторов, позволяющее оценить индивидуальный вклад каждого из них в общую энергию, представляемую произведением Это в свою очередь позволяет удалить те векторы, влияние которых на процесс оказывается минимальным.

В процессе обучения матрица раскладывается на произведение матрицы с ортогональными столбцами на верхнетреугольную матрицу с единичными диагональными значениями:

где

а матрица соответствует условию

При этом Н - диагональная матрица с элементами Решение зависимости (5.50) методом наименьших квадратов может быть спроецировано в пространство, образуемое ортогональными векторами Если ввести новую векторную переменную определенную как

то из уравнения (5.50) получим:

Приближенное решение уравнения (5.53) (обозначаемое символом методом наименьших квадратов имеет вид:

Принимая во внимание диагональный характер матрицы Н, можно получить формулу, описывающую компонент вектора

Решение, определяющее вектор весов находится непосредственно из зависимости (5.52), которую можно переписать в форме

С зачетом треугольной структуры матрицы А вычислительная сложность решения уравнения (5.56) относительно вектора невелика.

Ортогонализация матрицы описанная выражением (5.51), может быть проведена различными методами, наиболее эффективным из которых считается алгоритм Грэма-Шмидта. В соответствии с этим методом матрица А формируется последовательно, столбец за столбцом с одновременным формированием очередных столбцов ортогональной матрицы На шаге создается столбец ортогональный ко всем созданным ранее столбцам Процедура повторяется для значений Математическая модель этой операции имеет вид:

для Многократно повторенная процедура ортогонализации позволяет сформировать все ортогональные векторы и матрицу А, на основе которых можно получить методом наименьших квадратов приближенное решение (уравнение (5.54)), а в дальнейшем из решения треугольной системы уравнений (5.56) найти вектор

Однако важнейшим достоинством описываемого метода ортогонализации считается возможность селекции векторов с учетом их важности для отображения обучающих данных. В случае априори определенного количества

К радиальных функций задача заключается в такой расстановке векторов чтобы отобрать из них первые наиболее значимые в энергетическом плане, при этом, как правило, Использование в дальнейших вычислениях только радиальных функций означает сокращение количества скрытых нейронов с начального их числа К до Принимая во внимание энергию сигналов, описываемых вектором в соответствии с выражением (5.53) получаем

Если принять, что вектор ожидаемых реакций имеет нулевое среднее значение, то произведение может интерпретироваться как средний вклад, приходящийся на одну обучающую выборку вектора соответствующего базисной функции. Относительная доля этого составляющего в общем энергетическом балансе может быть определена по формуле

для Расчет значений для всех базисных функций дает возможность оценить их важность для функционального отображения обучающих данных, что упрощает принятие решения о ликвидации тех, чей вклад оказывается наименьшим. После отбора наиболее значимой радиальной функции процесс ортогонализации повторяется для получения нового решения и выбора следующей по значимости радиальной функции. При фиксации начальной величины после многократного повторения ортогонализации Грэма-Шмидта можно отобрать наиболее значащих базисных функций и исключить остальные. Таким образом количество скрытых нейронов уменьшается от начального числа К до Алгоритм отбора наиболее значимых базисных функций выглядит следующим образом [8]:

1. На первом этапе для рассчитать

Предполагается, что для а вектор

2. На следующих этапах для следует провести очередные циклы ортогонализации:

а также оценить влияние очередных радиальных функций на суммарное значение энергетической функции путем расчета:

Если наибольший вклад радиальной функции в общую энергию обозначить т.е.

для тогда очередной выделенный вектор будет соответствовать радиальной функции со следующим по важности вкладом в общую энергию. Этот вектор определяется выражением

в котором коэффициент для

3. Процедура выявления наиболее значимых для отображения радиальных функций завершается на этапе в момент выполнения условия

где - это заранее установленный порог толерантности.

В результате выполнения процедуры в сети остается только наиболее значимых радиальных функций, расположенных в ранее определенных центрах (например, путем самоорганизации). Одновременно при реализации алгоритма вычисляются конкретные составляющие вектора на основе которых по формуле (5.52) находятся значения весов выходного слоя сети.

Геометрическая интерпретация представленной процедуры ортошнализации достаточно проста. На этапе выполнения алгоритма размерность базисного пространства увеличивается на единицу, с , за счет введения дополнительной базисной функции. Вводя всякий раз наиболее значимую базисную функцию, мы получаем оптимальный их набор, что позволяет получить наилучшие результаты обучения.

Толерантность определяющая момент завершения процесса обучения, - это важный фактор, от которого зависит, с одной стороны, точность отображения обучающих данных, а с другой стороны, - уровень сложности нейронной сети. Во многих случаях ее значение можно оценить на основе статистического анализа

обучающих данных и фактических успехов в обучении. С методами подбора оптимальных значений можно ознакомиться в [8].

Еще одно достоинство процесса ортогонализации - возможность избежать неудачной комбинации параметров процесса обучения. Выполнение условия означает, что соответствующий вектор является линейной комбинацией векторов Поэтому если в процессе ортогонализации произведение меньше, чем заданное (пороговое) значение, то функцию можно не включать во множество базисных функций.

1
Оглавление
email@scask.ru