7.5. Заключение
В данной главе к задачам обучения с поощрением и без поощрения применена процедура динамической стохастической аппроксимации. Рассматривались задачи оценки параметров, вероятностной меры и функций плотности вероятности. Как мера качества в процедурах оценки использовалась среднеквадратичная ошибка. Получена оптимальная последовательность минимизирующая среднеквадратичную ошибку при каждой итерации. Рассмотрена связь между байесовой оценкой и стохастической аппроксимацией. Показано, что в некоторых случаях алгоритмы байесова обучения (оценки) остаются в рамках общей процедуры стохастической аппроксимации Дворецкого. Следовательно, гарантируется сходимость в среднеквадратичном с вероятностью единица.
Как и раньше, для обучения без поощрения используется совместное распределение. Оценка неизвестных параметров совместного распределения (или функции плотности) осуществляется с помощью процедуры стохастической аппроксимации.
К оценке медленно меняющихся параметров применена динамическая стохастическая аппроксимация. В общем случае эта процедура состоит из двухступенной аппроксимации, выполняемой на каждом шаге процесса обучения. Первая ступень построена для коррекции временных изменений оцениваемых параметров; вторая ступень выполняется с помощью обычной процедуры стохастической аппроксимации.
Показано также, что, кроме байесовой оценки, такие приемы обучения как линейное усиление и метод потенциальных функций (приложение в некоторых случаях укладываются в общие рамки стохастической аппроксимации [20—25]. Можно заключить, что эти методы с математической точки зрения аналогичны, т. е. они обладают одним и тем же типом сходимости и даже одинаковой скоростью сходимости. Однако с инженерной точки зрения эти методы обучения различаются вычислительными трудностями, а также необходимой априорной информацией.
Представляют интерес дальнейшие исследования, направленные на выбор различных видов функции имеющие целью ускорение сходимости. Эти исследования позволят изучить оптимальные свойства известных алгоритмов стохастической аппроксимации и установить связь между сложностью выбранной функции и скоростью сходимости.
В последнее время большое внимание уделяется задаче оценки нестационарных (зависящих от времени) параметров. Однако пока получены незначительные результаты. Дальнейшее изучение общей процедуры (динамической) стохастической аппроксимации для оценки зависящих от времени параметров должно привести к решению этой задачи.
Литература
(см. скан)