5.3.4. Алгоритмы обучения, основанные на обратном распространении ошибки
Обособленный класс алгоритмов обучения радиальных функций составляют градиентные методы обучения с учителем, в которых используется алгоритм обратного распространения ошибки. Так же как и в сигмоидальных сетях, их основу составляет целевая функция, определенная для всех пар обучающих выборок в виде
Для упрощения записи в дальнейшем будем учитывать только одну обучающую выборку вследствие чего целевая функция принимает вид:
Такое упрощение ничем не ограничивает общность рассуждений, поскольку оно может означать обучение типа “онлайн”, при котором на вход сети каждый раз подается только один обучающий вектор. Предположим, что применяется самая общая форма гауссовской радиальной функции соответствующей сети HRBF, в которой
а матрица имеет произвольную структуру. Независимо от выбираемого метода градиентной оптимизации необходимо прежде всего получить
Рис. 5.8. (см. скан) Графы сети HRBF, используемые для генерации градиента: а) исходная сеть; б) сопряженная сеть
вектор градиента целевой функции относительно всех параметров сети.
расчета градиента будем использовать представленный в разделе 3 метод сопряженных графов, позволяющий определить любой компонент градиента на основе анализа исходного и сопряженного с ним графа сети, Граф сети HRBF с обозначенными на нем сигналами представлен на рис. 5.8.
В этой сети реализуются две нелинейные функции: квадратичен и показательная В сопряженном графе, соответствующем исходному графу, обе эти функции линеаризуются
относительно значений и определенных в точках решения исходной системы, так, как это представлено на рис. 5.8 6. Направления всех дуг Сопряженном графе противоположны их направлениям в исходном графе. В качестве источника возбуждения в сопряженном графе выступает разностный сигнал представляющий величину фактического рассогласования Конкретные составляющие градиента определяются непосредственно по формации об этих двух графах с использованием процедуры, описанной в разделе 3. Они принимают следующую форму:
где
Конкретизация компонентов градиента позволяет задействовать для подбор параметров любые градиентные методы оптимизации независимо от объект обучения - будь то вес либо центр с, либо коэффициент масштабирована Для обучения могут использоваться любые градиентные методы, представленные в разделе 3, а также любые способы подбора коэффициента обучена Главной проблемой, подлежащей разрешению, остается выбор начальны значений параметров. Если процесс обучения начинается со случайных значении то вероятность попадания в точки локальных минимумов, далеких от искомого решения, оказывается более высокой, чем для сигмоидальных сетей, из-за нелинейности показательных функций. По этой причине случайный выба начальных параметров радиальных функций применяется редко. Он заменяет! специальной процедурой инициализации, основанной на анализе информации содержащейся во множестве обучающих данных. Этой цели служа представленные в настоящем разделе алгоритмы самоорганизации, действ которых ограничивается несколькими циклами. Получаемые в результац значения параметров радиальных функций принимаются в качестве начальны
Стартовые величины весов подбираются, как правило, случайным образом, так же как и в типовом алгоритме обучения сигмоидальных сетей.