8.3.3. Обучение с учетом момента
Практические реализации алгоритма обучения сети Эльмана строятся на методе наискорейшего спуска, усиленном моментом. Это значительно повышает эффективность обучения и вероятность достижения глобального минимума целевой функции. При использовании такого подхода уточнение вектора весов сети в момент выполняется в соответствии с формулой
где - это коэффициент момента, выбираемый из интервала . Первое слагаемое этого выражения соответствует обычному методу обучения, тогда как второе, учитывающее фактор момента, отражает последнее изменение весов и не зависит от фактического значения градиента. Чем больше величина а, тем большее влияние на подбор весов оказывает слагаемое момента. Его значение существенно возрастает на плоских участках целевой функции и около локального минимума, где значение градиента близко к нулю.
В окрестности локального минимума не связанный с градиентом фактор момента может вызвать изменение весов, ведущее к росту значения целевой функции и к выходу из зоны притяжения этого минимума с возобновлением поиска области, в которой целевая функция имеет меньшее значение. Фактор момента не может доминировать при уточнении весов, поскольку в этой ситуации
процесс обучения и, следовательно; поиска Минимума никогда бы не завершился. Обычно для управления процессом обучения вводится понятие допустимого прироста погрешности, например, 3%. В таком случае, если в итерации значение целевой функции удовлетворяет зависимости то шаг принимается и значения весов уточняются, в противном случае фактор момента игнорируется, и принимается Выбор оптимального значения коэффициента момента - это непростая задача. Для ее решения требуется провести значительное количество численных экспериментов, цель которых состоит в адаптации значения этого коэффициента к решаемой проблеме. Обычно удовлетворительным считается субоптимальное значение, которое обеспечивает достижение (хотя, возможно, и не самое быстрое) хороших показателей обучения.