принимает вид выпуклой кривой (рис. 3.8 о), единственный минимум которой можно легко рассчитать при любых начальных условиях обучения. Переход к сигмоидальной функции активации принципиально меняет форму целевой функции. Эта ситуация демонстрируется на рис. 3.8 6, причем сигмоидальная функция активации задана в виде гиперболического тангенса. На графике видны многочисленные плоские участки и множество локальных минимумов, которые осложняют процесс обучения и представляют собой ловушки на пути к глобальному минимуму, в котором целевая функция принимает наименьшее значение.
Хотя графики целевой функции, представленные на рис. 3.8, относятся к простейшей однонейронной сети, они хорошо иллюстрируют проблемы, создаваемые нелинейностью функции активации. Увеличение размеров сети создает еще большие сложности, поскольку количество локальных минимумов также возрастает.
Все представленные ранее методы обучения нейронных сетей являются локальными. Они ведут к одному из локальных минимумов целевой функции, лежащему в окрестности точки начала обучения. Только в ситуации, когда значение глобального минимума известно, удается оценить, находится ли найденный локальный минимум в достаточной близости от искомого решения. Если локальное решение признается неудовлетворительным, следует повторить процесс обучения при других начальных значениях весов и с другими управляющими параметрами. Можно либо проигнорировать полученное решение и начать обучение “с чистого листа” при новых (как правило, случайных) значениях весов, либо изменить случайным образом найденное локальное решение и продолжить обучение сети. Последняя методика, имеющая английское название “jog of weights” (встряхивание весов), представляется вполне разумной, поскольку ее применение позволяет использовать полученные ранее результаты обучения [72].
Случайное приращение весов соответствует переходу из точке локального минимума в иную точку пространства целевой функции. Вследствие случайного характера таких приращений переход в новую точку связан с определенной вероятностью того, что возобновление процесса обучения выведет поиск из “сферы притяжения” локального минимума. Случайный выбор значений весов, применяемый как в начале обучения, так и для вывода решения из зоны локального минимума, играет роль стохастического алгоритма, взаимодействующего с детерминированным алгоритмом обучения сети. Однако возмущение весов, вызванное добавлением случайных поправок к ранее найденному решению, не вызывает длительной потери предыдущих результатов обучения. Сеть проявляет интересную способность “запоминания” наилучших результатов и после кратковременной амнезии быстро восстанавливается, а затем и (чаще всего) улучшает предыдущие показатели.

(кликните для просмотра скана)
При решении реальных как технических, так и экономических задач в общем случае даже приблизительная оценка глобального минимума оказывается неизвестной. По этой причине возникает необходимость применения методов глобальной оптимизации. Из множества разработанных в этой области подходов выберем и подробно рассмотрим два: метод имитации отжига и генетические алгоритмы [41, 149].