2.2.2. Вывод алгоритма обратного распространения
Вывод строится на основе одного из градиентных методов, например метода наискорейшего спуска. Здесь показан процесс адаптации весов связей между слоями в многослойной нейронной сети. Зададим сначала функцию ошибки и критерий адаптации весов, пропорциональный отношению производной меры ошибки к каждому из весов. Получим сначала алгоритм обратного распространения для конкретного образа
т.е. найдем минимизирующую последовательность
Для простоты будем опускать индекс
Тогда
2.2.2.1. Правило для выходного слоя
В соответствии с методом наискорейшего спуска
где
— необходимое изменение веса связи
т.е.
Такое изменение показано на рис. 2.2.2. Следует обратить внимание, что метод наискорейшего спуска может сходиться к локальному минимуму, как показано на рис. 2.2.3. Поэтому возьмем
где
— скорость обучения.
Введем величину обобщенного сигнала ошибки
задаваемую выражением
Затем, используя известное цепное правило, получим:
Это означает, что выражение может быть представлено как произведение двух членов. Один из них представляет собой изменение ошибки в зависимости от изменения входного сигнала сети, а второй — влияние конкретного веса связи на входной сигнал сети. Из выражения (2.2.2) получим:
Рис. 2.2.2. (см. скан) Принцип работы метода наискорейшего спуска
откуда
Для вычисления множителя
применим цепное правило. Используя его, получим:
Таким образом, выражение
представляет собой произведение двух членов. Первый из них отражает изменение ошибки по отношению к выходу элемента, а второй — изменение выхода по отношению к изменению входа сети. Из уравнения (2.2.8) получим:
а из выражения (2.2.1) -
где
— производная от
по х.
Из выражения (2.2.5) получим:
откуда
Таким образом, имеем: