Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
2.2.4. Обсуждение алгоритма обратного распространенияАлгоритм обратного распространения, полученный на основе градиентного метода наискорейшего спуска, предназначен для поиска минимума ошибки, что приводит, однако, к поиску локального минимума или точки перегиба (плато), как показано на рис. 2.2.3. В идеальном случае должен отыскиваться глобальный минимум, представляющий собой нижнюю точку на всей области определения. Так как локальный минимум окружен более высокими точками, стандартный алгоритм обратного распространения обычно не пропускает локальных минимумов. Вид локального минимума не всегда представляет существенный интерес. Можно ожидать, что в ходе обучения в соответствии с алгоритмом обратного распространения ошибка сети будет сходиться к приемлемому значению, если обучающие образцы четко различимы. Чтобы избежать «ловушек» на локальных минимумах, можно изменять параметры обучения, количество скрытых слоев, начальные значения весов связей. Обычно эти методы разрабатываются так, чтобы попытаться изменить сценарий перемещения по участку, содержащему локальные минимумы и максимумы. Для поиска достаточно приемлемых значений параметров алгоритма обратного распространения в последнее время используется генетический алгоритм. Для вывода алгоритма обратного распространения, представленного в разделе 2.2.2, использована сигмоидная функция (2.2.5). Могут использоваться и другие функции активации. Если, например, использовать функцию вида:
то получим:
Таким образом, потребовалось только заменить выражения Следует отметить, что в практической ситуации обучения, когда желаемые выходы являются бинарными (т.е. представляют собой значения из множества
Рис. 2.2.3. Локальный минимум в алгоритме обратного распространения тенденцию к ускорению. При Другое свойство функции активации состоит в том, что нейронная сеть не может достигать предельных значений 0 и 1, если веса связей не являются бесконечно большими. Таким образом, в практической ситуации обучения, когда желаемые выходы являются бинарными Скорость обучения Другой проблемой является выбор количества скрытых узлов или скрытых слоев. Из регрессионного анализа известно, что если выбрать достаточно много видов описывающих переменных, то ошибка предсказания окажется небольшой. Пусть, например, для оценки линейной регрессии
где Если выбрать
Рис. 2.2.4. Явление избыточного подбора меньшего размера, даже если ошибка при этом оказывается не такой малой, как показано на рис. 2.2.4. На этом рисунке Е представляет кривую ошибки, полученную приточном обучении на наблюдаемых данных, а
|
1 |
Оглавление
|