Главная > Нейронные сети для обработки информации
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.5. Добавление шума в обучающие выборки

Представленные в предыдущих подразделах процедуры формирования сети позволяют улучшить ее способности к обобщению за счет воздействия на архитектуру сети. Это основной метод, обеспечивающий достижение требуемого уровня обобщения. Однако и после формирования стабильной и минимальной архитектуры сети возможно дальнейшее улучшение ее способностей за счет специальной подготовки множества обучающих выборок. Для хорошо натренированной сети становится актуальной задача выработки у выходных сигналов нечувствительности к вариациям входных величин при условии, что эти вариации находятся в определенных допустимых границах а сеть реализует монотонное отображение. Другими словами,

аналогичные входные сигналы должны вызывать аналогичные реакции даже в случае, если они не входили в состав обучающего множества.

Для математического обоснования такого требования рассмотрим многослойную сеть с большим количеством входови выходов. При обозначении вектора всех весов сети а векторов входных и выходных сигналов соответственно х и у можно определить вектору в общем виде как

либо сокращенно как где обозначен вектор, составленный из сигмоидальных функций активации выходных нейронов. Аргументом функции активации каждого нейрона является сумма весов, определяемая обычным способом, представленным в разделе 2.

Для последующих рассуждений введем различные обозначения обучающего и тестирующего входного вектора. Пусть обозначает обучающий, — тестирующий вектор. Решение задачи обучения, критерий которого определяется как минимизация целевой функции

позволяет оптимизировать значения весов с учетом множества только обучающих, но не тестирующих выборок.

Минимизация этой функции не может гарантировать правильную реакцию сети на возбуждение вектором который не был элементом множества обучающих данных. Для исследования чувствительности сети к небольшим вариациям обучающего вектора предположим, что тестирующий вектор незначительно отличается от Представим это отличие в виде

где обозначает вектор шума, составленный из случайных переменных с малой амплитудой. Можно считать, что в тестирующем векторе близком к соответствующему обучающему вектору содержите шум, который вызывает вариации выходного сигнала определяемы выражением

где обозначен якобиан векторной функции .

Для дальнейших рассуждений предположим, что вектор шума имеет математическое ожидание равное нулю, и среднеквадратичное отклонение , где Е обозначена единичная матрица размерностью а - ожидаемое статистическое значение. Символом будем обозначат относительную чувствительность сети

отражающую степень изменения значений выходных нейронов (вектор А у к), вызванного наличием шума (вектор в тестирующих выборках. Принимая во внимание зависимости (4.20) и (4.21), функцию чувствительности можно представить в виде

С учетом принятых допущений относительно величин математического ожидания и среднеквадратичного отклонения шума [97] упростим выражение (4.23) и приведем его к виду

где означает норму Фробениуса матрицы,

Очевидно, что чем меньше чувствительность тем слабее реагирует сеть на "возмущения" входного вектора х по отношению к соответствующему обучающему вектору поэтому способность сети к обобщению усиливается. Фактор чувствительности может учитываться на стадии обучения сети. Для этого целевая функция должна быть модифицирована. Если определить ее в форме взвешенной суммы

где - весовой коэффициент, то получим

Вместо минимизации модифицированной целевой функции можно принять, что отношение определяет среднеквадратичное отклонение некоторого шума, образующего вектор с нулевым ожидаемым значением или В этом случае целевую функцию удается преобразовать к виду [97]

Выражение, которым определяется модифицированная целевая функция, имеет форму, идентичную стандартному представлению (4.19), с той разницей, что вместо входного вектора х используется зашумленный вектор В итоге

при минимизации этой функции учитывается не только слагаемое (4.19), но также и фактор чувствительности определяемый выражением (4.24). Следовательно, в процессе обучения должны приниматься во внимание характерные для тестовых последовательностей выборки, по которым и подбираются оптимальные значения весов. Это подтверждает вывод, что при зафиксированной архитектуре сети ее способности к обобщению можно дополнительно улучшить.

Подбор среднеквадратичного отклонения шума, при котором действительно можно повысить качество обобщения, представляет собой самостоятельную задачу. Ее теоретическое решение весьма сложно, однако относительно просто получить экспериментальную оценку. По результатам многочисленных тестов можно утверждать, что среднеквадратичное отклонение шума должно коррелировать с фактическим распределением разности между обучающими (незашумленными) выборками и тестовыми данными и составлять небольшой процент от нее.

1
Оглавление
email@scask.ru