4.2.3. Методы редукции сети с использованием штрафной функции
Другой метод редукции весов основан на такой организации процесса обучения, которая провоцирует самостоятельное уменьшение значений весов и в результате позволяет исключить те из них, величина которых опускается ниже установленного порога. В отличие от методов учета чувствительности в обсуждаемых методах сама целевая функция модифицируется таким образом, чтобы в процессе обучения значения весов минимизировались автоматически вплоть до достижения определенного порога, при пересечении которого значения соответствующих весов приравниваются к нулю.
Простейший метод модификации целевой функции предусматривает добавление в нее слагаемого, штрафующего за большие значения весов:
В этой формуле
означает стандартно определенную целевую функцию, заданную, например, в виде эвклидовой нормы, а у - коэффициент штрафа за достижение весами больших значений. При этом каждый цикл обучения складывается из двух этапов: минимизации величины функции
стандартным методом обратного распространения и коррекции значений весов, обусловленной модифицирующим фактором. Если значение веса
после первого этапа обозначить
то в результате коррекции этот вес будет модифицирован по градиентному методу наискорейшего спуска согласно формуле
где
обозначает константу обучения. Определенная таким образом штрафная функция вызывает уменьшение значений всех весов даже тоща, когда с учетом специфики решаемой задачи отдельные веса должны иметь большие значения. Уровень значений, при котором вес может быть отсечен, должен подбираться с особой тщательностью на основе многочисленных экспериментов, указывающих, при каком пороге отсечения процесс обучения сети подвергается наименьшим возмущениям.
Более приемлемые результаты, не вызывающие уменьшения значений всех весов, можно получить модификацией представления целевой функции в форме
Минимизация этой функции вызывает не только редукцию межнейронных связей, но может также привести к исключению тех нейронов, для которых величина близка к нулю. Легко доказать, что правило коррекции весов в этом случае может быть задано выражением
При малых значениях весов
подходящих к
нейрону, происходит дальнейшее их уменьшение. Это ведет к ослаблению выходного сигнала до нуля и в итоге к исключению его из сети. При больших значениях весов, ведущих к
нейрону, их коррекционная составляющая исчезающе мала и очень слабо влияет на процесс редукции сети.
Другой способ минимизации сети основан на такой модификации целевой функции, которая позволяет исключать скрытые нейроны, в наименьшей степени изменяющие свою активность в процессе обучения. При этом учитывается, что если выходной сигнал какого-либо нейрона при любых обучающих выборках остается неизменным (на его выходе постоянно вырабатывается 1 или 0), то его присутствие в сети излишне. И напротив, при высокой активности нейрона считается, что его функционирование дает важную информацию. И. Шовен в [7] предложил следующую модификацию целевой функции:
В этом выражении
означает изменение значения выходного сигнала
нейрона для
обучающей выборки, а
- это корректирующий фактор целевой функции, зависящий от активности всех К скрытых нейронов для всех
обучающих выборок. Коэффициент
определяет степень относительного влияния корректирующего фактора на значение целевой функции. Вид корректирующей функции подбирается так, чтобы изменение целевой функции зависело от активности скрытого нейрона, причем при высокой его активности (т.е. частых изменениях значения выходного сигнала) величина
должна быть малой, а при низкой активности - большой. Это достигается применением функции
удовлетворяющей отношению
Индекс
позволяет управлять процессом штрафования за низкую активность. При
функция
принимает вид:
Малая активность нейронов карается сильнее, чем высокая, что в результате может привести к полному исключению пассивных нейронов из сети.
Оба подхода к редукции сети, основанные как на учете чувствительности, так и на модификациях целевой функции, ведут к минимизации количества весов и нейронов сети, уменьшая таким образом уровень ее сложности и улучшая
соотношение между количеством обучающих выборок и мерой
. В итоге возрастает способность сети к обобщению.