4.2.2. Методы редукции сети с учетом чувствительности

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

4.2.2. Методы редукции сети с учетом чувствительности

Редукция сети производится для уменьшения количества скрытых нейронов межнейронных связей. Поскольку каждый скрытый нейрон представляет гиперплоскость, разделяющую множество данных на кластеры, редукция сети упрощает такое разделение и усиливает способность к обобщению.

Простейшим критерием редукции считается учет величины весов. Веса, которые значительно меньше средних, оказывают незначительное влияние на общий уровень выходного сигнала связанного с ними нейрона. Поэтому их можно отсечь без существенного вреда для его функционирования.

Однако в некоторых случаях малые значения весов не обязательно оказывают наименьшее воздействие на поведение нейрона. В таких ситуациях их отсечение может привести к серьезным изменениям в работе сети. Поэтому лучшим критерием следует признать учет чувствительности сети к вариациям весов. Без

серьезных последствий для сети из нее могут быть исключены только те носа, чувствительность к изменениям которых оказывается минимальной.

Такой подход к проблеме отсечения весов может быть обоснован разложением целевой функции в ряд Тейлора. В соответствии с ним изменение величины целевой функции, вызванное вариацией весов, можно выразить формулой

в которой означает вариацию веса, составляющую вектора градиента относительно этого веса, - это элементы гессиана,

Не рекомендуется отсекать веса в процессе обучения, поскольку низкая чувствительность сети к конкретному весу может быть связана с его текущим значением либо с неудачно выбранной начальной точкой (например, при застревании нейрона в зоне глубокого насыщения). Рекомендуется отсекать веса (проводить регуляризацию сети) только по завершении процесса обучения, когда все нейроны обретут свои постоянные характеристики. Это исключает применение градиента в качестве показателя чувствительности, поскольку минимум целевой функции характеризуется нулевым значением градиента. Поэтому в качестве показателя важности конкретных весов приходится использовать вторые производные целевой функции (элементы гессиана).

Одним из лучших способов регуляризации сети считается метод, предложенный ЛеКуном [84]. Он называется OBD (англ.: Optimal Brain Damage). Исходная позиция этого метода - разложение целевой функции в ряд Тейлора в окрестности текущего решения. Для упрощения задачи ЛеКун при использовании метода OBD исходит из того, что вследствие положительной определенности гессиана матрица Н является диагонально доминирующей. Поэтому можно учитывать только диагональные элементы и игнорировать все остальные. В качестве меры значимости веса в методе OBD используется показатель называемый коэффициентом асимметрии (англ.: saliency), который определяется в виде [84]

Отсечение весов с наименьшими значениями показателя не вызовет существенных изменений в процессе функционирования сети. Процедуру OBD редукции сети можно описать в следующем виде:

1. Полное предварительное обучение сети выбранной структуры использованием любого алгоритма.

2. Определение диагональных элементов гессиана соответствующих каждому весу, и расчет значений параметра Им характеризующего значимость каждой синаптической связи для сети в целом.

3. Сортировка весов в порядке убывания приписанных им параметров и отсечение тех из них, которые имеют наименьшие значения.

4. Возврат к п. 1 для обучения сети с редуцированной структурой и повторение процесса отсечения вплоть до исключения всех весов, оказывающих наименьшее влияние на величину целевой функции.

Метод OBD считается одним из лучших способов редукции сети среди методов учета чувствительности. Его применение обеспечивает достижение сетью высокого уровня обобщения, лишь незначительно отличающегося от уровня погрешности обучения. Особенно хорошие результаты дает повторное обучение сети после отсечения наименее значимых весов.

В качестве примера рассмотрим реализацию этого метода для регуляризации персептронной сети, использованной авторами [123] для прогнозирования перегрузок в Польской энергетической системе. На рис. 4.7а представлена исходная структура сети, а на рис. 4.76 - структура сети после регуляризации по методу OBD. В результате отсечения весов из состава сети были исключены три скрытых нейрона и ряд взвешенных связей, подходивших к оставшимся нейронам. Из 201 веса оригинальной сети (рис. 4.7а) была исключена почти треть (62 веса). Решения об отсечении принимались по результатам анализа коэффициентов асимметрии рассчитанных для всех весов сети. На рис. 4.8 приведен [рафик распределения значений этих коэффициентов, упорядоченных в порядке их возрастания. Процесс отсечения весов состоял из трех фаз. На первой фазе было исключено 38 весов, на второй - 16 и на третьей - 8. После каждой фазы отсечения обучение сети повторялось. Применение процедуры OBD позволило уменьшить погрешность обобщения на

Дальнейшим развитием метода OBD считается метод OBS (англ.: Optimal Brain Surgeon), предложенный Б. Хассиби и Д. Шторком тремя годами позднее [45]. Отправная точка этого метода (так же как и в OBD) - разложение целевой функции в ряд Тейлора и игнорирование членов первого порядка. В этом методе учитываются все компоненты гессиана, а коэффициент асимметрии веса определяется в виде (для избавления от четверных индексов вес обозначается одиночным индексом как

Отсечению подвергается вес с наименьшим значением Дополнительный результат такого подхода заключается в несложной формуле коррекции оставшихся весов, позволяющей вернуть сеть в состояние, соответствующее минимуму целевой функции, несмотря на отсечение веса. Уточнение значений оставшихся (неотсеченных) весов выполняется согласно выражению [45]

где означает единичный вектор с единицей в позиции, т.е. Коррекция выполняется после отсечения каждого

(кликните для просмотра скана)

очередного веса и заменяет повторное обучение сети, необходимое при использовании метода OBD. Процедуру OBS регуляризации сети можно описать в следующем виде [45]:

1. Обучение нейронной сети предварительно отобранной структуры вплоть до отыскания минимума целевой функции.

2. Расчет обратной гессиану матрицы и выбор веса имеющего наименьшее значение показателя Если изменение величины целевой функции в результате отсечения этого веса намного меньше значения Е, вес отсекается и осуществляется переход к п. 3, в противном случае отсечение завершается.

3. Коррекция значений весов, оставшихся в сети после отсечения веса, в соответствии с формулой (4.8) с последующим возвратом к п. 2. Процесс продолжается вплоть до отсечения всех мало значащих весов.

Основное отличие метода OBS от OBD, помимо другого определения коэффициента асимметрии, состоит в коррекции весов после отсечения наименее важного веса без повторного обучения сети. В методе OBS всякий раз отсекается только один вес, тогда как при использовании OBD можно на каждом шаге отсекать произвольное количество весов. Вычислительная сложность метода OBS гораздо выше. Расчет диагональных элементов гессиана в нем заменяется расчетом полной матрицы и обратной ей формы. На практике этот этап можно значительно упростить при использовании аппроксимированной формы матрицы, обратной гессиану, определяемой, например, методом переменной метрики. Однако такое упрощение вызывает снижение точности расчетов и несколько ухудшает качество искомого решения.

Рис. 4.8. Графики изменения значений коэффициента асимметрии весов (кривая х) и функции погрешности (кривая +) для различного количества весов нейронной сети, упорядоченные по возрастанию значений весов. Вертикальная прямая указывает предлагаемое количество отсекаемых весов

<< Предыдущий параграф

Следующий параграф >>

Оглавление