Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
4.2.2. Методы редукции сети с учетом чувствительностиРедукция сети производится для уменьшения количества скрытых нейронов межнейронных связей. Поскольку каждый скрытый нейрон представляет гиперплоскость, разделяющую множество данных на кластеры, редукция сети упрощает такое разделение и усиливает способность к обобщению. Простейшим критерием редукции считается учет величины весов. Веса, которые значительно меньше средних, оказывают незначительное влияние на общий уровень выходного сигнала связанного с ними нейрона. Поэтому их можно отсечь без существенного вреда для его функционирования. Однако в некоторых случаях малые значения весов не обязательно оказывают наименьшее воздействие на поведение нейрона. В таких ситуациях их отсечение может привести к серьезным изменениям в работе сети. Поэтому лучшим критерием следует признать учет чувствительности сети к вариациям весов. Без серьезных последствий для сети из нее могут быть исключены только те носа, чувствительность к изменениям которых оказывается минимальной. Такой подход к проблеме отсечения весов может быть обоснован разложением целевой функции в ряд Тейлора. В соответствии с ним изменение величины целевой функции, вызванное вариацией весов, можно выразить формулой
в которой Не рекомендуется отсекать веса в процессе обучения, поскольку низкая чувствительность сети к конкретному весу может быть связана с его текущим значением либо с неудачно выбранной начальной точкой (например, при застревании нейрона в зоне глубокого насыщения). Рекомендуется отсекать веса (проводить регуляризацию сети) только по завершении процесса обучения, когда все нейроны обретут свои постоянные характеристики. Это исключает применение градиента в качестве показателя чувствительности, поскольку минимум целевой функции характеризуется нулевым значением градиента. Поэтому в качестве показателя важности конкретных весов приходится использовать вторые производные целевой функции (элементы гессиана). Одним из лучших способов регуляризации сети считается метод, предложенный ЛеКуном [84]. Он называется OBD (англ.: Optimal Brain Damage). Исходная позиция этого метода - разложение целевой функции в ряд Тейлора в окрестности текущего решения. Для упрощения задачи ЛеКун при использовании метода OBD исходит из того, что вследствие положительной определенности гессиана матрица Н является диагонально доминирующей. Поэтому можно учитывать только диагональные элементы
Отсечение весов с наименьшими значениями показателя 1. Полное предварительное обучение сети выбранной структуры 2. Определение диагональных элементов гессиана 3. Сортировка весов в порядке убывания приписанных им параметров 4. Возврат к п. 1 для обучения сети с редуцированной структурой и повторение процесса отсечения вплоть до исключения всех весов, оказывающих наименьшее влияние на величину целевой функции. Метод OBD считается одним из лучших способов редукции сети среди методов учета чувствительности. Его применение обеспечивает достижение сетью высокого уровня обобщения, лишь незначительно отличающегося от уровня погрешности обучения. Особенно хорошие результаты дает повторное обучение сети после отсечения наименее значимых весов. В качестве примера рассмотрим реализацию этого метода для регуляризации персептронной сети, использованной авторами [123] для прогнозирования перегрузок в Польской энергетической системе. На рис. 4.7а представлена исходная структура сети, а на рис. 4.76 - структура сети после регуляризации по методу OBD. В результате отсечения весов из состава сети были исключены три скрытых нейрона и ряд взвешенных связей, подходивших к оставшимся нейронам. Из 201 веса оригинальной сети (рис. 4.7а) была исключена почти треть (62 веса). Решения об отсечении принимались по результатам анализа коэффициентов асимметрии Дальнейшим развитием метода OBD считается метод OBS (англ.: Optimal Brain Surgeon), предложенный Б. Хассиби и Д. Шторком тремя годами позднее [45]. Отправная точка этого метода (так же как и в OBD) - разложение целевой функции в ряд Тейлора и игнорирование членов первого порядка. В этом методе учитываются все компоненты гессиана, а коэффициент асимметрии веса определяется в виде (для избавления от четверных индексов вес
Отсечению подвергается вес с наименьшим значением
где (кликните для просмотра скана) очередного веса и заменяет повторное обучение сети, необходимое при использовании метода OBD. Процедуру OBS регуляризации сети можно описать в следующем виде [45]: 1. Обучение нейронной сети предварительно отобранной структуры вплоть до отыскания минимума целевой функции. 2. Расчет обратной гессиану матрицы 3. Коррекция значений весов, оставшихся в сети после отсечения Основное отличие метода OBS от OBD, помимо другого определения коэффициента асимметрии, состоит в коррекции весов после отсечения наименее важного веса без повторного обучения сети. В методе OBS всякий раз отсекается только один вес, тогда как при использовании OBD можно на каждом шаге отсекать произвольное количество весов. Вычислительная сложность метода OBS гораздо выше. Расчет диагональных элементов гессиана в нем заменяется расчетом полной матрицы и обратной ей формы. На практике этот этап можно значительно упростить при использовании аппроксимированной формы матрицы, обратной гессиану, определяемой, например, методом переменной метрики. Однако такое упрощение вызывает снижение точности расчетов и несколько ухудшает качество искомого решения.
Рис. 4.8. Графики изменения значений коэффициента асимметрии весов (кривая х) и функции погрешности (кривая +) для различного количества весов нейронной сети, упорядоченные по возрастанию значений весов. Вертикальная прямая указывает предлагаемое количество отсекаемых весов
|
1 |
Оглавление
|