9.1.3. Проблема мертвых нейронов
При инициализации весов сети случайным способом часть нейронов может оказаться в области пространства, в которой отсутствуют данные или их количество ничтожно мало. Эти нейроны имеют мало шансов на победу и адаптацию своих весов, поэтому они остаются мертвыми. Таким образом, входные данные будут интерпретироваться меньшим количеством нейронов (мертвые нейроны не принимают участие в анализе), а погрешность интерпретации данных, иначе называемая погрешностью квантования, увеличится. Поэтому важной проблемой становится активация всех нейронов сети.
Такую активацию можно осуществить, если в алгоритме обучения предусмотреть учет количества побед каждого нейрона, а процесс обучения организовать так, чтобы дать шанс победить и менее активным нейронам. Идея такого подхода к обучению возникла при наблюдении за поведением биологических нейронов. Отмечен факт, что нейрон-победитель сразу после победы на некоторое время теряет активность, “отдыхая” перед следующим этапом конкурентной борьбы [143]. Такой способ учета активности нейронов будет называться в дальнейшем механизмом утомления.
Существуют различные механизмы учета активности нейронов в процессе обучения. Часто используется метод подсчета потенциала
каждого нейрона, значение которого модифицируется всякий раз после представления очередной реализации входного вектора
в соответствии со следующей формулой (в ней предполагается, что победителем стал w-й нейрон):
Значение коэффициента
определяет минимальный потенциал, разрешающий участие в конкурентной борьбе. Если фактическое значение потенциала
падает ниже
нейрон “отдыхает”, а победитель ищется среди нейронов, для которых выполняется отношение
для
Максимальное значение потенциала ограничивается на уровне, равном 1. Выбор конкретного значения
позволяет установить порог готовности нейрона к конкурентной борьбе. При
утомляемость нейронов не возникает, и каждый из них сразу после победы будет готов к продолжению
соперничества (стандартный алгоритм Кохонена). При
возникает другая крайность, вследствие которой нейроны побеждают по очереди, так как в каждый момент только один из них оказывается готовым к соперничеству. На практике хорошие результаты достигаются, когда
В другом очень удачном алгоритме обучения количество побед нейрона учитывается при подсчете эффективного расстояния между вектором весов и реализацией обучающего вектора х. Это расстояние модифицируется пропорционально количеству побед данного нейрона в прошлом. Если обозначить количество побед
нейрона
такую модификацию можно представить в виде
Активные нейроны с большим значением
штрафуются искусственным завышением этого расстояния. Следует обратить внимание, что модификация расстояния производится только при выявлении победителя. В момент уточнения весов учитывается фактическое расстояние. Модификация этой характеристики имеет целью активизировать все нейроны путем введения их в область с большим количеством данных. После решения этой задачи (обычно после двух или трех циклов обучения) модификация прекращается, что позволяет продолжить “честную” конкуренцию нейронов [139].