5.5. Методы подбора количества базисных функций
Подбор количества базисных функций, каждой из которых соответствует один скрытый нейрон, считается основной проблемой, возникающей при корректном решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов, в числе которых размерность задачи, объем обучающих данных и прежде всего - пространственная структура аппроксимируемой функции. Как правило, количество базисных функций К составляет определенную долю от объема обучающих данных
причем фактическая величина этой доли зависит от размерности вектора х и от разброса ожидаемых значений
соответствующих входным векторам
для
.
5.5.1. Эвристические методы
Вследствие невозможности априорного определения точного количества скрытых нейронов применяются адаптивные методы, которые позволяют добавлять или удалять их в процессе обучения. Создано много эвристических методов, реализующих такие операции [10, 154]. Как правило, обучение сети, начинается при каком-либо изначально принятом количестве нейронов, а впоследствии контролируется как степень уменьшения среднеквадратичной погрешности, так и
изменение значений подбираемых параметров сети. Если среднее изменение значений весов после определенного числа обучающих циклов слишком мало
добавляются две базисные функций (2 нейрона) с центрами, соответствующими наибольшей и наименьшей погрешности адаптации, после чего обучение расширенной таким образом структуры продолжается. Одновременно контролируются абсолютные значения весов
всех отдельно взятых нейронов. Если они меньше установленного вначале порога
, соответствующие им нейроны подлежат удалению из сети. Как добавление нейронов, так и их удаление начинается после выполнения определенного количества обучающих циклов и может происходить в течение всего процесса обучения вплоть до достижения требуемой точности отображения.
Другой подход к управлению количеством скрытых нейронов предложил Дж. Платт в работе [130]. Это метод, объединяющий элементы самоорганизации и обучения с учителем. После предъявления каждой очередной обучающей выборки определяется эвклидово расстояние между ней и центром ближайшей существующей радиальной функции. Если это расстояние превышает порот
то создается центр новой радиальной функции (т.е. доставляется нейрон), после чего сеть подвергается стандартной процедуре обучения с использованием градиентных методов (обучение с учителем). Процесс добавления нейронов продолжается вплоть до достижения требуемого уровня погрешности отображения. Принципиально важным для этого метода считается подбор значения
в соответствии с которым принимается решение о расширении сети. Обычно
экспоненциально изменяется с течением времени (в зависимости от количества итераций) от значения
в начале процесса до
в конце его. Недостаток этого подхода состоит
невозможности уменьшения количества нейронов в процессе обработки информации даже тогда, когда в результате обучения какие-то из них дегенерируют (вследствие неудачного размещения центров) либо когда несколько нейронов начинают дублировать друг друга, выполняя одну и ту же функцию. Кроме того, этот метод очень чувствителен к подбору параметров процесса обучения, особенно значений и