Главная > Нейронные сети для обработки информации
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

Раздел 5. РАДИАЛЬНЫЕ НЕЙРОННЫЕ СЕТИ

Многослойные нейронные сети, представленные в предыдущих разделах, с точки зрения математики выполняют аппроксимацию стохастической функции нескольких переменных путем преобразования множества входных переменных во множество выходных переменных 56]. Вследствие характера сигмоидальной функции активации осуществляется аппроксимация глобального типа. В результате ее нейрон, который был однажды включен (после превышения суммарным сигналом и,- определенного порогового значения), остается в этом состоянии при любом значении превышающем этот порог. Поэтому всякий раз преобразование значения функции в произвольной точке пространства выполняется объединенными усилиями многих нейронов, что и объясняет название глобальная аппроксимация.

Другой способ отображения входного множества в выходное заключается в преобразовании путем адаптации нескольких одиночных аппроксимирующих функций к ожидаемым значениям, причем эта адаптация проводится только в ограниченной области многомерного пространства. При таком подходе отображение всего множества данных представляет собой сумму локальных преобразований. С учетом роли, которую играют скрытые нейроны, они составляют множество базисных функций локального типа. Выполнение одиночных функций (при ненулевых значениях) регистрируется только в ограниченной области пространства данных - отсюда и название локальная аппроксимация.

Особое семейство образуют сети с радиальной базисной функцией, в которых скрытые нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра и принимающие ненулевые значения только в окрестности того центра. Подобные функции, определяемые в виде будем называть радиальными базисными функциями. В таких сетях роль скрытого нейрона заключается в отображении радиального пространства вокруг одиночной заданной точки либо вокруг группы таких точек, образующих кластер. Суперпозиция сигналов, поступающих от всех скрытых нейронов, которая выполняется выходным нейроном, позволяет получить отображение всего многомерного пространства.

Сети радиального типа представляют собой естественное дополнение сигмоидальных сетей. Сигмоидальный нейрон представляется в многомерном пространстве гиперплоскостью, которая разделяет это пространство на две

категории (два класса), в которых выполняется одно из двух условий: либо либо Такой подход продемонстрирован на рис. 5.1 а. В свою очередь радиальный нейрон представляет? собой гиперсферу, которая осуществляет шаровое разделение пространства вокруг центральной точки (рис. 5.16). Именно с этой точки зрения он является естественным дополнением сигмоидального нейрона, поскольку в случае круговой симметрии данных позволяет заметно уменьшить количество нейронов, необходимых для разделения различных классов.

Рис. 5.1. Иллюстрация способов разделения пространства данных: а) сигмоидальным нейроном; б) радиальным нейроном

Поскольку нейроны могут выполнять различные функции, в радиальных сетях отсутствует необходимость использования большого количества скрытых слоев. Структура типичной радиальной сети включает входной слой, на который подаются сигналы, описываемые входным вектором х, скрытый слой с нейронами радиального типа и выходной слой, состоящий, как правило, из одного или нескольких линейных нейронов. Функция выходного нейрона сводится исключительно к взвешенному суммированию сигналов, генерируемых скрытыми нейронами.

5.1. Математические основы

Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера [20] о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.

Если вектор радиальных функций в -мерном входном пространстве обозначить то это пространство является нелинейно -разделяемым на два пространственных класса тогда, когда существует такой вектор весов и», что

Граница между этими классами определяется уравнением .

В [20] доказано, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является разделяемым с вероятностью 1 при условии соответственно большой размерности К этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором

Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении различных входных векторов из входного -мерного пространства во множество из рациональных чисел Для реализации этого процесса необходимо использовать скрытых нейронов радиального типа и задать такую функцию отображения для которой выполняется условие интерполяции

Использование скрытых нейронов, соединяемых связями с весами с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом и обучающими парами Примем, что координаты каждого из центров узлов сети определяются одним из векторов т.е. В этом случае взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов которая в матричной форме имеет вид:

определяет радиальную функцию с центром в точке с вынужденным вектором Если обозначить матрицу из элементов как ввести обозначения векторов система уравнений (5.4) может быть представлена в редуцированной матричной форме

В [20] доказано, что для ряда радиальных функций в случае квадратная интерполяционная матрица Ф является несобственной и при этом неотрицательно определенной. Поэтому существует решение уравнения (5.5) в виде

что позволяет получить вектор весов выходного нейрона сети.

Теоретическое решение проблемы, представленное выражением не может считаться абсолютно истинным по причине серьезного ограничения общих свойств сети, вытекающих из сделанных вначале допущений. При очень большом количестве обучающих выборок и равном ему количестве радиальных функций проблема с математической точки зрения становится бесконечной (плохо структурированной), поскольку количество уравнений начинает превышать число степеней свободы физического процесса, моделируемого уравнением (5.4). Это означает, что результатом такого чрезмерного количества весовых коэффициентов станет адаптация модели к разного рода шумам или нерегулярностям, сопровождающим обучающие выборки. Как следствие, интерполирующая эти данные гиперплоскость не будет гладкой, а обобщающие возможности останутся очень слабыми, Чтобы их усилить, следует уменьшить количество радиальных функций и получитъ из избыточного объема данных дополнительную информацию для регуляризации задачи и улучшения ее обусловленности.

Categories

1
Оглавление
email@scask.ru