Главная > Нейронные сети для обработки информации
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.5.2. Метод ортогонализации Грэма-Шмидта

Наиболее эффективным методом управления количеством скрытых нейронов остается применение специальной технологии обучения сети, основанной на методе ортогонализации наименьших квадратов, использующем классический алгоритм ортогонализации Грэма-Шмидта [8]. Отправная точка этого метода представление задачи обучения в виде линейной адаптации вектора весов сети направленной на минимизацию значения вектора погрешности е. Для обучающих выборок вектор ожидаемых значений имеет вид: При использовании К базисных функций и обучающих пар реакции скрытых нейронов образуют матрицу вида

в которой обозначает реакцию радиальной функции на обучающую выборку, . Если вектор реакций радиальной функции на все обучающие выборки обозначить то матрицу можно представить в форме

При таких обозначениях на каждом этапе обучения будет выполняться линейное равенство

где - вектор весов, а - вектор фактической погрешности обучения. Квадрат произведения соответствует ожидаемой энергии, исходящей от сигналов, задаваемых вектором которая и подвергается максимизации в процессе обучения.

Метод ортогонализации наименьших квадратов основан на преобразовании векторов во множество базисных ортогональных векторов, позволяющее оценить индивидуальный вклад каждого из них в общую энергию, представляемую произведением Это в свою очередь позволяет удалить те векторы, влияние которых на процесс оказывается минимальным.

В процессе обучения матрица раскладывается на произведение матрицы с ортогональными столбцами на верхнетреугольную матрицу с единичными диагональными значениями:

где

а матрица соответствует условию

При этом Н - диагональная матрица с элементами Решение зависимости (5.50) методом наименьших квадратов может быть спроецировано в пространство, образуемое ортогональными векторами Если ввести новую векторную переменную определенную как

то из уравнения (5.50) получим:

Приближенное решение уравнения (5.53) (обозначаемое символом методом наименьших квадратов имеет вид:

Принимая во внимание диагональный характер матрицы Н, можно получить формулу, описывающую компонент вектора

Решение, определяющее вектор весов находится непосредственно из зависимости (5.52), которую можно переписать в форме

С зачетом треугольной структуры матрицы А вычислительная сложность решения уравнения (5.56) относительно вектора невелика.

Ортогонализация матрицы описанная выражением (5.51), может быть проведена различными методами, наиболее эффективным из которых считается алгоритм Грэма-Шмидта. В соответствии с этим методом матрица А формируется последовательно, столбец за столбцом с одновременным формированием очередных столбцов ортогональной матрицы На шаге создается столбец ортогональный ко всем созданным ранее столбцам Процедура повторяется для значений Математическая модель этой операции имеет вид:

для Многократно повторенная процедура ортогонализации позволяет сформировать все ортогональные векторы и матрицу А, на основе которых можно получить методом наименьших квадратов приближенное решение (уравнение (5.54)), а в дальнейшем из решения треугольной системы уравнений (5.56) найти вектор

Однако важнейшим достоинством описываемого метода ортогонализации считается возможность селекции векторов с учетом их важности для отображения обучающих данных. В случае априори определенного количества

К радиальных функций задача заключается в такой расстановке векторов чтобы отобрать из них первые наиболее значимые в энергетическом плане, при этом, как правило, Использование в дальнейших вычислениях только радиальных функций означает сокращение количества скрытых нейронов с начального их числа К до Принимая во внимание энергию сигналов, описываемых вектором в соответствии с выражением (5.53) получаем

Если принять, что вектор ожидаемых реакций имеет нулевое среднее значение, то произведение может интерпретироваться как средний вклад, приходящийся на одну обучающую выборку вектора соответствующего базисной функции. Относительная доля этого составляющего в общем энергетическом балансе может быть определена по формуле

для Расчет значений для всех базисных функций дает возможность оценить их важность для функционального отображения обучающих данных, что упрощает принятие решения о ликвидации тех, чей вклад оказывается наименьшим. После отбора наиболее значимой радиальной функции процесс ортогонализации повторяется для получения нового решения и выбора следующей по значимости радиальной функции. При фиксации начальной величины после многократного повторения ортогонализации Грэма-Шмидта можно отобрать наиболее значащих базисных функций и исключить остальные. Таким образом количество скрытых нейронов уменьшается от начального числа К до Алгоритм отбора наиболее значимых базисных функций выглядит следующим образом [8]:

1. На первом этапе для рассчитать

Предполагается, что для а вектор

2. На следующих этапах для следует провести очередные циклы ортогонализации:

а также оценить влияние очередных радиальных функций на суммарное значение энергетической функции путем расчета:

Если наибольший вклад радиальной функции в общую энергию обозначить т.е.

для тогда очередной выделенный вектор будет соответствовать радиальной функции со следующим по важности вкладом в общую энергию. Этот вектор определяется выражением

в котором коэффициент для

3. Процедура выявления наиболее значимых для отображения радиальных функций завершается на этапе в момент выполнения условия

где - это заранее установленный порог толерантности.

В результате выполнения процедуры в сети остается только наиболее значимых радиальных функций, расположенных в ранее определенных центрах (например, путем самоорганизации). Одновременно при реализации алгоритма вычисляются конкретные составляющие вектора на основе которых по формуле (5.52) находятся значения весов выходного слоя сети.

Геометрическая интерпретация представленной процедуры ортошнализации достаточно проста. На этапе выполнения алгоритма размерность базисного пространства увеличивается на единицу, с , за счет введения дополнительной базисной функции. Вводя всякий раз наиболее значимую базисную функцию, мы получаем оптимальный их набор, что позволяет получить наилучшие результаты обучения.

Толерантность определяющая момент завершения процесса обучения, - это важный фактор, от которого зависит, с одной стороны, точность отображения обучающих данных, а с другой стороны, - уровень сложности нейронной сети. Во многих случаях ее значение можно оценить на основе статистического анализа

обучающих данных и фактических успехов в обучении. С методами подбора оптимальных значений можно ознакомиться в [8].

Еще одно достоинство процесса ортогонализации - возможность избежать неудачной комбинации параметров процесса обучения. Выполнение условия означает, что соответствующий вектор является линейной комбинацией векторов Поэтому если в процессе ортогонализации произведение меньше, чем заданное (пороговое) значение, то функцию можно не включать во множество базисных функций.

1
Оглавление
email@scask.ru