Метод Ньютона для многомерного пространства
Выше показано, что если имеется один весовой коэффициент и рабочая функция является квадратичной, то методом Ньютона оптимальный весовой коэффициент w находится за один шаг. Расширим понятие метода Ньютона на случай с многими весовыми коэффициентами, определив его как метод, который приводит к оптимальной квадратичной рабочей функции за один шаг.
Напомним, что в соответствии с (2.17) оптимальный вектор весовых коэффициентов задается соотношением
Рис. 4.5. Аппроксимация методом Ньютона для неквадратичной рабочей функции с начальным значением
и вектор градиента на основании (2.13)
Можно умножить обе части равенства (4.29) слева на и затем на основании этих двух равенств получить
Запишем этот результат в виде адаптивного алгоритма
Индекс k вектора градиента означает, что градиент находится на шаге k, когда вектор весовых коэффициентов равен .
Таким образом, равенство (4.31) описывает метод Ньютона для многих переменных. Если функция ошибки является квадратичной, то этот метод, так же, как и (4.30), приводит к оптимальному решению за один шаг. На рис. 4.6 проиллюстрирована квадратичная функция с двумя весовыми коэффициентами. В этом «идеальном» случае значения весовых коэффициентов переходят от любых начальных к оптимальным за один шаг.
Как следует из рис. 4.6 и равенства (4.31), в методе Ньютона шаги коррекции осуществляются не в направлении градиента. Для этого нужно, чтобы направление изменения весовых коэффициентов на рис. 4.6 было перпендикулярно каждой кривой.
Рис. 4.6. Иллюстрация метода Ньютона для и двух весовых коэффициентов. Квадратичная рабочая функция такая же, как на рис. 3.1
А это возможно только тогда, когда соответствует точке на одной из главных осей.
Заметим, что можно обобщить метод Ньютона, если для (4.31) снова ввести константу ранее введенную в (4.4), и определяющую скорость сходимости. Если (4.31) представить в виде
то при получаем формулу алгоритма, приводящего к оптимальному решению за один шаг. Во всех других случаях можно выбирать любое другое значение параметра в пределах области устойчивости, как это следует из приведенного ниже соотношения (4.35)
Однако иногда желательно, чтобы система работала в режиме с перерегулированием и имела меньший размер шага при . Эти случаи рассматриваются в следующем разделе. В (4.32) параметр является безразмерной величиной.
Для квадратичной рабочей функции можно вычислить (4.32), подставляя в него выражение для градиента (4.29) и затем (4.28):
Теперь, имея равенство вида (4.7), можно методом индукции найти решение аналогично тому, как из (4.7) получено (4.13). Для данного случая соответствующее решение
Чтобы проверить правильность этого решения, заметим, что при в результате имеем что соответствует алгоритму поиска решения за один шаг, а при выполнении условия (4.33) .