Функциональное уравнение метода динамического программирования.
Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, введем обозначения для значений функционала на оптимальных траекториях:
Рис. 2.3.1.
Представим (полагая
— достаточно малое число) функционал (2.3.3) в форме
Допустим, что оптимальное управление на втором участке известно. Значение, которое принимает функционал оптимизации при движении по этому участку, определяется выражением
. На основе принципа оптимальности можно записать функциональное уравнение
Учитывая малость
, получим
Минимизируя выражение в фигурных скобках по
, получим оптимальное управление на первом участке. Однако в этом выражении функция v неизвестна. В связи с этим преобразуем (2 3 5).
Используя разложение в ряд Тейлора, получим
где
.
Подставляя эти выражения в (2.3.5), получим
Сокращая
в обеих частях равенства и поделив результат на
, получим при
Учитывая, что полученный результат справедлив для любых
, опустим индекс
и запишем
В общем случае, когда
, это уравнение имеет вид
Если известно, что оптимальные управления находятся внутри множества U, либо если ограничения подобного рода вообще отсутствуют, то уравнение (2.3.7) можно представить как совокупность уравнений в частных производных:
Таким образом, для решения задачи об оптимальной стабилизации необходимо решить, при краевых условиях
специфическое уравнение в частных производных (2.3.7) либо систему из
уравнений в частных производных (2.3.8), (2.3.9). В результате решения этих уравнений получим искомые оптимальные управления
, где
и функцию
которая при
является наименьшим значением функционала оптимизации
если выполняются краевые условия (2.3.10). Действительно, пусть оптимальные управления определены. Тогда, вдоль оптимальных траекторий и управлений, уравнение (2.3.7) примет вид
или
Очевидно, что это уравнение можно записать в более компактной форме
Интегрируя его в пределах от
до
, заключаем, что
Учитывая краевые условия (2.3.10), получим (2.3.11).
При
на оптимальные управления накладывается дополнительное требование асимптотической устойчивости. Если функции
для всех
, то система (2.3.1), (2.3.2) асимптотически устойчива.
Действительно, уравнение (2.3.12) является уравнением второго метода А. М. Ляпунова и поэтому для асимптотической устойчивости оптимальной системы достаточно положительно-определенной функции
, полная производная которой в силу дифференциальных уравнений (2.3.1) отрицательно-определенна.
Таким образом, если
, то функция
в уравнениях метода динамического программирования оказывается функцией Ляпунова, поэтому этот метод иногда называют методом Ляпунова — Веллмана. Заметим также, что для асимптотически устойчивой оптимальной системы краевое условие (2.3.10) выполняется автоматически.
Отметим в заключение, что если функционал оптимизации (2.3.3) имеет более общий вид
то краевое условие (2.3.10) записывается как