Функциональное уравнение метода динамического программирования.
Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, введем обозначения для значений функционала на оптимальных траекториях:
Рис. 2.3.1.
Представим (полагая — достаточно малое число) функционал (2.3.3) в форме
Допустим, что оптимальное управление на втором участке известно. Значение, которое принимает функционал оптимизации при движении по этому участку, определяется выражением . На основе принципа оптимальности можно записать функциональное уравнение
Учитывая малость , получим
Минимизируя выражение в фигурных скобках по , получим оптимальное управление на первом участке. Однако в этом выражении функция v неизвестна. В связи с этим преобразуем (2 3 5).
Используя разложение в ряд Тейлора, получим
где .
Подставляя эти выражения в (2.3.5), получим
Сокращая в обеих частях равенства и поделив результат на , получим при
Учитывая, что полученный результат справедлив для любых , опустим индекс и запишем
В общем случае, когда , это уравнение имеет вид
Если известно, что оптимальные управления находятся внутри множества U, либо если ограничения подобного рода вообще отсутствуют, то уравнение (2.3.7) можно представить как совокупность уравнений в частных производных:
Таким образом, для решения задачи об оптимальной стабилизации необходимо решить, при краевых условиях
специфическое уравнение в частных производных (2.3.7) либо систему из уравнений в частных производных (2.3.8), (2.3.9). В результате решения этих уравнений получим искомые оптимальные управления , где и функцию которая при является наименьшим значением функционала оптимизации
если выполняются краевые условия (2.3.10). Действительно, пусть оптимальные управления определены. Тогда, вдоль оптимальных траекторий и управлений, уравнение (2.3.7) примет вид
или
Очевидно, что это уравнение можно записать в более компактной форме
Интегрируя его в пределах от до , заключаем, что
Учитывая краевые условия (2.3.10), получим (2.3.11).
При на оптимальные управления накладывается дополнительное требование асимптотической устойчивости. Если функции для всех , то система (2.3.1), (2.3.2) асимптотически устойчива.
Действительно, уравнение (2.3.12) является уравнением второго метода А. М. Ляпунова и поэтому для асимптотической устойчивости оптимальной системы достаточно положительно-определенной функции , полная производная которой в силу дифференциальных уравнений (2.3.1) отрицательно-определенна.
Таким образом, если , то функция в уравнениях метода динамического программирования оказывается функцией Ляпунова, поэтому этот метод иногда называют методом Ляпунова — Веллмана. Заметим также, что для асимптотически устойчивой оптимальной системы краевое условие (2.3.10) выполняется автоматически.
Отметим в заключение, что если функционал оптимизации (2.3.3) имеет более общий вид
то краевое условие (2.3.10) записывается как