Функциональное уравнение метода динамического программирования.

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Функциональное уравнение метода динамического программирования.

Несмотря на почти очевидный, эвристический характер принципа оптимальности, он имеет своим следствием далеко не очевидное функциональное уравнение. Переходя к его выводу, введем обозначения для значений функционала на оптимальных траекториях:

Рис. 2.3.1.

Представим (полагая — достаточно малое число) функционал (2.3.3) в форме

Допустим, что оптимальное управление на втором участке известно. Значение, которое принимает функционал оптимизации при движении по этому участку, определяется выражением . На основе принципа оптимальности можно записать функциональное уравнение

Учитывая малость , получим

Минимизируя выражение в фигурных скобках по , получим оптимальное управление на первом участке. Однако в этом выражении функция v неизвестна. В связи с этим преобразуем (2 3 5).

Используя разложение в ряд Тейлора, получим

где .

Подставляя эти выражения в (2.3.5), получим

Сокращая в обеих частях равенства и поделив результат на , получим при

Учитывая, что полученный результат справедлив для любых , опустим индекс и запишем

В общем случае, когда , это уравнение имеет вид

Если известно, что оптимальные управления находятся внутри множества U, либо если ограничения подобного рода вообще отсутствуют, то уравнение (2.3.7) можно представить как совокупность уравнений в частных производных:

Таким образом, для решения задачи об оптимальной стабилизации необходимо решить, при краевых условиях

специфическое уравнение в частных производных (2.3.7) либо систему из уравнений в частных производных (2.3.8), (2.3.9). В результате решения этих уравнений получим искомые оптимальные управления , где и функцию которая при является наименьшим значением функционала оптимизации

если выполняются краевые условия (2.3.10). Действительно, пусть оптимальные управления определены. Тогда, вдоль оптимальных траекторий и управлений, уравнение (2.3.7) примет вид

или

Очевидно, что это уравнение можно записать в более компактной форме

Интегрируя его в пределах от до , заключаем, что

Учитывая краевые условия (2.3.10), получим (2.3.11).

При на оптимальные управления накладывается дополнительное требование асимптотической устойчивости. Если функции для всех , то система (2.3.1), (2.3.2) асимптотически устойчива.

Действительно, уравнение (2.3.12) является уравнением второго метода А. М. Ляпунова и поэтому для асимптотической устойчивости оптимальной системы достаточно положительно-определенной функции , полная производная которой в силу дифференциальных уравнений (2.3.1) отрицательно-определенна.

Таким образом, если , то функция в уравнениях метода динамического программирования оказывается функцией Ляпунова, поэтому этот метод иногда называют методом Ляпунова — Веллмана. Заметим также, что для асимптотически устойчивой оптимальной системы краевое условие (2.3.10) выполняется автоматически.

Отметим в заключение, что если функционал оптимизации (2.3.3) имеет более общий вид

то краевое условие (2.3.10) записывается как

<< Предыдущий параграф

Следующий параграф >>

Оглавление