Функция и уравнение Беллмана

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Функция и уравнение Беллмана

Произведем инвариантное погружение задачи (10.63) в семейство задач, которое получается из задачи (10.63) при замене начального условия параметрическим условием в новом условии рассматриваются как параметры. В частном случае, когда из введенного семейства выделяется исходная задача.

Минимальное значение критерия оптимальности при параметрическом начальном условии зависит от выбранных значений

причем

Функция называется функцией Беллмана. Получим уравнение Беллмана. Очевидно,

Для краткости записи аргументы функции опущены. В силу принципа оптимальности

или

Фазовый вектор и соответственно функция Беллмана в левой части последнего соотношения не зависят от управления на интервале поэтому в этом отношении

функцию Беллмана левой части можно перенести в правую часть и внести под знак минимума:

В полученном уравнении интеграл представим в виде

Затем, разделив обе части на устремим к нулю. Тогда, приняв в пределе получим уравнение

или

которое называется уравнением Беллмана или обратным уравнением Беллмана. Так как функция не зависит от управления последнее слагаемое в правой части можно вынести за скобки и уравнение Беллмана записать в виде

или в векторной форме

Напомним, что, по определению, производная от скалярной функции по векторному аргументу есть вектор-строка:

Сформулируем основной результат: если функция Беллмана дифференцируема, то, для того чтобы допустимая пара для задачи (10.63) была ее решением, необходимо.

чтобы она удовлетворяла уравнению Белллшна (10.65) при граничном условии

Если минимум в левой части (10.65) достигается во внутренних точках множества то уравнение Беллмана можно представить в виде

Уравнения (10.68) выражают необходимое условие минимума левой части (10.65) и заменяют опущенную в уравнении (10.67) операцию минимизации по управлению.

Если правые части уравнений объекта и подынтегральное выражение в критерии оптимальности, т. е. функции явно не зависят от времени и конечный момент не фиксирован, то функция Беллмана не зависит явно от времени и

Оптимальное управление методом динамического программирования находится следующим образом:

1) из уравнений (10.68) определяется управление как функция от

2) подставив в уравнение (10.67) и решив его при краевом условии (10.66), находят функцию Беллмана;

3) подставив найденную функцию Беллмана в выражение получают оптимальное управление как функцию фазовых координат.

Пример 10.11. Пусть требуется найти оптимальное управление с обратной связью о задаче:

где — произвольные заданные числа, момент не фиксирован.

Для решения этой задачи воспользуемся методом динамического программирования. Выпишем уравнения (10.67) и (10.68). В данном случае и эти уравнения имеют вид

Из второго уравнения . Подставим это выражение в первое уравнение:

Нужно решить это уравнение при граничном условии Будем искать решение в виде квадратичной формы

которая, очевидно, в силу краевых условий задачи удовлетворяет указанному граничному условию. Подставив это выражение в уравнение Беллмана, получим

или

Последнее равенство будет выполняться тождественно, если

Эта система имеет следующие решения:

Так как, по определению, функция Беллмана

то при всех . Поэтому квадратичная форма, удовлетворяющая уравнению Беллмана, будет функцией Беллмана, еслн она является положительно-определенной. Этому условию удовлетворяет решение

поэтому функция Беллмана

и оптимальное управление имеет вид

Как отмечалось, вариационные методы позволяют находить оптимальное управление как функцию времени. Достоинством метода динамического программирования является то, что он позволяет находить оптимальное управление как функцию фазовых координат, т. е. позволяет решать задачу синтеза оптимального регулятора. Недостатком метода динамического

программирования является то, что он исходную задачу оптимального управления сводит к решению трудноразрешимого нелинейного уравнения в частных производных.

<< Предыдущий параграф

Следующий параграф >>

Оглавление