Метод динамического программирования

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Метод динамического программирования

Пусть объект описывается уравнением

где — белый шум с характеристиками

При условии, что требуется найти допустимое управление при котором критерий оптимальности

принимает минимальное значение.

Таким образом, рассматривается стохастическая задача оптимального управления, в которой случайное воздействие является белым шумом и входит в уравнение объекта аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор измеряется полностью и без помех, т. е. в каждый момент времени точно известно состояние объекта. В этой задаче является марковским процессом (так как случайное воздействие является белым шумом) и вся информация, используемая при определении характеристики будущего состояния объекта, содержится в Поэтому оптимальное управление должно быть функцией только от текущего состояния Здесь, как всюду в этой главе, управление называется допустимым, если функция кусочно-непрерывна и принимает значение из множества Кроме того, предполагается, что уравнение

при каждом фиксированном имеет единственное решение на интервале . Функции предполагаются непрерывными.

Для решения сформулированной задачи воспользуемся уравнением

где — элементы матрицы при граничном условии

Уравнение (10.169) является функциональным уравнением динамического программирования для стохастической задачи оптимального управления (10.166)-(10.168) и также называется уравнением Беллмана. Скалярная функция есть функция Беллмана. Если множество открыто и минимум левой части уравнения (10.169) достигается в стационарной точке, то уравнение Беллмана можно представить в виде слег дующей системы уравнений:

Достаточное условие оптимальности [181. Пусть существуют скалярная функция обладающая непрерывными частными производными допустимое управление и удовлетворяющие уравнению Беллмана (10.169) или (10.171) и граничному условию (10.170). Тогда управление и является оптимальным.

Обычно уравнение Беллмана записывают, используя след матрицы. Следом (или шпуром) -матрнцы обозначают или называется сумма элементов ее главной диагонали:

Как легко проверить непосредственным вычислением,

поэтому уравнение (10.169), очевидно, можно представить в виде

Вывод уравнения Беллмана. Пусть в момент фазовый вектор принимает определенное значение. Обозначим значение функционала (10.168) при указанном значении и некотором фиксированном управлении и