Метод динамического программирования
Пусть объект описывается уравнением
где
— белый шум с характеристиками
При условии, что
требуется найти допустимое управление
при котором критерий оптимальности
принимает минимальное значение.
Таким образом, рассматривается стохастическая задача оптимального управления, в которой случайное воздействие является белым шумом и входит в уравнение объекта аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор измеряется полностью и без помех, т. е. в каждый момент времени точно известно состояние объекта. В этой задаче
является марковским процессом (так как случайное воздействие является белым шумом) и вся информация, используемая при определении характеристики будущего состояния объекта, содержится в
Поэтому оптимальное управление должно быть функцией только от текущего состояния
Здесь, как всюду в этой главе, управление
называется допустимым, если функция
кусочно-непрерывна и принимает значение из множества
Кроме того, предполагается, что уравнение
поэтому уравнение (10.169), очевидно, можно представить в виде
Вывод уравнения Беллмана. Пусть в момент
фазовый вектор
принимает определенное значение. Обозначим
значение функционала (10.168) при
указанном значении
и некотором фиксированном управлении и
Минимальное значение этого функционала
есть, по определению, функция Беллмана. Опуская для краткости записи аргументы функций, представим функцию Беллмана в виде
или
Используя свойства условного математического ожидания
можно записать
Подставив это выражение в (10.172) и используя принцип оптимальности, получим
Но так как
то
Представим (10.166) в виде разностного уравнения
Если
— белый шум с характеристиками (10.167), то по определению белого шума
является случайным процессом с характеристиками
Моменты более высокого порядка являются малыми величинами более высокого порядка, чем
поэтому из (10.174) имеем:
Разлагая
в ряд в точке
и используя последние соотношения, получим
Подставив это выражение для
из (10.173) предельным переходом при
получаем (10.169).
Граничное условие (10.170) получается непосредственно из определения функции Беллмана.