ГЛАВА 1. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ОПТИМИЗАЦИИ ДИСКРЕТНОГО СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ
§ 1.1. Постановка задачи синтеза оптимального управления при неполной информации
Существует большое число различных постановок задач синтеза оптимального управления динамической системой, возмущаемой случайным процессом шумов, в условиях, когда измерения фазовых координат системы или величин, от них зависящих, производятся или точно, или со случайными ошибками. Рассмотрим достаточно общую постановку задачи при фиксированном времени управления и для нее получим рекуррентные уравнения, определяющие оптимальное дискретное стохастическое управление с обратной связью.
Управление производится на отрезке времени где заданы. У динамической системы -мерный вектор фазовых координат х удовлетворяет уравнению
где -мерный вектор управления, -мерный вектор случайных шумов, возмущающих систему, заданная вектор-функция соответствующего числа переменных. В моменты времени измеряются -мерные векторы обратной связи несущие информацию о векторе х. Векторы имеют вид
где -мерный дискретный случайный процесс ошибок измерений, заданная вектор-функция соответствующего числа переменных. Называть векторами обратной связи естественно, так как, далее, векторы управлений зависят от следовательно, как видно из (1.2), зависят от текущих Поэтому векторы и влияют на текущие а последние — на векторы и.
В задаче стохастического управления при полной информации компоненты векторов измеряются без
ошибок и, следовательно,
Далее, вектор управления на интервале обозначается через Синтез в момент должен назначить вектор управления который в каждой конкретной реализации процесса управления должен быть неслучайной (нерандомизированной) функцией и зификсированных векторов обратной связи (обоснование использования нерандомизированного управления приведено, например, в [51]). Ожидаемое качество управления на интервале характеризуют величиной среднего риска
где неотрицательные функции от и неотрицательные функционалы от функций
В (1.4) осреднение производится по всем возможным случайным векторам случайным процессам Осреднение по случайным процессам можно понимать, например, следующим образом. В [43] показано, что достаточно общий случайный процесс может быть представлен его каноническим разложением: линейной комбинацией неслучайных функций времени с коэффициентами, которые неслучайны в данной реализации случайного процесса, но случайны на множестве реализаций. Тогда осреднение по возможным случайным процессам означает осреднение по множеству этих случайных коэффициентов. Функции, стоящие в квадратных скобках правых частей равенства (1.4), обычно называют функциями потерь. Наиболее часто используются квадратичные функции потерь:
где матрицы соответствующей размерности. Далее, верхним индексом всегда обозначаются транспонированные векторы-столбцы и матрицы.
В приводимых ниже примерах синтеза оптимального управления часто используется следующий специальный вид функции облегчающий численную оптимизацию и дающий четкое физическое представлепие о качестве управления: если для каждой компоненты вектора х справедливо в
противном случае. Область, в которой будет п-мерным прямоугольным параллелепипедом, симметричным относительно начала координат. Очевидно, что в этом случае величина среднего риска есть вероятность непопадания вектора в этот прямоугольный параллелепипед.
Функцию в (1.4) обычно называют терминальной функцией потерь. Если в (1.4)
то средний риск называется терминальным. В этом случае векторы управлений ответственны лишь за среднее значение функции от вектора конечного состояния динамической системы. Везде далее считаем, что качество управления тем выше, чем меньше величина среднего риска Поэтому задача оптимизации стохастического управления заключается в выборе оптимальных управлений минимизирующих величину среднего риска.
На множества допустимых векторов управлений обычно наложены ограничения где выпуклые области, содержащие вектор, равный нулю (напомним, что область выпуска, если она содержит все точки отрезка, концы которого ей принадлежат). Далее, -мерное евклидово пространство будем обозначать через Если то ограничения отсутствуют.
Для применимости при оптимизации мощных вычислительных методов нелинейного и стохастического программирования, далее, на интервалах считаем векторы управления постоянными: Это условие не является принципиальным ограничением, так как в случае необходимости можно вектор считать постоянным на нескольких интервалах, составляющих интервал и путем расширения вектора управления прийти к случаю Поэтому Минимальную величину среднего риска и соответствующие ей оптимальные управления будем обозначать верхним индексом
Задачу оптимизации сформулируем в следующем виде: найти векторы и число из условия
(Строго говоря, символ в (1.6) надо было бы заменить