ГЛАВА 8. ОПТИМИЗАЦИЯ СТОХАСТИЧЕСКОГО УПРАВЛЕНИЯ ЛИНЕЙНОЙ СИСТЕМОЙ ПРИ НЕПОЛНОЙ ИНФОРМАЦИИ
§ 8.1. Уравнения и методы оптимизации
1. Пусть в моменты
векторы фазовых координат объекта управления
удовлетворяют уравнению (3.10) и фиксируются векторы обратной связи
вида (4.77) (измерения модели 1). В этом случае, как показано в § 4.11, достаточными статистиками
векторов
являются векторы условных
последовательно вычисляемые по формулам алгоритма ОРФ Калмана. Эти векторы порождаются стохастическим уравнением вида (4.101):
где
последовательность независимых, нормально распределенных случайных векторов с к.
равной
При реализации алгоритма ОРФ Калмана матрицы
последовательно определяются формулами (4.92) и (4.93). При фиксированных векторах
векторы
образуют марковскую последовательность, выполнены условия 1, 2 § 1.6, и, следовательно, при риске общего вида (1.4) векторы оптимальных управлений имеют структуру (1.49):
Рекуррентные уравнения оптимизации можно получить из общих уравнений (1.55) — (1.57).
Учтем, что из (4.134) следует
где бивектор ошибок оценки с м. о., равным 0, и к.
и
Тогда из общих уравнений оптимизации (1.55) — (1.57) и уравнения (8.1) следует, что при оптимизации управления линейной (в разомкнутом состоянии) динамической системой и измерении векторов обратной связи вида 1 на каждом шаге оптимизации решается задача
определения вектор-функции
где
причем
и
Минимальный средний риск
описывающий качество оптимального стохастического управления на отрезке
определяется формулой
В
нормально распределенный вектор, имеющий вектор
равную
В уравнениях (8.4), (8.5) осреднение производится по случайным векторам
имеющим соответственно к.
Следует отметить, что в (8.4) к. м. случайного вектора
равна
Но из (4.95)
Поэтому при решении задачи (8.3) в момент
учитываются не только характеристики точности оценки в этот момент
но и характеристики точности в «будущий» момент
Для применения при оптимизации численных методов стохастического и нелинейного программирования, изложенных в главе 3, надо в (8.5), (8.4) провести замены
где
матрицы, являющиеся квадратными корнями
-Векторы
имеют размерности, равные рангам матриц
которые равны соответственно
так как матрицы
неособенные.
Компоненты этих векторов составлены из независимых, нормально распределенных центрированных случайных величии с дисперсиями, равными 1. Тогда задача
(8.3) практически не будет отличаться от задачи (3.24) главы 3, используемой при оптимизации стохастического управления линейной (в разомкнутом состоянии) динамической системой по полной нпформацни о ее текущих фазовых коордппатах. Поэтому алгоритмы численной оптимизации при неполной (статистической) информации основываются на методах стохастического и нелинейного программирования и практически не отличаются от рассмотренных в главе 3 алгоритмов численной оптимизации при полной информации о текущих фазовых координатах динамической системы.
Как и в главе 3, принципиальная сходимость алгоритмов следует из выпуклости вниз по и функций условных рисков
легко доказываемой применением лемм главы 3, если выпуклы вниз функция
и функции
по
.
Заметим, что функции потерь
обычно являются квадратичными функциями компонент векторов
В этом случае второе слагаемое в (8.6) определяется явными формулами и замена
не нужна. Так, например, если
где
— некоторые матрицы, то
Первое слагаемое в (8.6) является
-мерным интегралом, а первое слагаемое в (3.25) —
-мерный интеграл, где
— размерности векторов
Так как обычно
то численная оптимизация стохастического управления при неполной (статистической) информации методами нелинейного программирования проводится более просто, чем при полной информации о фазовых координатах.
Можно показать, что использование описанного в § 4.4 последовательного алгоритма позволяет свести определение
-мерного интеграла в (8.6) к вычислению I одномерных интегралов.
2. При специальном виде функций потерь
и матриц
в (8.1) число компонент
вектора
от которых в соответствии с (8.2) зависит вектор
может быть меньше
Так, пусть первые 724 компонент вектора
составляют вектор
а остальные
компонент вектора
составляют вектор
причем уравнение (4.78) можно представить в виде
где
матрицы и случайные векторы размерности, следующей из (8.7), (8.8). Кроме того, положим, что со
Первые
компонент векторов
составляют векторы
векторы условных м. о. векторов
являющиеся достаточными статистиками этих векторов. Из (8.1), (8.7), (8.8) следует, что векторы
порождаются стохастическим уравнением
где
матрица, составленная из первых
строк матрицы
При фиксированных векторах управлений векторы
образуют марковскую последовательность и для последовательности векторов
выполнены условия 1, 2 § 1.6. Поэтому
Уравпения оптимизации для синтеза векторов
получим, если в (8.4), (8.5) заменим
на
Векторы
следует заменить на
составленные из
первых компонент векторов
случайных векторов
расположены в левом верхнем углу матриц
3. Пусть теперь фиксируются векторы обратной связи
вида (4.162) (измерения модели 2). В этом случае, как показано в § 4.20, векторами достаточных статистик векторов
являются векторы условных
имеющие структуру, описываемую первым соотношением в формулах (4.181), где матрица
задана вторым соотношением в формулах (4.165), а векторы
последовательно определяются алгоритмом ОРФ вида (4.41), (4.42). Векторы
как следует из (4.228), порождаются
стохастическим уравнением
в котором
последовательность независимых, нормально распределенных случайных векторов, параметры распределения которых, а также выражение для матрицы
приведены в формулах (4.227),
Векторы оптимальных управлений имеют вид (8.2) и определяются рекуррентными уравнениями оптимизации вида (8.3) — (8.5), в которых матрицы
заменены матрицами
Следует отметить, что при измерениях модели 2 размерность векторов
в (8.6) не больше
так как в соответствии с (4.181) матрицы
особенные и имеют ранг, не больший
4. Рассмотрим, наконец, ситуацию, в которой ошибки измерений
входящие в выражения (4.77) для векторов обратной связи, зависимы и порождаются дискретным формирующим фильтром (4.198), (4.199). Векторы
определяемые алгоритмом ОРФ (4.215)-(4.219) или (4.221), (4.222), являются достаточными статистиками векторов
порождаются стохастическим уравнением (4.229) и при фиксированных векторах управлений образуют марковскую последовательность. Поэтому условия 1, 2 § 1.6 выполнены, векторы
должны зависеть от
и уравнения оптимизации по-прежнему имеют вид (8.3) - (8.5).
Следует отметить, что во всех рассмотренных ситуациях справедлив сформулированный в § 1.6 общий принцип разделения и общий алгоритм оптимального дискретного стохастического управления делится на алгоритм ОРФ, определяющий векторы
и алгоритм принятия решения, строящий вектор-функции