§ 14.10. Задачи управления
Задачи, рассматриваемые в этом и нескольких последующих параграфах, относятся к так называемой стохастической теории управления (регулирования) с адаптацией. В каждой такой задаче надо определить оптимальную процедуру для последовательного
процесса с заданным (конечным) числом шагов и квадратичной функцией потерь на каждом шаге. Мы покажем, что эти квадратичные функции потерь приводят в свою очередь к оптимальным процедурам решения, основанным на линейных функциях от величин, которыми статистик может управлять. В силу такой линейности оптимальные процедуры могут быть найдены в явном виде. Мы начнем с рассмотрения относительно простой одномерной задачи управления.
Пусть
заданное натуральное число и
конечная последовательность
случайных величин. Значения этих величин можно интерпретировать как состояния стохастической системы на различных шагах
-шагового последовательного процесса. Таким образом, — это начальное состояние системы, а
состояния системы на последующих шагах.
Предположим, что на некотором шаге
распределение очередного состояния
зависит только от настоящего состояния
и от значения
некоторой вещественной переменной, называемой управлением, которое может быть выбрано статистиком. Более точно, мы предположим, что процесс описывается следующей системой уравнений:
Здесь
заданные постоянные,
значение, которое статистик может выбрать после наблюдения величины
нормально распределенная случайная величина со средним 0 и дисперсией
Величины
предстдвляют собой случайные возмущения системы. Считается, что они независимы, кроме того, предполагается, что известно начальное состояние
Прежде чем указать критерий, по которому статистик выбирает значения
управления, опишем подробнее эволюцию процесса, подчиняющегося системе (1). При заданном начальном состоянии
системы, статистик выбирает некоторое значение
управления. Тогда следующее состояние
имеет нормальное распределение со средним а
и дисперсией
После наблюдения
статистик выбирает некоторое значение
управления. Очередное состояние
тогда нормальна распределено со средним
и дисперсией Этот процесс продолжается таким образом, пока не будет наблюдено заключительное состояние
Допустим, что на каждом шаге
статистик должен выбирать значение управления так, чтобы очередное состояние системы
было близко к некоторому заданному целевому значению
Предположим, что ущерб вследствие отклонения
от целевого значения на этом шаге равен
где
Не исключено, что
при некоторых значениях
Во многих интересных задачах
для
Такой выбор значений
отвечает тому случаю, когда статистика интересует только расстояние между конечным состоянием
системы и некоторым конечным целевым значением
Мы будем всегда считать, что
поскольку иначе последнее состояние
не представляло бы интереса и последний шаг процесса можно было бы исключить из задачи.
Если статистик может выбирать значение
управления без каких-либо ограничений или затрат, то оптимальным выбором значения
на
шаге является то, при котором среднее
очередного состояния
будет равно целевому значению
. В практических ситуациях, однако, затраты на управление процессом могут заставить статистика искать компромиссного соотношения между стоимостью управления и ущербом вследствие отклонения от цели. Предположим, что стоимость выбора значения
управления на
шаге равна
Из предыдущих замечаний ясно, что общий ущерб на
шаге
можно представить в виде
Общий ущерб от всего процесса равен сумме
Последовательность значений управления
надо выбрать таким образом, чтобы минимизировать среднее значение такой суммы.
Так как в этой задаче управления имеется только конечное число шагов, то оптимальный выбор последовательности значений управления можно осуществить с помощью метода индукции назад. Рассмотрим некоторый шаг
и допустим, что было наблюдено значение
и надо выбрать значение
Общий ущерб от оставшихся шагов процесса есть
Из (1) видно, что оптимальный выбор
определяется только значением
и не зависит непосредственно от предыдущих состояний системы и предыдущих значений управления. Обозначим через
среднее значение суммы если из и дальнейшие значения управления выбираются оптимальным образом. В частности,
минимальный средний ущерб для всего процесса, если начальное состояние
есть х.
При
пусть
обозначает математическое ожидание, вычисленное относительно условного распределения случайной величины
при
и заданном значении управления
Если определить функцию
как тождественный нуль, то функции
должны удовлетворять для всех
следующему соотношению:
Докажем теперь по индукции, что
при
есть квадратичная функция вида
причем значения
можно вычислить в явном виде. Кроме того, мы покажем, что оптимальным значением управления
является
Отметим, что правая часть (5) — линейная функция от
Так как функция
тождественно равна 0, то она имеет вид (4) с
Предположим, что для некоторого значения
функция
имеет вид (4). Покажем, что тогда
задается формулой (5) и функция
также имеет вид (4).
Из (1) видно, что для любой постоянной
Следовательно, (согласно (2),
Далее, в силу равенства (4) и предположения индукции,
Из (3) видно, что оптимальное значение
должно доставлять минимум сумме выражений (7) и (8). Так как эта сумма является квадратичной функцией от
то оптимальное значение
находится очень просто и, как нетрудно проверить, совпадает с указанным в (5).
Подставляя это значение
в выражения (7) и (8), видим, что их сумма
является квадратичной функцией от х Итак,
имеет вид (4), и наше утверждение доказано. Произведя несложные алгебраические выкладки, можно получить, что постоянные
удовлетворяют следующим соотношениям:
По этим формулам, можно, найти всю последовательность значений
если последовательно двигаться назад, начиная с
Оптимадьные значения последовательности управлений
могут быть теперь определены по формуле (5). Наконец, минимальное значение среднего общего ущерба
дается соотношением (4) при
Мы уже обращали внимание на тот факт, что оптимальное значение управления на каждом шаге является линейной функцией: от состояния системы в этот момент. Важно отметить следующие два свойства найденной процедуры. Во-первых, дисперсии
не фигурируют в (5), равно как и в выражениях для
[см. (9)]. Значит, эти дисперсии при определении оптимальной последовательности значений
могут быть и неизвестными. Во-вторых, нормальная распределенность случайных возмущений
в этом примере нигде не исполь зовалась. Поэтому найденные значения управлений остаются оптимальными во всяком процессе, описываемом системой уравнений (1) при условии, что возмущения
независимы и имеют средние 0 и конечные дисперсии. Эти два свойства значительно расширяют область приложения результатов, полученных в настоящем параграфе.