§ 14.11. Оптимальное управление в случае, когда процесс наблюдается с ошибками
Обратимся к более сложной (по сравнению с рассмотренной в предыдущем параграфе) задаче управдения, в которой статистик не имеет возможности безошибочно наблюдать состояния
Более точно, мы допустим, что статистику неизвестно значение состояния
в момент выбора значенця управления
Взамен предполагается, что он осуществляет выбор значения
после наблюдения случайной величины
распределение которой как-то зависит от состояния
которая, таким образом, несет в себе некоторую информацию об
Формально такой процесс наблюдений описывается следующей системой уравнений:
Здесь
для всякого
заданная постоянная,
случайная величина, распределенная по нормальному закону со средним 0 и дисперсией
Далее, случайные величины
случайные величины
входящие в формулу (1) § 14.10, и начальное состоянде Х предполагаются независимыми в совокупности. Не исключено, что
при некотором значении
На таком шаге наблюдение
не дает никакой добавочной информации о состоянии
Возможно также, что
но
для некоторого
. В этом случае состояние
на данном шаге может быть наблюдено точно.
Рассмотрим теперь поведение процесса, подчиняющегося системам уравнений (1) § 14.10 и (1) этого параграфа. Раньше мы считали, что начальное состояние имело заданное значение
Здесь мы предположим, что значение
неизвестно,
имеет нормальное распределение со средним
и дисперсией
. В начале процесса статистик наблюдает значение
которое приводит его к новому (апостериорному) распределению для состояния
На основе этого распределения статистик выбирает управление
и этим выбором определяется распределение очередного состояния
Значение этого состояния нельзя наблюдать непосредственно. Однако статистик может наблюдать значение
которое порождает новое (апостериорное) распределение для
Затеж выбирается управление
и статистик продолжает таким образом, пока не выберет значение последнего управления
Как и раньше, последовательность управлений
должна быть выбрана таким образом, чтобы минимизировать среднее значение общего ущерба 2 определенного в § 14.10. На каждом шаге
при выборе управления
информация статистика — это апостериорное распределение состояния
после наблюдения значения
Так как априорное распределение начального состояния
предполагается нормальным и все случайные величины
нормально распределены, то и апостериорное распределение
на каждом шаге снова нормальное. Исследуем изменение этого распределения при переходе процесса от одного шага к другому.
По предположению априорное распределение
нормальное со средним
и дисперсией
Пусть, далее, при
после выбора значения
но до наблюдения
распределение
нормальное со средним
и дисперсией
Из (1) видно, что для каждого
после наблюдения значения
апостериорное распределение для
нормальное, причем его параметры
имеют вид
В этих задачах управления нам удобнее задавать нормальный закон с помощью дисперсий, а не мер точности. Дисперсии здесь предпочтительнее, поскольку нам часто надо вычислять среднее значение квадратичной функции от
а также распределения сумм независимых случайных величин.
Допустим теперь, что для данного
апостериорное распределение
после наблюдения
нормальное со средним
и дисперсией
Согласно соотношению (1) § 14.10, для всякого выбора управления
следующее состояние
распределено по нормальному закону со средним и дисперсией
имеющими вид
Далее, среднее
даваемое формулой (2), является случайной величиной, поскольку величина
случайна, и мы легко можем вычислить распределение этого среднего. Согласно (1), наблюдение
имеет нормальное распределение со средним
и дисперсией
Поэтому в соответствии с (2) распределение
нормальное со средним
и дисперсией
где
Индекс
в (6) и (7) указывает на то, что среднее и дисперсия
вычисляются после выбора
но перед наблюдением значения
Из (3) и (5) видно, что дисперсия
апостериорного распределения
изменяется от шага к шагу детерминированным образом, поскольку ни значения наблюдений, ни значения выбранных управлений не входят в выражение для дисперсии.
Соотношения
вполне характеризуют распределения, представляющие интерес для статистика в течение процесса управления. Мы можем теперь найти оптимальные значения управлений
методом индукции назад. На произвольном шаге
оптимальное значение управления
зависит лишь от апостериорного распределения
в этот момент. Так как дисперсия
апостериорного распределения меняется от шага к шагу детерминированным образом, то апостериорное распределение
может быть охарактеризовано своим средним
При любом заданном значении
пусть
обозначает среднее значение суммы 2 если
и все дальнейшие значения управлений выбираются оптимальным образом. Как и раньше, из соотношений (1) и (2) § 14.10 видно, что функции
при
удовлетворяют такому соотношению:
Мы по-прежнему определяем функцию
как тождественный 0.
Докажем теперь по индукции, что при
функция
имеет вид
Покажем также, что оптимальное значение управления
есть
Далее, для
значения
совпадают с найденными в § 14.10, а коэффициенты
другие.
Так как функция
тождественно равна 0, то она имеет вид (9) с
Предположим, что для некоторого значения
функция
имеет вид (9). Покажем, что тогда
задается формулой (10), а функция
опять-таки имеет вид (9).
При произвольном выборе управления
среднее значение правой части (8) равно
Как видно из (4),
простая линейная комбинация
и
Далее, из (7) следует, что
есть постоянная, не зависящая от
и
Следовательно, правая часть (11) является квадратичной функцией от
и элементарные вычисления показывают, что формула (10) действительно задает минимизирующее значение управления.
Подставляя это оптимальное значение
в (11), видим, что
квадратичная функция вида (9). Далее, значения
снова определяются соотношением (9) § 14.10 и условием
Этим завершается доказательство по индукции. Оптимальную последовательность значений
можно определить по формуле (10) с учетом условия
и соотношения (9) § 14.10. Для расчета оптимальной последовательности управлений значения
не нужны, и мы их не приводим.
Оптимальное значение
задаваемое формулой (10), вполне аналогично задаваемому формулой (5) § 14.10 оптимальному значению
для случая, когда состояние
может наблюдаться на каждом шаге безошибочно. Таким образом, если статистику неизвестно истинное состояние
в момент, когда он должен выбрать значение управления, то, согласно оптимальной процедуре, надо просто заменить в формуле (5) § 14.10 неизвестное точное значение
на среднее значение
случайной величины
на данном шаге. Такое положение дел имеет место и в других