§ 14.11. Оптимальное управление в случае, когда процесс наблюдается с ошибками

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 14.11. Оптимальное управление в случае, когда процесс наблюдается с ошибками

Обратимся к более сложной (по сравнению с рассмотренной в предыдущем параграфе) задаче управдения, в которой статистик не имеет возможности безошибочно наблюдать состояния Более точно, мы допустим, что статистику неизвестно значение состояния в момент выбора значенця управления Взамен предполагается, что он осуществляет выбор значения после наблюдения случайной величины распределение которой как-то зависит от состояния которая, таким образом, несет в себе некоторую информацию об Формально такой процесс наблюдений описывается следующей системой уравнений:

Здесь для всякого заданная постоянная, случайная величина, распределенная по нормальному закону со средним 0 и дисперсией Далее, случайные величины случайные величины входящие в формулу (1) § 14.10, и начальное состоянде Х предполагаются независимыми в совокупности. Не исключено, что при некотором значении На таком шаге наблюдение не дает никакой добавочной информации о состоянии Возможно также, что

но для некоторого . В этом случае состояние на данном шаге может быть наблюдено точно.

Рассмотрим теперь поведение процесса, подчиняющегося системам уравнений (1) § 14.10 и (1) этого параграфа. Раньше мы считали, что начальное состояние имело заданное значение Здесь мы предположим, что значение неизвестно, имеет нормальное распределение со средним и дисперсией . В начале процесса статистик наблюдает значение которое приводит его к новому (апостериорному) распределению для состояния На основе этого распределения статистик выбирает управление и этим выбором определяется распределение очередного состояния Значение этого состояния нельзя наблюдать непосредственно. Однако статистик может наблюдать значение которое порождает новое (апостериорное) распределение для Затеж выбирается управление и статистик продолжает таким образом, пока не выберет значение последнего управления Как и раньше, последовательность управлений должна быть выбрана таким образом, чтобы минимизировать среднее значение общего ущерба 2 определенного в § 14.10. На каждом шаге при выборе управления информация статистика — это апостериорное распределение состояния после наблюдения значения Так как априорное распределение начального состояния предполагается нормальным и все случайные величины нормально распределены, то и апостериорное распределение на каждом шаге снова нормальное. Исследуем изменение этого распределения при переходе процесса от одного шага к другому.

По предположению априорное распределение нормальное со средним и дисперсией Пусть, далее, при после выбора значения но до наблюдения распределение нормальное со средним и дисперсией

Из (1) видно, что для каждого после наблюдения значения апостериорное распределение для нормальное, причем его параметры имеют вид

В этих задачах управления нам удобнее задавать нормальный закон с помощью дисперсий, а не мер точности. Дисперсии здесь предпочтительнее, поскольку нам часто надо вычислять среднее значение квадратичной функции от а также распределения сумм независимых случайных величин.

Допустим теперь, что для данного апостериорное распределение после наблюдения нормальное со средним и дисперсией Согласно соотношению (1) § 14.10, для всякого выбора управления следующее состояние распределено по нормальному закону со средним и дисперсией имеющими вид

Далее, среднее даваемое формулой (2), является случайной величиной, поскольку величина случайна, и мы легко можем вычислить распределение этого среднего. Согласно (1), наблюдение имеет нормальное распределение со средним и дисперсией Поэтому в соответствии с (2) распределение нормальное со средним и дисперсией где

Индекс в (6) и (7) указывает на то, что среднее и дисперсия вычисляются после выбора но перед наблюдением значения

Из (3) и (5) видно, что дисперсия апостериорного распределения изменяется от шага к шагу детерминированным образом, поскольку ни значения наблюдений, ни значения выбранных управлений не входят в выражение для дисперсии.

Соотношения вполне характеризуют распределения, представляющие интерес для статистика в течение процесса управления. Мы можем теперь найти оптимальные значения управлений методом индукции назад. На произвольном шаге оптимальное значение управления зависит лишь от апостериорного распределения в этот момент. Так как дисперсия апостериорного распределения меняется от шага к шагу детерминированным образом, то апостериорное распределение может быть охарактеризовано своим средним При любом заданном значении пусть обозначает среднее значение суммы 2 если и все дальнейшие значения управлений выбираются оптимальным образом. Как и раньше, из соотношений (1) и (2) § 14.10 видно, что функции при удовлетворяют такому соотношению:

Мы по-прежнему определяем функцию как тождественный 0.

Докажем теперь по индукции, что при функция имеет вид

Покажем также, что оптимальное значение управления есть

Далее, для значения совпадают с найденными в § 14.10, а коэффициенты другие.

Так как функция тождественно равна 0, то она имеет вид (9) с Предположим, что для некоторого значения функция имеет вид (9). Покажем, что тогда задается формулой (10), а функция опять-таки имеет вид (9).

При произвольном выборе управления среднее значение правой части (8) равно

Как видно из (4), простая линейная комбинация и Далее, из (7) следует, что есть постоянная, не зависящая от и Следовательно, правая часть (11) является квадратичной функцией от и элементарные вычисления показывают, что формула (10) действительно задает минимизирующее значение управления.

Подставляя это оптимальное значение в (11), видим, что квадратичная функция вида (9). Далее, значения снова определяются соотношением (9) § 14.10 и условием Этим завершается доказательство по индукции. Оптимальную последовательность значений можно определить по формуле (10) с учетом условия и соотношения (9) § 14.10. Для расчета оптимальной последовательности управлений значения не нужны, и мы их не приводим.

Оптимальное значение задаваемое формулой (10), вполне аналогично задаваемому формулой (5) § 14.10 оптимальному значению для случая, когда состояние может наблюдаться на каждом шаге безошибочно. Таким образом, если статистику неизвестно истинное состояние в момент, когда он должен выбрать значение управления, то, согласно оптимальной процедуре, надо просто заменить в формуле (5) § 14.10 неизвестное точное значение на среднее значение случайной величины на данном шаге. Такое положение дел имеет место и в других

задачах решения с квадратичной функцией потерь [см., например, Саймон [1956] или Тейл [1964]]. Далее, минимальные средние ущербы, задаваемые формулой (9) настоящего параграфа и формулой (4) § 14.10, также имеют одинаковый вид — все различие состоит в замене на Однако, хотя постоянные и в обоих случаях одни и те же, добавочный член в формуле (9) больше, чем в формуле (4) § 14.10: в этом члене отражается добавочный ущерб, возникающий из-за незнания статистиком истинных состояний

<< Предыдущий параграф

Следующий параграф >>

Оглавление