Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике § 14.11. Оптимальное управление в случае, когда процесс наблюдается с ошибкамиОбратимся к более сложной (по сравнению с рассмотренной в предыдущем параграфе) задаче управдения, в которой статистик не имеет возможности безошибочно наблюдать состояния Более точно, мы допустим, что статистику неизвестно значение состояния в момент выбора значенця управления Взамен предполагается, что он осуществляет выбор значения после наблюдения случайной величины распределение которой как-то зависит от состояния которая, таким образом, несет в себе некоторую информацию об Формально такой процесс наблюдений описывается следующей системой уравнений:
Здесь для всякого заданная постоянная, случайная величина, распределенная по нормальному закону со средним 0 и дисперсией Далее, случайные величины случайные величины входящие в формулу (1) § 14.10, и начальное состоянде Х предполагаются независимыми в совокупности. Не исключено, что при некотором значении На таком шаге наблюдение не дает никакой добавочной информации о состоянии Возможно также, что но для некоторого . В этом случае состояние на данном шаге может быть наблюдено точно. Рассмотрим теперь поведение процесса, подчиняющегося системам уравнений (1) § 14.10 и (1) этого параграфа. Раньше мы считали, что начальное состояние имело заданное значение Здесь мы предположим, что значение неизвестно, имеет нормальное распределение со средним и дисперсией . В начале процесса статистик наблюдает значение которое приводит его к новому (апостериорному) распределению для состояния На основе этого распределения статистик выбирает управление и этим выбором определяется распределение очередного состояния Значение этого состояния нельзя наблюдать непосредственно. Однако статистик может наблюдать значение которое порождает новое (апостериорное) распределение для Затеж выбирается управление и статистик продолжает таким образом, пока не выберет значение последнего управления Как и раньше, последовательность управлений должна быть выбрана таким образом, чтобы минимизировать среднее значение общего ущерба 2 определенного в § 14.10. На каждом шаге при выборе управления информация статистика — это апостериорное распределение состояния после наблюдения значения Так как априорное распределение начального состояния предполагается нормальным и все случайные величины нормально распределены, то и апостериорное распределение на каждом шаге снова нормальное. Исследуем изменение этого распределения при переходе процесса от одного шага к другому. По предположению априорное распределение нормальное со средним и дисперсией Пусть, далее, при после выбора значения но до наблюдения распределение нормальное со средним и дисперсией Из (1) видно, что для каждого после наблюдения значения апостериорное распределение для нормальное, причем его параметры имеют вид
В этих задачах управления нам удобнее задавать нормальный закон с помощью дисперсий, а не мер точности. Дисперсии здесь предпочтительнее, поскольку нам часто надо вычислять среднее значение квадратичной функции от а также распределения сумм независимых случайных величин. Допустим теперь, что для данного апостериорное распределение после наблюдения нормальное со средним и дисперсией Согласно соотношению (1) § 14.10, для всякого выбора управления следующее состояние распределено по нормальному закону со средним и дисперсией имеющими вид
Далее, среднее даваемое формулой (2), является случайной величиной, поскольку величина случайна, и мы легко можем вычислить распределение этого среднего. Согласно (1), наблюдение имеет нормальное распределение со средним и дисперсией Поэтому в соответствии с (2) распределение нормальное со средним и дисперсией где
Индекс в (6) и (7) указывает на то, что среднее и дисперсия вычисляются после выбора но перед наблюдением значения Из (3) и (5) видно, что дисперсия апостериорного распределения изменяется от шага к шагу детерминированным образом, поскольку ни значения наблюдений, ни значения выбранных управлений не входят в выражение для дисперсии. Соотношения вполне характеризуют распределения, представляющие интерес для статистика в течение процесса управления. Мы можем теперь найти оптимальные значения управлений методом индукции назад. На произвольном шаге оптимальное значение управления зависит лишь от апостериорного распределения в этот момент. Так как дисперсия апостериорного распределения меняется от шага к шагу детерминированным образом, то апостериорное распределение может быть охарактеризовано своим средним При любом заданном значении пусть обозначает среднее значение суммы 2 если и все дальнейшие значения управлений выбираются оптимальным образом. Как и раньше, из соотношений (1) и (2) § 14.10 видно, что функции при удовлетворяют такому соотношению:
Мы по-прежнему определяем функцию как тождественный 0. Докажем теперь по индукции, что при функция имеет вид
Покажем также, что оптимальное значение управления есть
Далее, для значения совпадают с найденными в § 14.10, а коэффициенты другие. Так как функция тождественно равна 0, то она имеет вид (9) с Предположим, что для некоторого значения функция имеет вид (9). Покажем, что тогда задается формулой (10), а функция опять-таки имеет вид (9). При произвольном выборе управления среднее значение правой части (8) равно
Как видно из (4), простая линейная комбинация и Далее, из (7) следует, что есть постоянная, не зависящая от и Следовательно, правая часть (11) является квадратичной функцией от и элементарные вычисления показывают, что формула (10) действительно задает минимизирующее значение управления. Подставляя это оптимальное значение в (11), видим, что квадратичная функция вида (9). Далее, значения снова определяются соотношением (9) § 14.10 и условием Этим завершается доказательство по индукции. Оптимальную последовательность значений можно определить по формуле (10) с учетом условия и соотношения (9) § 14.10. Для расчета оптимальной последовательности управлений значения не нужны, и мы их не приводим. Оптимальное значение задаваемое формулой (10), вполне аналогично задаваемому формулой (5) § 14.10 оптимальному значению для случая, когда состояние может наблюдаться на каждом шаге безошибочно. Таким образом, если статистику неизвестно истинное состояние в момент, когда он должен выбрать значение управления, то, согласно оптимальной процедуре, надо просто заменить в формуле (5) § 14.10 неизвестное точное значение на среднее значение случайной величины на данном шаге. Такое положение дел имеет место и в других задачах решения с квадратичной функцией потерь [см., например, Саймон [1956] или Тейл [1964]]. Далее, минимальные средние ущербы, задаваемые формулой (9) настоящего параграфа и формулой (4) § 14.10, также имеют одинаковый вид — все различие состоит в замене на Однако, хотя постоянные и в обоих случаях одни и те же, добавочный член в формуле (9) больше, чем в формуле (4) § 14.10: в этом члене отражается добавочный ущерб, возникающий из-за незнания статистиком истинных состояний
|
1 |
Оглавление
|