Главная > Дифференциальные игры
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.2. ПРИНЦИП ПЕРЕХОДА И ОСНОВНОЕ УРАВНЕНИЕ

Приемы, с помощью которых мы будем решать дифференциальные игры, вообще говоря, отличаются от использованных в дискретных случаях гл. 3. С 1951 г, когда впервые была публично сформулирована [17] общая идея, на которой основаны эти приемы, появилось несколько других вариантов той же идеи (принцип оптимальности, принцип максимума Понтрягина), относящихся к играм с одним игроком (теория управления) Эту идею мы назвали

Принцип перехода Если в игре произошел переход из одного положения в другое и если во втором положении значение V известно, то в первом оно определяется следующий требованием игроки должны оптимизировать приращение функции V (т. е. добиться его минимакса) за время перехода

В дискретных играх принцип перехода применяется непосредственно, а в непрерывном случае в результате его применения получаются дифференциальные равнения

Предположим, что цена дифференциальной игры существует. Она будет зависеть от начальной точки х, и мы обозначаем ее Покажем, что если принадлежит классу то она удовлетворяет уравнению в частных производных первого порядка, которое мы будем называть основным уравнением Здесь и далее будем писать V, вместо Основное уравнение имеет вид

Суммирование производится от 1 до где размерность пространства

В силу предположения о минимаксе уравнение не изменится, если в (4 2 1) поменять местами, берутся по всем допустимым (векторным) значениям удовлетворяющим соответствующим условиям

Мы дадим два способа вывода основного уравнения Первый изложим в этом параграфе. Подход наш является но сути эвристическим, что вполне допустимо ввиду того, что строгие обоснования мы приведем при втором способе (математик легко сможет усмотреть, как сделать наши рассуждения строгими) Преимущество первого способа заключается в его прямом и поучительном характере Он основан на принципе перехода.

Суть его состоит в том, что рассматривается совокупность траекторий, исходящих из различных начальных точек Возьмем некоторый интервал времени в середине игры Пусть к началу этого интервала траектория достигла некоторой определенной точки в Рассмотрим всевозможные точки, которые могут быть достигнуты в конце этого интервала для всех допустимых управлений, выбираемых обоими игроками Предположим, что для каждой такой точки х решение найдено, известно значение Тогда можно подсчитать плату, соответствующую каждой паре управлений , определенных на этом интервале. управления следует выбрать так, чтобы добиться минимаксного значения платы Уменьшая затем длину интервала и устремляя ее к нулю, получаем в результате дифференциальное уравнение

Изложим теперь все это формально. Пусть в момент времени состояние игры описывается некоторой точкой х, принадлежащей и пусть значение V в точке х известно Через малый промежуток времени положение изменяется и мы переходим

в точку Тогда плата в точке х равна

Действительно, за время плата получила прнращепие, равное интегралу в правой части равенства. Чтобы получить плату в точке х, нужно прибавить этот интеграл к значению платы в точке (которое равно, разумеется, сумме такого же интеграла, взятого по оставшемуся времени продолжения игры, и значения в терминальной точке). Мы предполагаем, что, начиная от точки игра развивается оптимально, так что плата в равна

Будем теперь считать точку х фиксированной, а будем менять. Для этого достаточно изменять на интервале

Разложим интеграл в ряд Тейлора по формуле

Точку можно представить в виде

где для достаточно малого

ибо есть при выбранных Выполнив все эти преобразования с учетом соотношения (4.1.1), получим

где значения управлений в точке а а стремится к нулю вместе с

Мы должны взять минимакс по отношению к Это значит, что нужно взять минимакс выражения, заключенного в скобки Но, по определению, минимакс есть поэтому минимакс заключенной в скобки суммы должен быть равен нулю. Устремив теперь к нулю, получим основное уравнение (42.1).

Если мы действительно найдем обеспечивающие минимакс (4 2 1) (или некоторый разумный их набор для случая, когда они определяются неоднозначно), то они будут, вообще

говоря, зависеть от Вектор удобно записывать, как Тогда управления, доставляющие минимакс основному уравнению (4 12), будем обозначать

Если эти функции подставить в (4.2 1), то выражение в скобках обратится в нуль, и мы получим

Это уравнение в частных производных первого порядка относительно V, которому должна удовлетворять иена игры.

Мы уже обозначали раньше через оптимальные стратегии Заметим, что функции (4 2 2) вовсе не являются стратегиями, ибо мы предполагаем, что на этой стадии мы еще знаем Однако это противоречие в обозначениях не приводит к каким-либо недоразумениям и устраняется введением какого-нибудь нового обозначения для (4 2 2), скажем Как только V становится известной, ее частные производные подставляются в (4 2 2), эти функции превращаются в оптимальные стратегии и упомянутое выше неудобство исчезает.

В дальнейшем при написании уравнения (4 2.3) аргументы функций часто для краткости будут опускаться Об этом нужно помнить всякий раз, когда будет идти речь об уравнении (4 2 3)

В приведенных здесь упражнениях уравнения движения такие же, как в примерах 44 1—4 45 (для выполнения упражнений, однако, нет необходимости вникать в сущность примеров).

Упражнение 4.2.1. Пусть плата терминальная и уравнения движения имеют вид

где ктадкие положительные функции Написать основное уравнение в форме (4 2 1) и (4.2.3) и показать, что уравнение в форме (4.2 3) имеет вид

где

(Использовать лемму 2.8.1.)

Упражнение 4.2.2. Игра «шофер-убийца». Написать основное уравнение в форме (4.2.1) и (4.2.3) для уравнений движения в естественном пространстве (пример 2.1.1) и в редуцированном пространстве (пример 2.2.2). Для в первом случае ввести обозначения где индексы относятся к соответствующим фазовым координатам в том порядке, как они появляются в уравнениях движения (Читатель может сравнить написанные им основные уравнения с теми, которые появляются далее на этих страницах.)

Отметим, что вдоль оптимальной траектории

и что V постоянна на всех таких траекториях в том и только в том случае, когда плата является терминальной.

Существует другая точка зрения на применение принципа перехода, и хотя впоследствии она не будет использована в явном виде, читателю следует иметь ее в виду для лучшего понимания дальнейшего материала.

Пусть — дифференциальная игра с пространством игры и терминальной поверхностью Для данной начальной точки х рассмотрим в поверхность пересекающую оптимальные траектории, исходящие из окрестности точки х. Пусть подобласть в содержащая х и имеющая частью своей границы. Построим новую игру с пространством игры и терминальной поверхностью Эта игра формулируется так же, как и только терминальную плату на мы примем равной V — цене игры в соответствующей точке поверхности Тогда ясно, что принцип перехода означает:

Решения игр и в окрестности точки х (цена, оптимальные траектории и стратегии) совпадают в

Второй вывод основного уравнения опирается на некоторую новую концепцию, изложенную в следующем параграфе.

1
Оглавление
email@scask.ru