Главная > Дифференциальные игры
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

11.7. БИТВА ПРИ БАНКЕР-ХИЛЛ

В общей постановке это задача о сближении противников, стреляющих друг в друга. У каждого имеется ограниченный запас соответствующего оружия, и задача состоит в том, чтобы найти наилучшее распределение его огневой силы. Вероятность поражения мала на большом расстоянии и растет по мере сближения. Слишком ранний огонь ведет к вероятной неэффективности; слишком поздний позволяет противнику сделать чересчур много безответных выстрелов.

Снова мы имеем ситуацию, напоминающую основную или классическую военную теорию. Конкретные реализации, конечно, многочисленны. Мы можем представлять себе сближающиеся суда или военно-морские силы; перехватчик, приближающийся к вооруженному бомбардировщику, или, как гласит наше историческое название, пехотные отряды.

Анализ таких задач не нов. При зарождении теории игр рассматривались дуэльные игры, простейшая из которых состоит

в том, что дуэлянты приближаются один к другому, имея право на единственный пистолетный выстрел. С тех пор эти идеи были распространены на дуэли с многими выстрелами, на «бесшумные» дуэли (см. [10]) и т. д., а также на случаи непрерывного огня в задаче «дуэль с автоматами» Джона Данскина (см. [11]).

Мы изучим с принятой нами точки зрения и частично решим такие игры, где конфликтующими сторонами являются отряды, которые несут потери от огня противника.

Один из наиболее естественных вариантов таких игр приводит к уравнениям движения

Здесь число солдат двух приближающихся армий, которые стреляют друг в друга. Время, через которое они встретятся, обозначено через вероятности поражения и являются убывающими функциями от Величины средние количества боеприпасов на человека в обеих армиях, максимальные скорости огня. Каждая сторона может выбрать любую скорость стрельбы, не превосходящую эту; приняв долю этой скорости за управление, мы получаем третье и четвертое уравнения движения.

Общее число выстрелов, сделанных за единицу времени армией 2 (т. е. максимизирующим плату игроком равно Осредняя, мы можем предположить, что доля этих выстрелов достигает цели; эта величина есть скорость уменьшения армии 1, описываемая первым уравнением; второе получается по симметрии.

Игра заканчивается, когда армии оказываются настолько близко друг от друга, что описанная выше фаза сближения уже

не отражает существа дела. При подходящем выборе отсчета времени это происходит при что мы и принимаем за определение Множество здесь представляет собой область, где все пять фазовых координат не отрицательны.

Наилучший график стрельбы (стратегия) зависит от того, что выбрано в качестве платы. Поскольку возникающие здесь затруднения типичны для военного анализа, мы используем этот пример для того, чтобы продолжить рассмотрение этого вопроса.

Один (довольно хладнокровный) выбор состоит в том, чтобы взять в качестве платы разность выживших людей. Это означает, что

Заметим, однако, что полученное решение будет отражать наш выбор. Не следует удивляться, если одна или обе стороны подойдут к столкновению (после сближения) лишенными боеприпасов. Поскольку выражение (11.7.1) ставит в качестве цели максимизацию лишь превосходства в людях, то для оптимизации каждая сторона, очевидно, пожелает использовать все свои боеприпасы, если для этого хватит времени

Для исправления нереальности такого анализа нужно использовать в качестве платы сохранившийся избыток огневой силы, т. е. принять

Если важно получить преимущество и в людях, и в огневой силе, то в качестве можно использовать линейную комбинацию выражений (11.7.1) и (11.7.2). Однако весовые коэффициенты здесь приходится выбирать на основе здравого смысла, что и определяет ценность решения.

Может оказаться, что армия 1 защищает от посягательства армии 2 такой жизненно важный объект, что для его защиты ей стоит пожертвовать своими бойцами. Тогда обе стороны будут интересоваться числом людей или огневой силой, пробившей оборону, и подходящим выбором для будет или

Имеется лишь один строго логичный путь для выбора платы. Мы должны рассмотреть столкновение, которое произойдет после сближения обеих армий, и проанализировать его как отдельную игру. Следует ожидать, что иена ее будет функцией от которые служат для этой игры исходными данными. Эту функцию от четырех аргументов и следует принять за в исходной игре.

Пусть теперь зависит только от как, например, в формуле (11.7.1). Заметим, что если третье и четвертое из уравнений движения отбросить, то мы будем иметь самостоятельную

игру с фазовыми координатами Ее решением будег поскольку ясно, что наилучшим образом действий для игроков во все моменты времени является максимальная скорость стрельбы. Но тогда наша цель, которая состоит в отыскании наилучшего использования ограниченного количества боеприпасов, теряется. Таким образом, роль указанных двух уравнений состоит в сохранении постановки задачи.

Мы частично решим два случая с платами (11.7.1) и (11.7.2). Оказывается, что оба они имеют довольно сложное решение, и, чтобы избежать детализации частных случаев, мы попытаемся эти задачи упростить. В обоих случаях мы будем игнорировать ограничения на Отсюда следует, что число солдат может стать отрицательным, и это не столь абсурдно, как кажется. Во-первых, вполне вероятно, что в случаях, имеющих практический интерес, ни одна из сторон не будет полностью уничтожена; на самом деле разумные ограничения на фазовые координаты должны, по-видимому, исключать такую возможность. Во-вторых, получаемое решение будет частью полного решения. Для того чтобы его продолжить, надо лишь добавить новую компоненту к на которой соответствующая переменная равна нулю. Добавим, например, где (и при этом остальные фазовые координаты неотрицательны). Подрешение в тривиально: разбитая армия не может стрелять, и конечно, стрелять тоже не станет; тогда и найти V на просто. Используем его в качестве и построим регрессивные оптимальные траектории, исходящие из в Решение получается соединением траекторий этого типа с траекториями, соот ветствующими решению задачи без ограничений на

Используя в качестве платы огневую силу (11.7.2), мы будем также игнорировать требования положительности значений Мы пояснили, что это приведет к бессмыслице при однако в настоящем случае это допустимо по причинам, подобным тем, которые приведены в предыдущем абзаце. Представляется невероятным, чтобы какая-то сторона израсходовала все свои патроны для достижения наилучшей платы, зависящей от их остатка. Если мы пожелаем изучить такие случаи, то, как и выше, можно присоединить дополнительно

Для справок выпишем основное уравнение и уравнения характеристик, относящиеся к рассматриваемым уравнениям движения. Основное уравнение (4.2.3) здесь имеет вид

где

и

Уравнения характеристик имеют вид

Пример 11.7.1. Битва при Банкер-Хилл: плата — огневая сила.

Беря в качестве

из (11.7.2) получаем

Как обычно, дополним начальные условия соотношениями

и получим на

следовательно, по-прежнему на

Это означает полный огонь или его отсутствие в конце в зависимости от знака квадратных скобок. Так, например, перед окончанием открывает полный огонь если и вообще не стреляет в противоположном случае. Если то, по критериям § 7.10 должна существовать универсальная поверхность. Эту поверхность — соответствующее многообразие в пятимерном пространстве — мы не находили, однако укажем на ее важность.

Универсальная поверхность состоит из тех состояний, для которых использует такую относительную, скорость стрельбы, чтобы к моменту окончания получить Это означает, что каждый вражеский солдат имеет (в среднем) именно такое число пуль, которое дает возможность каждому солдату армии убить (в среднем) точно одного человека.

Странный критерий? Напомним, что эта модель описывает тип борьбы, учитывающий экономию боеприпасов; каждая сторона тратит их так, чтобы иметь максимальное превосходство в конце. Критерий, как этого добиться, получен чисто теоретически; он оказывается далеко не очевидным (мы напомним, что он, конечно, относится не только к тем состояниям, которые лежат на самой универсальной поверхности; одна сторона открывает полный огонь, а вторая не отвечает до тех пор, пока не достигается универсальная поверхность). Имеет ли этот критерий непосредственную интерпретацию?

Приведенный выше образ действий лежит, по-видимому, вне сферы практических интересов. Способность уничтожить точно одного человека означает, что фаза сближения настолько растянута, что это позволяет истратить на ее протяжении почти все свои боеприпасы; это, по-видимому, довольно редкий случай.

Более естественные положения, насколько мы можем судить, соответствуют той стороне универсальной поверхности, где Тогда борьба заканчивается полным огнем. В той фазе, когда огонь не открыт, подтверждается разумность команды генерала Уоррена. То, что такой случай действительно встречается в естественной ситуации, будет показано в лемме 11.7.2. Для простоты изучения мы предположим, что а замечание, которое последует за доказательством, покажет, что заключения при этом весьма похожи на практические.

Мы не находили поверхности переключения, существование которой доказано, но по крайней мере при это можно легко сделать с помощью леммы 11.7.1, выписанных выше выражений для и начальных условий. Поверхность будет состоять из тех точек, где «видны белки их глаз».

Наконец, весьма вероятно, что полное решение будет включать в себя универсальное многообразие для обоих игроков, т. е. такое, к которому будут стремиться оба противника. На нем оба управления должны принять промежуточные значения, например и следует ожидать, что размерность его будет меньше размерности поверхности (меньше 4).

Поскольку мы не построили общей теории для таких многообразий и, за исключением интуитивных соображений, у нас нет никаких оснований утверждать, что в данной игре они

существуют, последующее надо рассматривать лишь как предположения.

Вдоль траектории, лежащей на указанном многообразии, поскольку управления здесь принимают промежуточные значения, всюду должны выполняться условия Тогда из основного уравнения следует, что Производные по времени от этих трех величин также обращаются в нуль.

Из уравнений или

можно выразить как функции фазовых координат.

Подставив в левые части уравнений характеристик, получим систему дифференциальных уравнений для фазовых координат. Их интегралы при подходящем выборе начальных условий могут дать искомое универсальное многообразие.

Конечно, для получения окончательных и более исчерпывающих утверждений необходим более глубокий аналиа, чем вышеприведенный.

Пример 11.7.2. Битва при Банкер-Хилл: плата — численность войск в конце игры. Выбор в качестве платы превосходства в людях в момент окончания боя применим к тем случаям, когда события, следующие за сближением, не зависят от количества боеприпасов.

Наше исследование вновь будет лишь частичным. Мы предположим, что одна сторона имеет достаточно боеприпасов для огня с максимальной скоростью, так что всегда Тогда наша задача сводится к наилучшему распределению ограниченного количества боеприпасов лишь одного из противников и, следовательно, будет игрой с одним игроком.

Это не такое сильное ограничение, как кажется на первый взгляд. Во-первых, наша ограниченная задача достаточно интересна сама по себе: например, как лучше всего распределить небольшое количество выстрелов из тяжелого оружия против приближающегося противника, который поддерживает легкий, но

непрерывный заградительный огонь, если точность попадания для обеих сторон возрастает по мере сближения? Во-вторых, решение этой задачи составляет наиболее существенную часть полного решения исходной задачи. Другая часть полного решения, когда противник не стреляет тривиальна. Тем самым покрываются обе крайние возможности для противника. Если поменять игроков ролями, то единственно возможным, но важным упущением будет потерн универсального многообразия малой размерности, двигаясь по которому оба игрока используют промежуточные значения своих управлений.

Теперь мы имеем задачу с одним управлением Фазовую координату можно уже не рассматривать, она не играет никакой роли.

Уравнения движения получаются из предыдущих уравнений (четвертое не нужно) подстановкой

Основное уравнение имеет вид

где старому и

Уравнения характеристик получаются из прежних, если отбросить четвертое уравнение в каждом столбце и положить

Универсальная поверхность для рассматриваемых уравнений движения вычислена в примере 7.9.2.

Нам понадобится также легко вычисляемый результат

где (11.7.4)

Если имеется достаточно боеприпасов, чтобы продолжать стрельбу до конца, его оптимальная стратегия, очевидно, состоит в том, чтобы стрелять в полную силу: Мы получаем нечто подобное рассмотренному в примере 7.14.1, в котором

поверхность, ограничивающая фазовые координаты с такой стратегией (см. рис. 7.14.1), будет, по-видимому, полууниверсальной поверхностью. Поэтому мы будем использовать эту поверхность как терминальную и назовем ее Она характеризуется наличием как раз такого количества боеприпасов, которое можно использовать до момента Параметризуем

(В силу важности координаты мы пишем ее без индекса).

Существует еще одна важная терминальная поверхность. В некоторых случаях оптимальным для будет истратить весь свой боезапас до окончания игры. Мы учтем такую возможность введением терминальной поверхности

Исследуем сначала 2. Чтобы узнать на ней значение мы рассмотрим игру, начинающуюся в типичной точке этой поверхности. Очевидно, что приводит к вынужденному будут удовлетворять уравнениям

при Появление здесь объясняется тем, что это выражение играет роль для точек на 2. Искомое значение будет, как и прежде, значением Интегрируя систему (11.7.5), получаем

и, следовательно,

Наш обычный способ дает затем на

Подставляя начальные условия в основное уравнение, получаем

Если существуют траектории, кончающиеся на то на них должно быть значит, в такой точке Поэтому

Такие входящие в траектории могут существовать, поскольку здесь только если или

Из (11.7.4) мы находим

Вычислив эту функцию на 462, мы найдем притоки там, где т. е. получим состояния, где оптимально заканчивает стрельбу, и должны ожидать, что сингулярные поверхности начинаются в точке, где Если то

где

и решение существенно зависит от знака (напомним, что так как убывающая функция).

Если то для малых (вблизи окончания) и должен истратить все свои боеприпасы раньше. Если то притоки появляются лишь в том случае, когда отношение больше Итак, в некоторых случаях (поблизости от 462 с малым и

должен открыть огонь раньше, если его силы меньше, чем силы и позднее, если их больше. Неравенство грубо говоря, означает, что точность огня быстро убывает с ростом расстояния, когда противники близки, а скорость огня мало. (Мы пренебрегаем значением которое не должно слишком отличаться от 1.)

В силу четырехмерности пространства нам придется ограничиться графиками в плоскости На такой диаграмме (см. рис. 11.7.1) траектории не убывает) горизонтальны, а при они имеют фиксированный наклон На рис. 11.7.1, а поверхность (точнее, ее проекция) показана в виде прямой с этим наклоном, проходящей через начало координат; слева лежит область с избытком где все время используется Проекция поверхности совпадает с осью на которой

Каждому значению должна соответствовать своя такая схема, но она не является сечением пространства для фиксированных так как последние меняют свои значения в течение партии. Тем не менее всякая партия изображается на такой схеме движением точки, которая в конце концов достигнет или

На рис. 11.7.1, а и 11.7.1,6 для малых значений при Если при некотором величина меняет знак, то диаграммы показывают, что переключение на новую стратегию может означать наличие поверхности переключения или универсальной поверхности. Аналогичным образом если то для малых значений диаграммы на рис. 11.7.1, в и указывают на то, что такое переключение ведет к появлению поверхности переключения или рассеивающей поверхности. Итак, оказывается, важно изучить как функцию от

Мы не будем делать это слишком подробно. Предположим, что

где При этом мы не заботимся о правдоподобии при выборе такого закона изменения вероятности; эта функция просто удовлетворяет нашим требованиям и убывает) и ведет к несложным выкладкам.

Тогда

и

(кликните для просмотра скана)

Корнями правой части являются значения и

Ясно, что два последних корня положительны. Корень, отвечающий положительному должен быть меньше а. Нетрудно показать, что этого не может случиться для большего корня, а для меньшего это будет в том и только в том случае, когда

Итак, если или

то для малых но затем меняет знак — осуществляется один из случаев а или на рис. 11.7.1. Чтобы узнать, какой именно, необходим дальнейший анализ, который здесь не проводится. Критерием служит знак при а в входит значение не участвовавшее в предыдущем критерии. Наши собственные неполные вычисления дают возможность предполагать, что здесь может появиться либо универсальная поверхность, либо поверхность переключения.

Если применить лемму 11.7.2, можно показать, что для траектории, на которой будет существовать поверхность переключения; на рис. она показана пунктиром.

Но если для всех Поэтому осуществление случаев в и г рис. 11.7.1 невозможно; траектории остаются горизонтальными всюду справа от Здесь наиболее ярко проявляется ценность команды генерала Уоррена: не стреляет вплоть до последнего момента, начиная с которого он способен исчерпать в точности весь запас патронов.

Анализ для проводится так же, как и для Вместо (11 7.5) мы используем уравнения

Далее процедура полностью повторяется. Находится новое согласующееся со старым при Поэтому вблизи начала координат критерий остается прежним.

По-видимому, есть основания для правдоподобного предположения (наш анализ слишком неполон для определенных высказываний), что из последних рассуждений можно сделать такой вывод:

Команда генерала Уоррена правильна, если

Разумеется, из нашего частичного анализа следует, что полное решение достаточно сложно. Например, если существует универсальная поверхность, примыкающая к то график стрельбы включает в себя три последовательные фазы: первый период — отсутствие огня или огонь с полной силой (притоки), второй период — частичный огонь (на универсальной поверхности, в соответствии с (7.9.19)) и третий период — полный огонь (на

В заключение приведем две леммы, которые уже несколько раз цитировались.

Если то уравнения характеристик можно проинтегрировать в замкнутой форме в случае полного огня, когда Результат немедленно обобщается на случай, когда отношение постоянно; если же нет, мы придем к уравнению типа Рикатти.

Лемма 11.7.1. Система

с начальными условиями имеет решение

где

и

Если при тех же уравнениях характеристик функции V, принимают значения при то они также имеют вид (11.7.8), но при этом

Доказательство, разумеется, состоит в непосредственном решении.

Пусть на некоторой поздней стадии игры Мы хотим узнать, существуют ли поверхности переключения, т. е. были ли раньше или равны 0.

Лемма 11.7.2. Если в игре «Битва при Банкер-Хилл» с существует множество точек для которых то в некоторый более ранний момент времени траектория, проходящая через встречается с поверхностью переключения, перед которой было равно нулю, при условии, что либо

либо

и

Доказательство. Значение зависит от знака который, по предположению, на отрицателен. Надо показать, что при больших х он становится положительным. Из леммы 11.7.1 получаем, что

для некоторых постоянных значений причем последнее есть значение на так как из уравнений движения следует, что функция постоянна вдоль траектории. Выражение, стоящее в квадратных скобках, благодаря является возрастающей функцией от

Поскольку мы знаем, что нам достаточно установить, что предшествующее ему слагаемое становится достаточно малым при больших В случае выполнения условия (1) это следует из того, что стремится к фиксированному пределу, к нулю. В случае (2) нас будет интересовать выражение

где константы, так что наш результат следует из условия (2).

Заметим, что в трехмерном физическом пространстве вероятность поражения убывает для больших дальностей обратно

пропорционально квадрату расстояния. Если расстояние в нашей игре убывает со временем линейно, то

и условие (1) выполнено.

В менее правдоподобном двумерном случае выполняется условие (2) и правильность команды генерала Уоррена будет зависеть от справедливости неравенства (11.7.9).

Отметим, что предположение следует считать выполненным. Поскольку армия 1 является игроком, минимизирующим плату, следует ожидать, что цена игры будет убывать с увеличением количества располагаемых ею боеприпасов.

Categories

1
Оглавление
email@scask.ru