Главная > Дифференциальные игры
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.4. ВОЙНА НА ИЗНУРЕНИЕ И НАПАДЕНИЕ

Пусть две вступившие в затяжную войну стороны имеют в момент времени запасы вооружения соответственно. На всем протяжении войны каждая из сторон может выбирать, как распределить свои силы между изнурением противника, т. е. уменьшением темпов его снабжения вооружением, и нападением, т. е. непосредственным введением вооружения в боевой конфликт. Запасы вооружения могут быть подсчитаны; каждая сторона стремится накопить их больше, чем противник, и разница составляет плату.

Таким образом, оптимальное решение здесь лежит между политикой «дальнего прицела» — «изнурением» противника — и прямолинейной политикой «нападения» на него. Мы разберем сейчас простейший возможный вариант этой общей задачи, к которой вернемся в § 11.9, где рассматривается еще один ее вариант.

Фактически оптимальные стратегии состоят из ряда дискретных решений. Но мы будем сглаживать их в непрерывные

процессы. Это, разумеется, не дальше от действительности, чем остальные наши допущения, так что можно надеяться получить приближение к реальности не хуже того, которое дает дискретный вариант; к тому же непрерывные модели проще в обращении и позволяют легче получить основные результаты.

Пусть в каждый момент времени делит свои запасы вооружения на две части: выделяет для изнурения противника и оставляет для нападения. Здесь удовлетворяет условию Далее, если не мешает в производстве вооружения, то имеет возможность производить его со скоростью Если вмешивается, то теряет часть этой скорости в зависимости от того, какую величину выделяет для целей изнурения. За отсутствием лучшей информации примем эту скорость пропорциональной величине Тогда

где коэффициент можно рассматривать как меру эффективности оружия против средств защиты

Поменяв игроков ролями, получим аналогичное уравнение. Таким образом, имеем два уравнения движения.

Допустим, что война будет длиться некоторое конечное время Пусть, скажем, каждый день командующие посылают на поле сражения соответственно вооружения. Сумма этих количеств за время выражает боевую силу или а разность — превосходство одной из сторон над другой. Эта разность и будет платой, но в соответствии с нашей тенденцией к сглаживанию мы выражаем ее в виде интеграла

Чтобы свести задачу к обычной схеме теории игр, примем (или если угодно) за новую фазовую координату. Тогда уравнениями движения будут

где

Пространством игры является октант

а есть часть его границы, где допускает такую параметризацию:

эти соотношения входят в число начальных условий. Будем считать, что

а если справедливо обратное неравенство, то просто поменяем обозначения.

Мы будем предполагать, что в процессе игры не могут стать отрицательными. Мы увидим, что это поможет добраться до сути дела с меньшими затруднениями.

Обозначая частные производные от V через выпишем основное уравнение (4.2.1):

тогда основное уравнение (4.2.3) примет вид

где

и

Заметим, что здесь уже использовано допущение о том, что

Уравнениями характеристик в регрессивной форме будут уравнения

а уравнение для в этой игре становится ненужным.

Найдем теперь остальные начальные условия. Так как на имеем

и аналогично на Тогда здесь

Таким образом, обе стороны оканчивают войну, расходуя все свое вооружение только для нападения.

Теперь проинтегрируем уравнения характеристик в регрессивной форме, используя найденные начальные условия и то, что на Получим

На оптимальных траекториях

откуда видно, что впервые перестают быть положительными, когда Из (5 4.1) следует, что раньше обращается в нуль, чем (считая от конца) Поэтому можно ожидать наличия поверхности переключения при

должно скачком изменить свое значение с на 1. Так оно и оказывается на самом деле; это подтверждает дальнейший анализ Тогда за время до окончания войны резко меняет политику «изнурения» на политику «нападения».

Обозначим поверхность (5.4.3) через Значение цены между определяется интегралом

Чтобы выразить V через фазовые координаты, положим в левых уравнениях и исключим Получим

Будем теперь рассматривать как множество начальных условий точно так же, как раньше рассматривали При этом можно подставить в (5.4.2) и снова использовать но теперь уже как параметры поверхности а можно начать новый этап интегрирования с новыми параметрами. Выбирая последнее, имеем для

где уже не те, что раньше. Из правых уравнений (5.4.2) сразу получаем, что на

Оба эти условия можно также получить нашим стандартным методом, если функцию (5.4 5) на принять за

Интегрируя уравнения характеристик в регрессивной форме с этими начальными условиями, мы принимаем Правильность такого выбора подтверждается тем, что эти управления приводят к надлежащим знакам в чем можно убедиться, проделав соответствующие вычисления. В результате получаем

Здесь так же как и было заново выбрано на и не совпадает с тем, которое было при первом интегрировании. Теперь

Ясно, что при и это подтверждает наш выбор

Из (5.4.1) следует, что при Поэтому для малых но до тех лишь нор, пока Уравнение имеет один положительный корень, равный

Если допустить, что это значение определяет вторую поверхность переключения и что управления в дальнейшем больше

не изменяются, что очень правдоподобно, то мы тем самым полностью получили оптимальные стратегии для случая (представляющего наибольший практический интерес), когда не обращаются в нуль

Итак, за время до окончания воины переходит от «изнурения» к «нападению», а делает это раньше, за время

до окончания

Последнее значение соответствует, разумеется, новой поверхности переключения, которую мы обозначим на ней

Найдем теперь V между и Это можно сделать двумя способами Во первых, можно написать

где есть значение V на и полученное из (5 4 5) с аргументами из (54 6) Подинтегральная функция также берется из (5 4 6), и, наконец, мы используем эти уравнения чтобы исключить

Второй способ таков нужно взять и из (5 4 7), заменить значением а затем получить из основного уравнения (4 2 3) Интегрируя полученные уравнения, находим V с точностью до постоянного слагаемого, которое определяется с помощью значения V на В результате имеем

Заметим, что по другую сторону поверхности функция равна нулю, а V больше уже не меняется — она определяется здесь формулой (5 4 9), где

Сейчас мы можем либо поверить эвристическим обоснованиям того, что есть поверхность переключения и стратегии больше не будут меняться, либо применить критерий, приведенный в § 7 11, либо, наконец, продолжить решение на другую сторону Тогда мы непосредственно убедимся в том, что больше не меняют знаки, и к тому же получим оптимальные стратегии в этой области Мы предоставляем выбор, а в по следнем из способов и весь труд читателю

Теперь еще осталось учесть в решении ограничение Наилучший метод состоит, по-видимому, в том, чтобы вначале рассматривать части границы пространства У, где как двумерные подигры Когда цена для этих подигр будет известна, ее можно использовать в качестве и в можно построить новые оптимальные траектории, которые должны сливаться со старыми

Рис. 5.4.1

Подробнее пусть — множество

принадлежащее границе пространства определяется теми же уравнениями, но с заменой индекса 1 индексом 2 и обратно

Если теперь состояние партии описывается точкой х, лежащей на то это означает, что нет вооружения ( и было бы безрассудно со стороны затрачивать на «изнурение» больше средств применять большее), чем это нужно для того, чтобы сохранить равным нулю Действительно, на практике выглядело бы глупо, если бы попусту растрачивал вооружение на «изнурение», вместо того чтобы использовать его для «атаки», и тем самым проигрывал бы в плате. Но в теории,

где игра рассматривается как чисто математическая задача, нужно установить, какие подчиненные заданным ограничениям, необходимы, чтобы удержать х внутри границ пространства У.

Рассмотрим часть подмножества или лежащую между в этой области, как мы знаем, Из уравнений движения следует, что здесь (это ясно также из интуитивных соображений: количество вооружения растет, когда отсутствует «изнурение»).

Рис. 5.4.2.

Следовательно, в этих точках оптимальные траектории сразу же покидают и следуют к так что здесь не возникает никаких трудностей.

На рис. 5.4.1 изображено типичное сечение пространства для некоторого постоянного, достаточно большого и показаны оптимальные траектории. Траектории, найденные раньше для области между и расположены здесь выше а о тех, которые лежат ниже мы только что говорили. Если по ним пойдем назад возрастает), то достигнем в одной из точек отрезка 0.4, и это не внесет никаких изменений в наши рассуждения.

Но в точках множесгва расположенных с другой стороны от где может случиться, что остается равным нулю в течение некоторого времени Траектории здесь могут

быть такими, как, скажем, на рисунке Из уравнения движения

видно, что может оставаться равным нулю (скажем, как на только если

Если выполняется это неравенство, причем то вмесю управления должен применять

до тех пор. пока х не достигнет рисунке — точка А). Теперь построим следующую подигру.

Фазовыми координатами будут и (поскольку пространство подигры задано неравенствами (5.4.10) и (соответствующая область на рис. 5.4.2, изображающем пространство для исходной общей игры, расположена «на полу» и отмечена клетками). Параметризация для терминальной поверхности подигры такова:

На ней есть цена игры, определяемая по формуле (5.4.5)

Уравнения движения имеют вид

Используя (5.4 11) и получаем

Предоставим читателю выявить подробности этой простой подигры без управлений. Из ее решения понадобятся лишь и полученные при интегрировании уравнений характеристик в регрессивной форме, а именно:

Вернемся теперь к самой игре Нам нужно построить траектории уравнении характеристик в регрессивной форме с начальными условиями

заданными на части множества Подставляя эти величины в (5 4 12), получаем остальные начальные условия Еще остается определить значение оно получается из основного уравнения (4.2.3) при и равно

Мы уже интегрировали уравнения характеристик в регрессивной форме с этими начальными условиями Чтобы найти поверхность переключения, исследуем теперь таким же способом, как и раньше, изменение знака вдоль полученных траектории

Выполнив соответствующие вычисления, мы видим, что остается положительным, меняет знак, но не на Оказывается, что часть этой плоскости должна быть заменена криволинейной поверхностью

На рис новые траектории представлены траекторией и лежащими ниже нее траекториями типа Ниже прямая должна быть заменена дугой, которая нарисована пунктиром и на которой меняет знак Полная картина изображена на рис. 5.4.2 «Шов» где криволинейная поверхность заменяет можно получить, рассматривая траектории, исходящие из

Что означает это видоизменение

Вообще говоря, найденное решение предписывает обоим игрокам при достаточно большом начинать партию, расходуя все вооружение для «изнурения» Затем в определенный для каждого игрока момент происходит полное переключение на «атаку» Эти моменты существенно зависят лишь от одних количество вооружения и скорости его производства не имеют значения Искривленная часть является исключением Она означает, что добивается лучшей платы, переключаясь с «изнурения» на «нападение» раньше, чем игра достигла в момент, зависящий от Это как бы подтверждает интуи тивные соображения рассуждающего так «Если впоследствии мои атакующие усилия будут сведены к нулю вследствие уничтожения моих сил, то лучше мне начать нападение скорее» Аналогичное явление имеет место также на где на некотором интервале времени может быть нулем Это происходит в области, отмеченной клетками на вертикальной «стене»

Траектории, исходящие отсюда и идущие внутрь не достигают поверхности переключения

Наконец заметим, что формулы для V не выполняются в областях, покрываемых траекториями, исходящими из или

(см. скан)

1
Оглавление
email@scask.ru