Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
21-4. ОБ АЛГОРИТМАХ ИГРОВЫХ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯКак указывалось ранее, характерная особенность игровых систем автоматического управления состоит в формировании команд управления путем сопоставления возможных выборов и решений. Критерием сопоставления служит функция
Рис. 21-11. Функциональная схема игровой системы с набором шаблонных решений. выгоды, точнее ее математическое ожидание вконце данного хода или в конце всей последовательности ходов. Целесообразный алгоритм игровой системы автоматического управления определяется множествами возможных выборов сторон, принятой функцией выгоды, располагаемой информацией и другими факторами. По-видимому, возможно большее число классов алгоритмов игровых систем автоматического управления. В настоящее время с достаточной отчетливостью можно выделить два принципиально различных класса. Соответствующие этим классам алгоритмов типы игровых систем автоматического управления обозначены на рис. 1-1. Первый (наименее совершенный) тип назван системами с набором шаблонных решений. Пользуясь приведенным выше термином, системы этого типа можно также назвать системами с исчерпывающим алгоритмом. Сущность алгоритма подобных систем весьма проста. Она заключается в том, что возможные действия I стороны, управляемой данной системой, и II стороны, не управляемой данной системой, разбиваются на конечное число определенных вариантов. Эти варианты нумеруются. Следует сказать, что под действием здесь понимается не один ход, а вся последовательность ходов в течение игры (операции). Далее производится предварительное теоретическое или экспериментальное исследование рационального соответствия действий I и II сторон. Это исследование имеет целью указать такое соответствие между элементами множеств возможных действий сторон, при котором гарантированное значение функции выгоды I стороны было бы наибольшим. В понятиях теории игр (§ 21-2) это означает, что отыскивается оптимальная стратегия 1-го игрока. Все это делается до проведения игры и даже до построения управляющей части системы. Полученное соответствие действий — оптимальная стратегия — есть алгоритм рассматриваемого типа систем. Для реализации этого алгоритма в запоминающем устройстве управляющей машины записывают выбранное соответствие пронумерованных действий I и II сторон. Например (в десятичном коде):
Эта запись означает, что при первом варианте действий II стороны выбирается 278-й вариант действий I стороны. При втором варианте действий II стороны выбирается 43-й вариант действий I стороны и т. д. Помимо записи стратегии в запоминающем устройстве, реализация рассматриваемых систем с набором шаблонных решений требует осуществления преобразования номера действия I стороны в последовательность соответствующих команд и преобразования получаемой информации о II стороне в номер наиболее вероятного варианта действия этой стороны. Работа игровой системы автоматического управления с набором шаблонных решений заключается в следующем (рис. 21-11). По полученной информации о действиях II стороны управляющая машина определяет «а основе некоторых показателей номер Рассматривая функциональную схему и принцип действия игровой системы автоматического управления с набором шаблонных решений, замечаем, что системы этого типа сами по себе не выполняют никаких логических действий, заменяющих в той или иной мере мыслительную деятельность. Все здесь подчинено заранее составленной подробной «инструкции», рассчитанной на строго определенные варианты действий II стороны. Управляющая машина выполняет здесь весьма элементарную операцию соответствия номеров вариантов Действия системы шаблонны, что можно считать основным недостатком рассматриваемого типа игровых систем автоматического управления. Действительно, лишь в отдельных случаях можно указать строго ограниченное число вариантов возможных действий II стороны. В большинстве практических применений игровых систем управления число возможных вариантов обстановки и действий II стороны весьма велико или неограниченно велико. Между тем всякое действие II стороны, не предусмотренное заранее в наборе номеров Поэтому во многих случаях очень трудно правильно решить задачу подбора номера варианта, наиболее точно соответствующего фактическим действиям II стороны. Работа блока определения номера подходящего варианта (рис. 21-11) затруднена из-за недостатка информации. К этому следует добавить, что составление инструкции в виде соответствия номеров вариантов Во всех других случаях необходимы игровые системы, обеспечивающие большую «гибкость» управления. К числу таких систем относятся игровые системы автоматичекого управления, названные нами игровыми системами с автоматическим поиском решений (рис. 1-1). Напомним, что существо метода динамического программирования заключается в поэтапном решении задачи оптимальности. Разработанный как метод вычислений оптимальных процессов (§ 21-3), он является также естественным методом управления. Действительно, если обратиться к аналогиям из области управления человеком различными операциями и сложными процессами, то можно убедиться, что это управление часто состоит в поэтапном принятии решений на основе поэтапной оценки обстановки и контроля результатов выполнения предыдущих решений. В рассматриваемой игровой системе автоматического управления поиск оптимального выбора в
Рис. 21-12. Функциональная схема игровой системы с автоматическим поиском решений. каждом этапе (шаге) осуществляется управляющей машиной. Функциональная схема игровой системы с автоматическим поиском решений, частично уже рассмотренная во вводной части данной славы, представлена на рис. 21-12. Для наглядности будем полагать, что отдельные операции в системе управления выполняются отдельными блоками. Информация о состоянии и действиях сторон поступает на блок возможных выборов. Этот блок определяет множества возможных выборов в каждом этапе на основе начальной и рабочей информаций о I и II сторонах. Начальная информация о I стороне представляет собой совокупность сведений о характеристиках и составе управляемых средств. Необходимая начальная информация о II стороне в достаточно совершенной игровой системе с автоматическим поиском решений должна быть минимальной, однако наличие некоторых сведений об ограничениях возможных действий II стороны необходимо. Без этого нельзя решить задачу определения множества возможных вариантов. Так, например, при управлении обороной необходимо знать хотя бы самые грубые оценки средств нападения. Рабочая информация о действиях II стороны представляет собой совокупность сведений о состоянии и действиях II стороны в начале текущего этапа (шага) управления. Аналогично рабочая информация о действиях I стороны характеризует состояние управляемого процесса в начале текущего этапа. Таким образом, рабочая информация поступает в блок определения возможных выборов управляющей машины дискретно во времени в соответствии с этапами или шагами управляемой операции. Заметим, что дискретность поступления рабочей информации в управляющую машину игровой системы, так же как и дискретность посылки команд управления, не имеет специального обозначения на рассматриваемой схеме, но ее необходимо иметь в виду при изучении функционирования данной системы. Блок определения возможных выборов на основе очередной «порции» рабочей информации и заранее введенной начальной информации определяет все возможные выборы — решения для текущего этапа операции. Далее следует вычисление математического ожидания
Рис. 21-13. Изменение во времени математического ожидания функции выгоды. понимается значение в конце текущего этапа операции. Далее следует поиск того выбора, которому соответствует наибольшее значение Если структура функции выгоды По окончании данного этапа операции весь цикл управления повторяется; вновь поступает рабочая информация в управляющую машину, вновь определяются возможные выборы и соответствующие им значения Из приведенного описания очевидно, что многоэтапный процесс управления в игровой системе с автоматическим поиском решений является замкнутым дискретным процессом: результат выполнения команд предыдущего этапа служит исходным для формирования и отработки команд следующего этапа. Полное описание динамики замкнутого процесса управления в игровой системе зависит от изменения во времени всех координат этого процесса. Однако важнейшие показатели динамики процессов управления в игровых системах могут быть определены при (рассмотрении двух основных характеристик: изменения во времени математического ожидания функции выгоды Последовательность значений математического ожидания
Рис. 21-14. Изменение разброса функции выгоды во времени. (рис. 21-13) - определяет математическое ожидание выгоды по истечении Второй основной характеристикой динамики процесса управления в игровой системе является изменение разброса функции выгоды во. времени. Это изменение условно показано на рис. 21-14 в виде заштрихованной полосы. Разброс функции выгоды удобно характеризовать энтропией этой функции или дисперсией. Таким образом, кривая изменения энтропии или дисперсии функции выгоды во времени представляет вторую основную характеристику динамики процесса управления в игровой системе. Изменение во времени математического ожидания и дисперсии функции выгоды — наиболее важные показатели динамики процессов управления в игровых системах. Игровые системы автоматического управления с автоматическим поиском решений имеют широкую перспективу применения и совершенствования. Укажем два пути развития и усовершенствования этих систем. Первый путь заключается в придании игровым системам свойств систем с накоплением опыта. Второй путь заключается в усовершенствовании способа поиска оптимальных выборов. Системами с накоплением опыта называются системы, способные изменять характеристики и алгоритм действия в соответствии с опытом предшествующей работы. В игровых системах это касается прежде всего накопления опыта корректировки функции выгоды. Действительно, из самого принципа работы игровой системы следует, что вид функции выгоды имеет фундаментальное значение для процесса управления. Между тем ввиду принципиальной неполноты априорной информации, имеющейся при построении игровой системы, первоначальная функция выгоды всегда строится на основе более или менее оправданных гипотез. Это относится не только к структуре функции выгоды, но и к числовым значениям параметров, входящих в эту функцию. Например, расчетная эффективность различных средств обороны может существенно отличаться от фактической эффективности в каждой данной операции из-за помех или других непредвиденных обстоятельств. При Что касается усовершенствования способов поиска оптимальных выборов, то здесь основой служит информация о структуре функции выгоды на множестве возможных выборов в каждом этапе. Несмотря на то, что многоэтапный процесс управления в игровых системах с автоматическим поиском решений резко сокращает число возможных решений по сравнению с одноэтапным процессом, во многих практических применениях число возможных выборов в каждом этапе все же весьма велико. Слепой поиск оптимального выбора здесь может оказаться технически неосуществимым или затрудненным. Между тем если структура функции выгоды на множестве выборов известна, то возможны весьма экономные методы поиска. Так, например, если возможный выборы удается пронумеровать так, что каждому выбору соответствует условный номер.
где
и функция выгоды есть линейная функция чисел х,
то для поиска наибольшего значения В заключение следует сказать, что игровые системы автоматического управления относятся к высшим формам автоматических систем, имеющим огромные перспективы развития и применения.
|
1 |
Оглавление
|