Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
21-4. ОБ АЛГОРИТМАХ ИГРОВЫХ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯКак указывалось ранее, характерная особенность игровых систем автоматического управления состоит в формировании команд управления путем сопоставления возможных выборов и решений. Критерием сопоставления служит функция
Рис. 21-11. Функциональная схема игровой системы с набором шаблонных решений. выгоды, точнее ее математическое ожидание вконце данного хода или в конце всей последовательности ходов. Целесообразный алгоритм игровой системы автоматического управления определяется множествами возможных выборов сторон, принятой функцией выгоды, располагаемой информацией и другими факторами. По-видимому, возможно большее число классов алгоритмов игровых систем автоматического управления. В настоящее время с достаточной отчетливостью можно выделить два принципиально различных класса. Соответствующие этим классам алгоритмов типы игровых систем автоматического управления обозначены на рис. 1-1. Первый (наименее совершенный) тип назван системами с набором шаблонных решений. Пользуясь приведенным выше термином, системы этого типа можно также назвать системами с исчерпывающим алгоритмом. Сущность алгоритма подобных систем весьма проста. Она заключается в том, что возможные действия I стороны, управляемой данной системой, и II стороны, не управляемой данной системой, разбиваются на конечное число определенных вариантов. Эти варианты нумеруются. Следует сказать, что под действием здесь понимается не один ход, а вся последовательность ходов в течение игры (операции). Далее производится предварительное теоретическое или экспериментальное исследование рационального соответствия действий I и II сторон. Это исследование имеет целью указать такое соответствие между элементами множеств возможных действий сторон, при котором гарантированное значение функции выгоды I стороны было бы наибольшим. В понятиях теории игр (§ 21-2) это означает, что отыскивается оптимальная стратегия 1-го игрока. Все это делается до проведения игры и даже до построения управляющей части системы. Полученное соответствие действий — оптимальная стратегия — есть алгоритм рассматриваемого типа систем. Для реализации этого алгоритма в запоминающем устройстве управляющей машины записывают выбранное соответствие пронумерованных действий I и II сторон. Например (в десятичном коде):
Эта запись означает, что при первом варианте действий II стороны выбирается 278-й вариант действий I стороны. При втором варианте действий II стороны выбирается 43-й вариант действий I стороны и т. д. Помимо записи стратегии в запоминающем устройстве, реализация рассматриваемых систем с набором шаблонных решений требует осуществления преобразования номера действия I стороны в последовательность соответствующих команд и преобразования получаемой информации о II стороне в номер наиболее вероятного варианта действия этой стороны. Работа игровой системы автоматического управления с набором шаблонных решений заключается в следующем (рис. 21-11). По полученной информации о действиях II стороны управляющая машина определяет «а основе некоторых показателей номер подходящего варианта действий II стороны из числа предусмотренных в машине. Определенный номер подается в блок соответствия, в котором записана стратегия в виде соответствия номеров вариантов действия I и II сторон. Номер варианта действия управляемой системы (I сторона) поступает в блок формирования команд, где этот номер преобразуется в последовательность команд. Команды воздействуют на управляемый процесс. Контроль выполнения команд может составлять дополнительный контур передачи информации (обратную связь), воздействующий на блок формирования команд. Рассматривая функциональную схему и принцип действия игровой системы автоматического управления с набором шаблонных решений, замечаем, что системы этого типа сами по себе не выполняют никаких логических действий, заменяющих в той или иной мере мыслительную деятельность. Все здесь подчинено заранее составленной подробной «инструкции», рассчитанной на строго определенные варианты действий II стороны. Управляющая машина выполняет здесь весьма элементарную операцию соответствия номеров вариантов Действия системы шаблонны, что можно считать основным недостатком рассматриваемого типа игровых систем автоматического управления. Действительно, лишь в отдельных случаях можно указать строго ограниченное число вариантов возможных действий II стороны. В большинстве практических применений игровых систем управления число возможных вариантов обстановки и действий II стороны весьма велико или неограниченно велико. Между тем всякое действие II стороны, не предусмотренное заранее в наборе номеров управляющей машины, делает систему неработоспособной. Далее, количество рабочей информации о действиях II стороны, как правило, ограниченно, неполно. Поэтому во многих случаях очень трудно правильно решить задачу подбора номера варианта, наиболее точно соответствующего фактическим действиям II стороны. Работа блока определения номера подходящего варианта (рис. 21-11) затруднена из-за недостатка информации. К этому следует добавить, что составление инструкции в виде соответствия номеров вариантов т. е. определение оптимальной стратегии, основывается на вполне определенных правилах игры — определенных условиях, накладываемых на действия сторон и их взаимодействие. В практических применениях часто нельзя указать строго определенные правила «игры» — строго определенные ограничения, накладываемые на действия сторон. Все эти обстоятельства указывают на то, что игровые системы автоматического управления с набором шаблонных решений могут применяться лишь в специальных простейших случаях, когда разнообразие возможных действий сторон огракиченно и располагаемая рабочая информация достаточно полна. Во всех других случаях необходимы игровые системы, обеспечивающие большую «гибкость» управления. К числу таких систем относятся игровые системы автоматичекого управления, названные нами игровыми системами с автоматическим поиском решений (рис. 1-1). Напомним, что существо метода динамического программирования заключается в поэтапном решении задачи оптимальности. Разработанный как метод вычислений оптимальных процессов (§ 21-3), он является также естественным методом управления. Действительно, если обратиться к аналогиям из области управления человеком различными операциями и сложными процессами, то можно убедиться, что это управление часто состоит в поэтапном принятии решений на основе поэтапной оценки обстановки и контроля результатов выполнения предыдущих решений. В рассматриваемой игровой системе автоматического управления поиск оптимального выбора в
Рис. 21-12. Функциональная схема игровой системы с автоматическим поиском решений. каждом этапе (шаге) осуществляется управляющей машиной. Функциональная схема игровой системы с автоматическим поиском решений, частично уже рассмотренная во вводной части данной славы, представлена на рис. 21-12. Для наглядности будем полагать, что отдельные операции в системе управления выполняются отдельными блоками. Информация о состоянии и действиях сторон поступает на блок возможных выборов. Этот блок определяет множества возможных выборов в каждом этапе на основе начальной и рабочей информаций о I и II сторонах. Начальная информация о I стороне представляет собой совокупность сведений о характеристиках и составе управляемых средств. Необходимая начальная информация о II стороне в достаточно совершенной игровой системе с автоматическим поиском решений должна быть минимальной, однако наличие некоторых сведений об ограничениях возможных действий II стороны необходимо. Без этого нельзя решить задачу определения множества возможных вариантов. Так, например, при управлении обороной необходимо знать хотя бы самые грубые оценки средств нападения. Рабочая информация о действиях II стороны представляет собой совокупность сведений о состоянии и действиях II стороны в начале текущего этапа (шага) управления. Аналогично рабочая информация о действиях I стороны характеризует состояние управляемого процесса в начале текущего этапа. Таким образом, рабочая информация поступает в блок определения возможных выборов управляющей машины дискретно во времени в соответствии с этапами или шагами управляемой операции. Заметим, что дискретность поступления рабочей информации в управляющую машину игровой системы, так же как и дискретность посылки команд управления, не имеет специального обозначения на рассматриваемой схеме, но ее необходимо иметь в виду при изучении функционирования данной системы. Блок определения возможных выборов на основе очередной «порции» рабочей информации и заранее введенной начальной информации определяет все возможные выборы — решения для текущего этапа операции. Далее следует вычисление математического ожидания упрежденного значения функции выгоды для каждого из возможных выборов. Напомним, что под упрежденным значением здесь
Рис. 21-13. Изменение во времени математического ожидания функции выгоды. понимается значение в конце текущего этапа операции. Далее следует поиск того выбора, которому соответствует наибольшее значение т. е. поиск оптимального выбора в данном этапе операции (рис. 21-12). Организация поиска оптимального выбора может быть различной. Если структура функции выгоды на множестве выборов совершенно неизвестна, то приходится применять «слепой» поиск, т. е. перебирать все возможные выборы и соответствующие им значения и путем сравнения находить выбор или выборы, дающие наибольшее математическое ожидание упрежденного значения функции выгоды. Если же структура функции на множестве выборов в какой-то мере известна, то возможны более экономные методы поиска. При этом может быть также сокращен объем вычислений возможных выборов и значений т. е. «облегчена» работа двух предыдущих блоков (несколько подробнее это пояснено ниже). После оптимального выбора в текущем этапе операции формируются команды управления, предназначенные Для реализации этого выбора, т. е. изменения течения управляемого процесса в соответствии с оптимальным выбором (рис. 21-12). Эти команды воздействуют на управляемый процесс в течение текущего этапа операции. По окончании данного этапа операции весь цикл управления повторяется; вновь поступает рабочая информация в управляющую машину, вновь определяются возможные выборы и соответствующие им значения делается оптимальный выбор, формируются новые команды управления и т. д. Процесс может быть конечным, т. е. может заканчиваться после некоторого конечного числа этапов, и может быть бесконечным, т. е. содержать неограниченное число этапов, каждый из которых занимает конечный интервал времени. В первом случае окончание операции обусловливается определенными ограничениями, например израсходованием всех управляемых средств. Из приведенного описания очевидно, что многоэтапный процесс управления в игровой системе с автоматическим поиском решений является замкнутым дискретным процессом: результат выполнения команд предыдущего этапа служит исходным для формирования и отработки команд следующего этапа. Полное описание динамики замкнутого процесса управления в игровой системе зависит от изменения во времени всех координат этого процесса. Однако важнейшие показатели динамики процессов управления в игровых системах могут быть определены при (рассмотрении двух основных характеристик: изменения во времени математического ожидания функции выгоды разброса функции выгоды, характеризуемого энтропией этой функции. Последовательность значений математического ожидания функции выгоды в этапах операции характеризует основной ожидаемый эффект управления и изменение его во времени. Эта последовательность — дискретная функция времени
Рис. 21-14. Изменение разброса функции выгоды во времени. (рис. 21-13) - определяет математическое ожидание выгоды по истечении этапов управляемой операции Однако знания математического ожидания функции выгоды еще недостаточно. Как рабочая, так и начальная информация в игровых системах никогда не бывают полными в том смысле, что действительные свойства и действия сторон отличаются от тех действий и свойств, которые выдаются источниками информации. Поэтому процесс управления в игровой системе — всегда случайный процесс. В соответствии с этим и функция выгоды является дискретной случайной функцией времени. Второй основной характеристикой динамики процесса управления в игровой системе является изменение разброса функции выгоды во. времени. Это изменение условно показано на рис. 21-14 в виде заштрихованной полосы. Разброс функции выгоды удобно характеризовать энтропией этой функции или дисперсией. Таким образом, кривая изменения энтропии или дисперсии функции выгоды во времени представляет вторую основную характеристику динамики процесса управления в игровой системе. Изменение во времени математического ожидания и дисперсии функции выгоды — наиболее важные показатели динамики процессов управления в игровых системах. Игровые системы автоматического управления с автоматическим поиском решений имеют широкую перспективу применения и совершенствования. Укажем два пути развития и усовершенствования этих систем. Первый путь заключается в придании игровым системам свойств систем с накоплением опыта. Второй путь заключается в усовершенствовании способа поиска оптимальных выборов. Системами с накоплением опыта называются системы, способные изменять характеристики и алгоритм действия в соответствии с опытом предшествующей работы. В игровых системах это касается прежде всего накопления опыта корректировки функции выгоды. Действительно, из самого принципа работы игровой системы следует, что вид функции выгоды имеет фундаментальное значение для процесса управления. Между тем ввиду принципиальной неполноты априорной информации, имеющейся при построении игровой системы, первоначальная функция выгоды всегда строится на основе более или менее оправданных гипотез. Это относится не только к структуре функции выгоды, но и к числовым значениям параметров, входящих в эту функцию. Например, расчетная эффективность различных средств обороны может существенно отличаться от фактической эффективности в каждой данной операции из-за помех или других непредвиденных обстоятельств. При этом система, отыскивающая максимум расчетной функции выгоды, уже не будет в состоянии обеспечить максимум фактической выгоды. Путь совершенствования системы заключается в корректировке значений параметров и структуры функции выгоды в каждом данном этапе операции по результатам предшествующих этапов управления операцией. Так, например, если частоты поражения средств нападения средствами обороны в первом этапе операции не соответствуют принятым начальным вероятностям поражения, то во втором этапе функция выгоды должна быть скорректирована. Вследствие ограниченного объема опыта и ограниченной информации о результатах этого опыта в одном этапе операции точное определение действительных вероятностей невозможно. Поэтому для уменьшения влияния случайных ошибок в определении вероятностей необходима постепенная корректировка принятых значений путем накопления результатов предшествующих этапов операции. Эта корректировка должна осуществляться автоматически с помощью специальной программы управляющей машины. Так в общих чертах выглядит путь усовершенствования игровых систем автоматического управления при помощи накопления опыта. Что касается усовершенствования способов поиска оптимальных выборов, то здесь основой служит информация о структуре функции выгоды на множестве возможных выборов в каждом этапе. Несмотря на то, что многоэтапный процесс управления в игровых системах с автоматическим поиском решений резко сокращает число возможных решений по сравнению с одноэтапным процессом, во многих практических применениях число возможных выборов в каждом этапе все же весьма велико. Слепой поиск оптимального выбора здесь может оказаться технически неосуществимым или затрудненным. Между тем если структура функции выгоды на множестве выборов известна, то возможны весьма экономные методы поиска. Так, например, если возможный выборы удается пронумеровать так, что каждому выбору соответствует условный номер.
где целые положительные числа, удовлетворяющие неравенствам
и функция выгоды есть линейная функция чисел х,
то для поиска наибольшего значения и соответствующего оптимального выбора следует использовать способ линейного программирования (§ 21-3). Оптимальный выбор определяется при этом весьма быстро. В заключение следует сказать, что игровые системы автоматического управления относятся к высшим формам автоматических систем, имеющим огромные перспективы развития и применения.
|
1 |
Оглавление
|