1-4. ИГРОВЫЕ СИСТЕМЫ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
В самостоятельный широкий класс возможных систем автоматического управления выделены игровые системы управления.
Сложные задачи автоматического управления операциями многих объектов можно трактовать как задачи автоматического проведения некоторой игры. В игре могут участвовать две или большее число сторон. Действия сторон могут быть частично случайными, частично подчиненными некоторым правилам — алгоритмам.
Игра состоит из ряда последовательных этапов — шагов. Вследствие этого управление в игровой системе осуществляется дискретно путем формирования дискретной последовательности команд управления одной или несколькими сторонами, участвующими в игре.
Основной особенностью принципа действия игровых систем является формирование команд управления на основе сопоставления множества возможных решений — выборов в каждом этапе управляемой операции. Критерием сопоставления различных возможных решений - выборов служит некоторый показатель, именуемый функцией выгоды.
Функция выгоды задается при построении игровой системы автоматического управления на основе анализа управляемой операции. Решения, соответствующие
наибольшему значению функции выгоды, называются оптимальными.
Основным узлом игровой системы автоматического управления является управляющая машина, определяющая множество возможных выборов и оптимальный выбор в этом множестве. Большинство возможных практических применений игровых систем может быть представлено в виде игры двух участвующих сторон: I стороны, управляемой данной системой, и II стороны, не управляемой данной системой.
Известными примерами игровых операций с двумя участвующими сторонами являются программы вычислительных машин для игры в шахматы, шашки и т. д. В этих программах, имеющих чисто теоретический интерес, используется принцип формирования команд игровых систем, автоматического управления.
Однако существуют весьма важные области возможного практического применения игровых систем управления.
Пусть, например, имеется разветвленная сеть связи, соединяющая многие пункты. В каждом из пунктов почти непрерывно появляются запросы на передачу информации в другие пункты. Ставится задача такого управления средствами и каналами связи, при котором обеспечивалась бы передача максимального общего количества информации (точнее математического ожидания этого количества) в единицу времени. Эта задача может быть решена игровой системой автоматического управления. I стороной здесь является вся сеть связи, II стороной — запросы на передачу информации, функцией выгоды — общее количество информации, передаваемой в единиц времени.
При определенной идеализации подобным же образом может быть сформулирована задача обеспечения наибольшей экономичности перевозок заданными видами транспорта между заданными пунктами. Управление средствами обороны и нападения является широкой областью возможного применения игровых систем управления с двумя действующими сторонами.
В игровых системах автоматического управления, как и в других классах автоматических систем, целесообразно различать начальную и рабочую информацию.
Необходимой начальной информацией о I стороне назовем совокупность сведений о свойствах управляемого процесса или системы, необходимых для определения возможных решений и задания функции выгоды. В приведенном примере управления сетью связи необходимой начальной информацией о I стороне являются сведения о пропускной способности всех каналов и узлов связи. Необходимая начальная информация о I стороне в игровых системах должна быть, вообще говоря, полной. Она позволяет задать вид и числовые параметры функций выгоды и установить ограничения для множества возможных выборов. Лишь дальнейшее усовершенствование игровой системы в направлении придания ей способности накопления опыта может снизить количество необходимой начальной информации об управляемом процессе или системе.
Какова необходимая начальная информация о II стороне, не управляемой данной системой? По своему назначению игровая система управления должна выполнять свои функции при почти произвольных, заранее неизвестных свойствах и действиях II стороны. Поэтому необходимая начальная информация о II стороне в игровых системах автоматического управления минимальна. Именно это обстоятельство позволяет относить игровые системы к системам с минимальной необходимой начальной информацией. Игровая система функционирует на основе рабочей информации о I и II сторонах. Рабочая информация представляет собой совокупность сведений о тёкущем состоянии и действиях участвующих сторон. Общая схема игровой системы автоматического управления представлена на рис. 1-13.
Рис. 1-13. Схема игровой системы автоматического управления.
В начале управляемой операции в управляющую машину поступает рабочая информация о II стороне. На основе этой информации и начальной информации управляющая машина определяет оптимальный выбор из числа возможных и формирует соответствующие оптимальному выбору команды управления. Команды управления воздействуют на управляемый процесс.
В настоящее время можно указать по крайней мере два принципиально различных подкласса игровых систем автоматического управления, названных в общей классификации (рис. 1-1) игровыми системами с набором шаблонных решений и игровыми системами с поэтапным автоматическим поиском решений.
В системах с набором шаблонных решений задача оптимального выбора решена заранее для какого-то множества вариантов действий II стороны. В управляющей машине такой системы уже хранятся «шаблоны» решения. Задача управляющей машины в подобных системах сводится к установлению соответствия фактических действий II стороны одному из расчетных вариантов и формированию команд, соответствующих заготовленному для этого варианта решению. Это решение определяет действия I стороны в течение всей операции.
Легко видеть принципиальные недостатки игровых систем с набором шаблонных решений. В большинстве практических задач число возможных различимых действий сторон на протяжении операции столь велико, что их невозможно охватить расчетными вариантами хотя бы из-за недостаточной емкости памяти технически реализуемых запоминающих устройств. Далее, практически всегда ограниченная информация о действиях II стороны обычно не позволяет установить точное соответствие действий этой стороны расчетному варианту, даже если такое соответствие в действительности существует. Эти недостатки ограничивают область возможного применения игровых систем с набором шаблонных решений редкими специальными случаями.
Значительно более совершенны игровые системы автоматического управления с автоматическим поиском решений.
Основная идея так называемого динамического программирования [Л. 21-6] как расчетного метода отыскания оптимальных программ заключается в поэтапном решении задачи оптимального выбора. В игровой системе автоматического управления с автоматическим поиском решений управляющая машина сама решает задачу оптимального выбора для каждого текущего этапа операции.
Функционирование систем происходит следующим образом. Управляющая машина, получив в самом начале операции рабочую информацию о действиях II стороны, на основе начальной информации о I стороне определяет множество возможных выборов для первого, более или менее короткого этапа операции.
Далее машина вычисляет значения функции выгоды для найденных возможных выборов и определяет оптимальный выбор. Команды, соответствующие оптимальному выбору первого этапа, поступают на управляемую систему (рис. 1-13) и определяют течение управляемого процесса в первом этапе.
По окончании первого этапа в управляющую машину вновь подаются рабочая информация о II стороне и рабочая информация
о I стороне. Управляющая машина определяет множество возможных вьгборюв, значения функции выгоды, оптимальный выбор для второго этапа и формирует соответствующие команды управления. Команды управления второго этапй определяют действия I стороны в этом этапе и далее циклы повторяются до окончания операции.
Очевидно, что процесс управления в игровой системе с автоматическим поиском решений является замкнутым дискретным процессом. Весьма актуальна разработка теории подобных процессов, отображающая их динамику. Разумеется, что игровые системы автоматического управления предполагают использование автоматических систем других классов в различных звеньях управляемого процесса.