ДУАЛЬНОЕ УПРАВЛЕНИЕ
— управление, в котором управляющие воздействия имеют двойственный характер; они служат для изучения управляемого объекта (УО) и для приведения его к требуемому состоянию. Д. у. применяют в системе автоматического управления (САУ) в том случае, когда априорная информация в управляющем устройстве (УУ) об У О не является достаточной и изучение поведения У О может дать дополнительные сведения о его свойствах. При этом УУ решает две задачи: на основании поступающей информации выясняет свойства и состояние УО и на основании данных об У О определяет, какие действия необходимы для управления. В общем случае в САУ процессы изучения УО и управления им связаны и образуют сложный двойственный или дуальный процесс, развитие которого определяет качество работы системы.
Задача синтеза оптим. алгоритма управления в теории Д. у. для частного случая сводится к следующему. Предположим, что известна модель математическая УО, имеющая в дискретном времени вид
где регулируемая величина, оператор конечная и однозначная функция, и — управляющее воздействие, а интервал квантования времени t. Возмущающее воздействие которое не может быть измерено , будем считать неизвестным постоянным во времени параметром z с заданной априорной плотностью распределения вероятностей момент времени в известно желаемое значение регулируемой величины Дополнительная информация о величине z содержится в векторе наблюдений величины X в предшествующие моменты времени и в векторе управлений которые могут храниться в памяти УУ и представляют собой наблюдаемую предысторию управляемого процесса. Для практики значительный интерес представляет случай, когда , где случайная погрешность измерения величины с известной плотностью распределения вероятностей .
Отклонение регулируемой величины от ее желаемого значения приводит к потерям в системе, которые можно оценить удельной функцией потерь Система функционирует в течение заданного времени и общая функция потерь имеет вид
Назовем оптимальной систему, для которой полный риск R — математическое ожидание ф-ции потерь
минимален. Здесь удельный риск, который определяют как
Функционал в (3), называемый условным удельным риском, представляет собой матем. ожидание удельных потерь при фиксированных значениях векторов Он определяется в виде
где условная плотность распределения называемая удельной стратегией управления. В (3) и (4) символом со обозначена область интегрирования. Выражение представляет собой апостериорную плотность распределения неизвестного параметра z и при заданных априорных плотностях находится по формуле Байеса
Условная плотность распределения определяется с учетом (1) по известной плотности распределения Последовательность ф-ций принято называть стратегией управления. Зависимость риска R от стратегии обозначают Стратегия, минимизирующая риск оптимальной. Эта стратегия ищется в классе допустимых стратегий А. Из (3) — (5) следует, что каждое слагаемое в (2) зависит от выбора последовательности При этом выбор удельной стратегии влияет не только на риск момент времени, но и на значения всех будущих удельных рисков Это влияние проявляется, как следует из (5), через апостериорную плотность распределения неизвестного параметра и составляет сущность дуальности управления: выбор управления определяет не только поведение величины но и темп накопления информации о возмущении
В 1961 в работах сов. ученого А. А. Фельдбаума (1913—69), положивших начало теории Д. у., дано обобщение приведенной постановки задачи на марковские , когда возмущение z представляет собой случайный марковский процесс, и на многомерные УО с учетом их динамики. Для практики важное значение имеет случай, когда ненаблюдаемое возмущение z представляет собой стационарный случайный процесс. При этом разумная идеализация задачи состоит в предположении, что время функционирования системы Для оценки качества такой системы вместо (2) следует использовать функционал средних ожидаемых потерь в единицу времени
Функционал (6) записан в предположении существования предела.
Строгая матем. постановка задачи Д. у. осуществляется методами управления случайными процессами теории по неполным данным. В общем случае для отыскания оптим. стратегии Д. у. используются методы программирования динамического. Для функционала (2) удельные стратегии находят последовательно, начиная с конечного момента п. Поскольку рассматривается задача Байеса (см. Байесовский метод), то стратегия оптимальная в любой момент времени оказывается детерминированной и при фиксировавной наблюдаемой предыстории имеет вид
Эта стратегия определяется из минимизации ф-ции
где
Для больших n и особенно в случае функционала (6) серьезные трудности в решении задачи Д. у. связаны с ростом размерности векторов в (7). Здесь существенную помощь оказывает введение т. н. марковских достаточных статистик невозрастающей размерности. Определим в пространстве векторов Обозначим подкласс класса допустимых стратегий А, зависящих от только через
Ф-ция наз. достаточной статистикой, если
При этом выражение (7) может быть записано в виде
Статистика наз. марковской достаточной статистикой, если выполнено равенство (10), и статистика может быть вычислена по рассмотренном выше примере этому удовлетворяет апостериорная плотность распределения возмущения , которую можно записать в виде рекуррентного соотношения, эквивалентного (5).
Значительный интерес представляет случай, когда марковскую достаточную статистику можно задать конечномерным вектором параметров Однако строго такое представление возможно только в частных задачах. На практике с целью такой «параметризации» задачи используют приближенно достаточные статистики.
Когда возмущение представляет собой марковский процесс, введение марковских достаточных статистик позволяет свести задачу Д. у. к исследованию некоторого управляемого марковского процесса. Оптим. стратегия Д. у. в этом случае оказывается стационарной или регулярной, т. е. Для отыскания такой стратегии применяют итерационные методы поиска в пространстве стратегий. Рассмотренные выше общие методы решения задачи Д. у. связаны со значительными вычислительными трудностями. Поэтому на практике часто ограничиваются отысканием субоптимальных стратегий Д. у., упрощая постановку задачи или сужая класс допустимых стратегий.
Простейшим методом синтеза субоптимального управления можно считать определение стратегии из минимизации удельных рисков в (2). Так определенная стратегия является в общем случае весьма грубым приближением к оптим. стратегии Д. у.: она направлена в каждый момент времени только на приведение объекта к требуемому состоянию и не несет в себе спец. функций по изучению объекта. Однако, для некоторых объектов такая стратегия оказывается строго оптимальной. Ясно, что в случае безынерционного объекта это имеет место при условии, что темп накопления информации об объекте не зависит от выбора управляющих воздействий. Такого рода системы Д. у. принято называть нейтральными. С матем. точки зрения это соответствует случаю, когда
Существенное значение представляет определение условий, при которых имеет место (12), напр., условия приводимости систем управления замкнутых к разомкнутым.
Теорию Д. у. применяют в задачах самообучения, экстремального регулирования, построения оптим. самонастраивающихся моделей и т. д.
Лит.: Фельдбаум А. А. Основы теории оптимальных автоматических систем. М., 1966 [библиогр. с. 594—618]; Живоглядов В. П. Автоматические системы с накоплением информации. Фрунзе, 1966 [библиогр. с. 154—160]; Ширяев А. Н. Некоторые новые результаты в теории управляемых случайных процессов. В кн.; Transactions of the fourth Prague conference on information theory, statistical decision functions, random processes. Prague, 1967.
В. И. Иваненко, Д. В. Караченец.