УПРАВЛЕНИЯ СЛУЧАЙНЫМИ ПРОЦЕССАМИ ТЕОРИЯ
— раздел математики, изучающий проблемы оптимизации систем, поведение которых описывается случайными процессами. У. с. п. т. возникла как синтез трех матем. дисциплин: детерминистической теории управления (включающей классическое варицационное исчисление, программирование динамическое, Понтряшна принцип максимума), случайных процессов теории и математической статистики. У. с. п. т. в широком смысле охватывает проблемы оптим. статистических оценок для случайных процессов (фильтрацию, интерполяцию, прогнозирование), последовательный анализ Вальда, стохастические варианты динамического программирования и принципа максимума. Методы У. с. п. т. позволяют решать многие важные прикладные задачи (напр., задачи оптимизации массового обслуживания систем, определения наиболее целесообразного эконом, поведения и управления технологическими процессами при наличии случайных факторов, осуществления оптим. надежностного синтеза сложных тех. систем и др.).
В У. с. п. т. наиболее распространена концепция управления по неполным данным с привлечением байесовского подхода и методов динамического программирования. Важную роль в У. с. п. т. играет понятие марковского процесса, т. к. марковские процессы являются достаточно хорошей матем. моделью реальных явлений, и аппарат теории марковских процессов — рекуррентные и дифф. ур-ния — приспособлен к решению задач по оптим. управлению.
Сущность общей задачи управления случайным процессом по неполным данным можно выяснить на примере управляемого процесса с дискретным временем и дискретным пространством состояний. Пусть поведение системы в моменты времени описывается последовательностью случайных величин При этом значения не известны экспериментатору. В его распоряжении находятся случайные величины статистически связанные с Вероятностную эволюцию последовательностей определяют априорным распределением случайной величины и переходными ф-циями где условное совместное распределение вероятностей ненаблюдаемого состояния системы и наблюдаемых данных в момент при заданных
Пусть имеется семейство переходных ф-ций зависящих от некоторого параметра (управляющего воздействия) . Экспериментатор может в каждый момент времени на основе имеющейся информации выбрать некоторое d, влияя тем самым на течение процесса Значения управляющих воздействий, выбранных в моменты времени обозначим через . В момент времени экспериментатору известны . Вся информация о содержится в условном распределении вероятностей при заданных Значение
можно вычислить, зная и переходные ф-ции. Т. о., состояние рассматриваемой управляемой системы в момент описывается вектором Наблюдая в следующий момент времени случайную величину экспериментатор вычисляет по Байеса формуле.
Допустимой стратегией наз. набор ф-ций определяющих в любой момент правило выбора управляющего воздействия из допустимого множества управляющих воздействий на основе имеющейся информации Совокупность всех допустимых стратегий обозначим через . Априорное распределение семейство переходных ф-ций
и стратегия определяют частично наблюдаемый процесс, управляемый стратегией .
Пусть задана числовая ф-ция характеризующая выигрыш, который получает экспериментатор, если эволюция управляемого процесса обрывается на шаге, а состояние процесса — . Критерием качества управления является
где — символ математического ожидания, соответствующего процессу, управляемому стратегией б, при условии, что случайная величина распределена по закону . В случае критерий качества определяется как б). Часто выигрыша функцию можно представить в виде
где интерпретируется как выигрыш на шаге, а заключительный выигрыш. Цель управления состоит в максимизации критерия (1), ф-ция
наз. его ценой. Стратегия оптимальной (е-оптимальной), если
Осн. проблемы У. с. п. т.: а) при каких условиях существуют оптимальные и -оптимальные стратегии; б) как находить эти стратегии и цену Пользуясь методом динамического программирования, можно получить нелинейны: рекуррентные (по N) Беллмана уравнения для решая которые, находим Рекуррентный вид соотношений для цены дает возможность во многих важных случаях строить эффективные вычислительные алгоритмы для отыскания Принципиальная трудность, возникающая при решении задачи У. с. п. т., заключается в том, что с течением времени растет объем информации о состояниях управляемого процесса. Эту трудность часто преодолевают введением достаточных статистик. Достаточными статистиками наз. ф-ции от состояний управляемого процесса, содержащие всю существенную информацию, необходимую для отыскания Желательно, чтобы достаточные статистики легко вычислялись при поступлении новой информации, а именно: значение достаточной статистики в момент восстанавливалось по ее значению в предыдущий момент и результату наблюдения Такие достаточные статистики наз. марковскими. Отыскание марковских достаточных статистик миним. размерности является сложной задачей. Существует важный класс задач, в которых марковски» достаточные статистики найти сравнительно просто. Это класс аддитивных марковских задач, в которых
т. е. последовательность образует управляемую Маркова
где распределение вероятностей при заданных
В предположениях является марковской достаточной статистикой, а, следовательно, управление в момент можно искать в классе функций, зависящих от лишь через в случае аддитивной марковской задачи видим, что алгоритм управления процессом по неполным данным состоит из двух этапов: вычисления значений пп по хранящимся в памяти значениям и поступившим значениям формирования на основе управления в момент , т. е. состояние процесса наблюдается полностью, необходимость в первом этапе отпадает.
Рассмотрим конкретный пример аддитивной марковской задачи. Агрегат в процессе эксплуатации может находиться в одном и» двух состояний: «0» — рабочее состояние.
«1» — состояние отказа. Состояние агрегата непосредственно не наблюдается. Имеется сигнализирующее устройство, в котором сигнал соответствует рабочему состоянию агрегата, сигнал «1» — состоянию отказа, причем могут поступать ошибочные сигналы. В каждый момент на основе поступивших ранее сигналов должно быть принято одно из двух решений: — оставить агрегат в работе, — произвести ремонт агрегата. Известны вероятностные характеристики агрегата и сигнального устройства, а также ф-ция стоимостей, связанных с функционированием агрегата: а) вероятность того, что в начальный момент времени агрегат находится в состоянии вероятность того, что агрегат в произвольный момент времени окажется в состоянии если в предыдущий момент он находился в состоянии i и было принято решение агрегача носит марковский характер); в) вероятность поступления сигнала j при условии, что агрегат находится в состоянии i (эта вероятность характеризует ненадежность сигнального устройства); г) выигрыш за один период работы агрегата при условии, что в начале периода агрегат находился в состоянии i и было принято решение
По этим характеристикам легко вычислить переходные ф-ции, ) и доказать существование стратегии (правила эксплуатации агрегата), максимизирующей критерий
Лит.: Стратонович Р. Л. Условные марковские процессы и их применение к теории оптимального управления. М., 1966 [библиогр. с. 313—316]; Ширяев А. Н. Некоторые новые результаты в теории управляемых случайных процессов. В кн.: Transactions of the fourth Prague conference on information theory, statistical decision functions, random processes. Prague, 1967; Шиpяeв A. H. Статистический последовательный анализ. Оптимальные правила остановки. М., 1969 [библиогр. с. 227-231]; Xовардр. А. Динамическое программирование и марковские процессы. Пер. с англ. М., 1964 [библиогр. с. 187]; Кушнер Г. Дж. Стохастическая устойчивость И управление. Пер. с англ. М., 1969 [библиогр. с. 193—198]. 8. С. Штатланд.