Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
2. Метод динамического программирования Р. Беллмана. Принцип оптимальности.Рассмотрим управляемую систему описываемую следующей системой скалярных дифференциальных уравнений:
Здесь Вводя векторы
можно заменить систему скалярных дифференциальных уравнений (4) следующим векторным дифференциальным уравнением:
Полагая, что на управляющие силы
где Q — некоторая область в пространстве Пусть целью управления является минимизация функционала
где G — некоторая ограниченная скалярная функция переменных Метод динамического программирования основывается на сформулированном Р. Беллманом [8] принципе оптимальности. Этот принцип имеет место для систем, последующее движение которых полностью определяется состоянием этих систем в любой текущий момент времени. К таким системам относятся, например, системы, описываемые дифференциальными уравнениями (4), где под состоянием подразумевается положение системы в фазовом пространстве, системы, описываемые уравнениями в конечных разностях с дискретным аргументом и др. Принцип оптимальности сформулирован Беллманом так: Оптимальное поведение обладает тем свойством, что, каковы бы ни были первоначальное состояние и решение в начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения. Указанная формулировка принципа оптимальности (названного Беллманом интуитивным) относится к системам весьма общего вида. Для управляемых систем, описываемых дифференциальными уравнениями (4), под «поведением» системы следует понимать движение этих систем, а термин «решение» относится к выбору закона изменения во времени управляющих сил. Если в понятие состояния системы в данный момент времени Для систем, описываемых дифференциальными уравнениями (4), принцип оптимальности совпадает с хорошо известным фактом, что часть экстремали является снова экстремалью. В качестве примера [85] на рис. 12.1 показана проходящая через заданную точку
Участок 2 может рассматриваться и как самостоятельная траектория. Эта траектория будет оптимальной, если она доставляет минимум функционалу (9). Принцип оптимальности утверждает, что участок 2 оптимальной траектории 1—2 сам по себе является оптимальной траекторией системы (4), состояние которой при
Рис. 12.1. Если допустить противное, Заметим теперь, что утверждения принципа оптимальности относятся к последующему за данным состоянием движению системы. Для предшествующего данному состоянию движения системы они, вообще говоря, могут не иметь места. Так, например, если задано лишь начальное состояние системы
Только в том случае, когда задана конечная точка Таким образом, для управляемых систем принцип оптимальности утверждает, что выбор оптимального управления определяется лишь состоянием системы в текущий момент времени. Это утверждение дает возможность получения приведенных ниже функциональных уравнений, определяющих закон изменения управляющих сил в задаче об оптимальном управлении. Развитый Веллманом метод определения оптимального управления тесно связан с задачей вариационного исчисления о распространении возбуждения [24] и приводит к уравнениям типа уравнений Гамильтона — Якоби в частных производных. Для дискретных систем метод Веллмана дает возможность многоэтапного определения управляющих сил.
|
1 |
Оглавление
|