Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
§ 15. Достаточные условия оптимальности и обоснование метода динамического программирования для систем непрерывного действия. Теоремы В. Г. БолтянскогоМетод динамического программирования вполне обоснован для систем, описываемых уравнениями в конечных разностях. Для систем, описываемых обыкновенными дифференциальными уравнениями (то есть для систем непрерывного действия) корректное обоснование метода динамического программирования требовало бы доказательства существования гладкой функции , определяемой нелинейным уравнением в частных производных (-уравнением Беллмана (то же относится и к функции определяемой уравнением , так как при выводе этого уравнения предполагалось, что функция непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам. Это требование не вытекает из постановки задачи и представляет собой ограничение, которое, однако, не выполняется во многих даже простых задачах, где оказывается [15], что функция является негладкой. Задача об обосновании метода динамического программирования для систем непрерывного действия решена в работа к В. Г. Болтянского [14], к изложению которых мы и перейдем. 1. Постановка задачи. Геометрическая интерпретация уравнения Беллмана в задаче о быстродействии.Рассмотрим управляемую систему, описываемую скалярными дифференциальными уравнениями (15.1) В векторной форме систему уравнений (1) можно записать так: (15.2) где — векторы следующего вида: (15.3) На управление и наложены ограничения (15.4) Обратимся к задаче о быстродействии. Требуется найти оптимальное управление , то есть управление, которое переводит систему из начального состояния в состояние за минимально возможное время Т. Конечное состояние системы , то есть точка в фазовом пространстве, в которую надо привести систему, фиксирована: . В качестве начального состояния мы рассматриваем любое состояние системы, то есть любую точку фазового пространства . Минимально возможное время T, в течение которого управление и, удовлетворяющее условию и , переводит систему из точки в точку , является функцией от начального состояния :
В § 14, в предположении, что функция непрерывна и всюду (кроме конечной точки ) имеет непрерывные частные производные , было показано, что эта функция удовлетворяет уравнению в частных производных (14.44)
Управление, доставляющее минимум выражению в квадратных скобках, является оптимальным и было обозначено через . Ниже удобнее вместо рассматривать функцию , отличающуюся от нее знаком
Из соотношения (14.44) следует, что
Учитывая (5), можно переписать соотношение (6) так: (15.7) Функция определена во всем фазовом пространстве X. В силу предположений, при которых получено соотношение (14.44), следует, что соотношение (7) имеет место в предположении, что функция непрерывна и всюду (кроме конечной точки имеет непрерывные частные производные представляет собой уравнение Беллмана в задаче о быстродействии. Для любого управления из совокупности управлений, ограниченных условием (в том числе и оптимального), переводящих систему из точки в точку , будем в соответствии с (7) иметь такое соотношение:
Так как то соотношение
будет выполняться в течение всего времени движения для каждой оптимальной траектории, то есть всего времени перехода из начальной точки в конечную точку . Уравнению Беллмана в задаче о быстродействии можно дать следующую геометрическую интерпретацию. Так как согласно (1) (15.10) то уравнение Беллмана (14.44) можно переписать так: (15.11) то есть при движении по оптимальной траектории промежуток времени, оставшийся до достижения начала координат, убывает . Согласно (11) (15.12) Выражение в квадратных скобках представляет собой скалярное произведение вектора градиента функции на вектор фазовой скорости изображающей точки. Представим себе семейство поверхностей . Эти поверхности можно назвать изохронными поверхностями — наименьшее время попадания из любой точки поверхности в начало координат равно одной и той же величине С. Вектор направлен в точке по нормали к поверхности , проходящей через эту точку. Соотношение (12) показывает, что оптимальное управление и обеспечивает то, что проекция фазовой скорости на отрицательное направление нормали к поверхности , проходящей через точку в любой момент времени положительна, то есть изображающая точка все время перемещается в сторону убывающих значений . Предположение о существовании непрерывных частных производных в любой точке означает, что предполагается гладкость поверхностей , то есть единственность направления нормали в любой точке этих поверхностей. Точки, в которых частные производные не существуют, являются особыми точками поверхностей , и в этих точках направление нормали к поверхности не определено.
|
1 |
Оглавление
|