§ 22. Связь принципа максимума с методом динамического программирования

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 22. Связь принципа максимума с методом динамического программирования

Обратимся к задаче с закрепленным концом траектории и свободным временем. Рассмотрим систему, описываемую дифференциальными уравнениями

которым эквивалентно векторное уравнение

где и — векторы следующего вида:

Требуется перевести систему из точки фазового пространства X в заданную точку . Момент времени в который изображающая точка попадет в точку , заранее не фиксируется.

Управление и должно удовлетворять ограничениям

и его надо выбрать так, чтобы функционал

принимал наименьшее возможное значение.

Удовлетворяющее этим условиям управление, соответствующую ему траекторию и промежуток времени будем считать оптимальными.

Полученное при указанных выше условиях наименьшее возможное значение функционала Q будет функцией от начального состояния системы

В § 14, в предположении, что функция непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам, было показано, что эта функция удовлетворяет нелинейному уравнению первого порядка в частных производных (уравнение Беллмана) (14.36):

Как и выше, обозначим через скалярную функцию, ределяемую дифференциальным уравнением

и начальным условием

Из (7), (8) и (5) следует, что подлежащий минимизации функционал Q можно представить так:

Введем теперь следующие -мерные векторы:

Через обозначим функцию

(22.10)

Уравнение Беллмана (14.36) можно теперь записать так:

(22.12)

Если умножить левую и правую части соотношения (12) на —1, то знак min в левой части (12) надо будет заменить на знак max. Таким образом, уравнение (12) можно представить так:

Аналогично (15.28) обозначим

(22.14)

(22.15)

Уравнение Беллмана (13) принимает вид

(22.16)

При этом верхняя грань достигается для некоторого , а именно для значения оптимального управления в момент выхода из точки .

Сделаем теперь еще следующие дополнительные предположения. Будем предполагать, что функция имеет непрерывные вторые производные , а функции имеют непрерывные производные .

Функцию, стоящую под знаком в левой части уравнения (16), обозначим так:

(22.17)

Пусть — оптимальное управление, переводящее изображающую точку из состояния в состояние , а — соответствующая оптимальная траектория.

Фиксируем некоторый момент времени и рассмотрим функцию переменного . В соответствии со сделанными выше предположениями функция имеет непрерывные производные по переменным :

Из уравнения (16) следует, что для любого оптимального движения имеет место соотношение

(22.19)

Точки , не лежащие в данный фиксированный момент времени на оптимальной траектории, будут принадлежать другим траекториям, реализуемым допустимым, но не оптимальным управлением. Поэтому в силу уравнения (16) в этих точках

(22.20)

Следовательно, рассматриваемая в (18) функция переменного достигает в точке максимума (момент t фиксирован), и поэтому ее частные производные по обращаются в этой точке в нуль. Согласно (18), таким образом, получим следующие соотношения, выполняющиеся вдоль оптимальной траектории:

(22.21)

Учитывая, что согласно (1) и (7) для оптимального движения имеет место соотношение

(22.22)

будем иметь

(22.23)

Соотношение (21) в соответствии с (23) можно переписать так:

Обозначим теперь через следующую функцию:

(22.25)

Как следует из (24), вдоль всякой оптимальной траектории величины удовлетворяют следующей системе линейных дифференциальных уравнений:

(22.26)

Заметим, что согласно (25), (15) и (11)

(22.27)

что не противоречит уравнениям (26), так как согласно (1) и (5) не зависят от , и для уравнение (26) имеет следующий вид:

Вектор , координаты которого определены соотношениями (25), будет следующим:

(22.29)

Уравнение Беллмана (16) в соответствии с (25), (10), (29) теперь можно переписать так:

(22.30)

Обозначим теперь через следующую функцию:

(22.31)

зависящую от аргументов .

Уравнение (30) принимает теперь следующий вид:

(22.32)

Из соотношения (32) можно заключить, что оптимальное управление доставляет функции в любой момент времени наибольшее значение по сравнению с любым другим управлением , переводящим систему из точки в точку . Это наибольшее значение одно и то же, а именно равно нулю в любой точке оптимальной траектории, то есть вдоль оптимальной траектории выполняется равенство

(22.33)

Заметим, однако, что соотношения (30), (32) и (33) получены здесь при исходном предположении о том, что функция имеет непрерывные частные производные повеем своим аргументам, что, как было показано выше (§ 20), не имеет места даже в сравнительно простых задачах. Поэтому приведенные в настоящем параграфе преобразования и вытекающие из них следствия имеют лишь эвристический характер и могут только служить наводящими указаниями.

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
Глава 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ
§ 1. Одномерные управляемые системы
2. Функция веса и передаточная функция.
3. Частотная характеристика.
4. Замкнутая управляемая система.
5. Разомкнутая управляемая система.
6. Воспроизведение преобразованного входного сигнала.
7. Одномерная управляемая система с конечным числом степеней свободы.
8. Одно замечание об интегрировании уравнений движения одномерной системы.
§ 2. Многомерные управляемые системы
1. Замкнутая управляемая система.
2. Характеристический определитель замкнутой управляемой системы.
3. Уравнение автоматического управления.
4. Разомкнутая управляемая система.
5. Интерпретация матричных операторов.
6. О воспроизведении входного сигнала в многомерной управляемой системе.
§ 3. Частотные методы исследования устойчивости линейных управляемых систем
1. Преобразование характеристического определителя замкнутой управляемой системы.
2. Критерий асимптотической устойчивости замкнутых управляемых систем, содержащих лишь устойчивые звенья (критерий Найквиста).
3. Применение критерия Найквиста к системам с нейтральными звеньями.
4. Применение критерия Найквиста к системам с неустойчивыми звеньями.
5. Частотные характеристики управляемых систем и их экспериментальное определение.
6. Пример построения диаграммы Найквиста.
7. Управляемые системы, содержащие звенья с запаздыванием и критерии устойчивости этих систем.
8. Логарифмические частотные характеристики.
9. Определение устойчивости замкнутой управляемой системы по логарифмическим частотным характеристикам разомкнутой управляемой системы.
§ 4. Функция веса и переходная функция стационарной линейной системы
1. Одномерная управляемая система.
2. Одномерная управляемая система, у которой передаточная функция является неправильной дробью.
3. Многомерные управляемые системы.
§ 5. Переходные и установившиеся процессы в замкнутых управляемых системах
1. Определение функции веса по частотной характеристике замкнутой системы.
2. Определение переходной функции по частотной характеристике замкнутой системы.
3. Минимально-фазовые системы.
4. Установившиеся процессы в замкнутых управляемых системах. Коэффициенты ошибок.
5. Установившиеся процессы в следящей системе.
Глава 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ
§ 6. Устойчивость нелинейных управляемых систем. Частотные критерии. Применение прямого метода Ляпунова
2. Интерпретация функции W(D).
3. Видоизмененная частотная характеристика.
4. Теорема В.М. Попова.
5. Геометрическая формулировка теоремы В.М. Попова.
6. О возможности при доказательстве теоремы ограничиться случаем q>0.
7. Лемма 1.
8. Лемма 2.
9. Доказательство теоремы В.М. Попова.
10. Применение прямого метода Ляпунова. Метод А. И. Лурье в теории абсолютной устойчивости нелинейных систем.
§ 7. Нелинейные системы под воздействием внешних сил
1. Приведение задачи к интегральным уравнениям.
2. Построение приближенных решений.
§ 8. Качественные методы исследования движения нелинейных систем
1. Нелинейные системы с одной степенью свободы.
2. Консервативные системы.
3. Диссипативные системы.
4. Автоколебательные системы. Метод точечных преобразований.
§ 9. Нелинейные системы под воздействием периодических внешних сил
1. Вынужденные колебания нелинейной системы.
2. Установившиеся колебания с частотой внешней силы и их устойчивость.
Глава 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ
§ 10. Функции от матриц и их применение к интегрированию систем линейных дифференциальных уравнений
2. Теорема Гамильтона — Кэли.
3. Минимальный полином матрицы.
4. Функции от матрицы.
5. Интерполяционный полином Лагранжа — Сильвестра.
6. Построение функции.
7. Компоненты матрицы А.
8. Общие формулы, определяющие компоненты Z матрицы А.
9. Представление функций от матриц рядами.
10. Распространение на функции от матриц интегральной формулы Коши для аналитических функций.
11. Некоторые свойства функций от матриц.
12. Интегрирование систем линейных дифференциальных уравнений с постоянными коэффициентами при помощи функций от матриц.
13. Сравнение с решениями, получаемыми при помощи преобразования Лапласа.
§ 11. Управляемость и наблюдаемость линейных систем
1. Управляемость систем, описываемых линейными дифференциальными уравнениями с постоянными коэффициентами.
2. Системы с одной управляющей силой.
3. Наблюдаемость систем, описываемых линейными дифференциальными уравнениями с постоянными коэффициентами.
4. Системы с одной наблюдаемой координатой.
5. Принцип двойственности в теории управляемости и наблюдаемости.
6. Управляемость линейных нестационарных систем.
7. Наблюдаемость линейных нестационарных систем.
8. Условие управляемости линейной стационарной системы в задаче с подвижными концами.
9. Условие управляемости линейной нестационарной системы в задаче с подвижными концами.
Глава 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
§ 12. Оптимальное управление в системах с ограниченными ресурсами
2. Метод динамического программирования Р. Беллмана. Принцип оптимальности.
§ 13. Применение динамического программирования к дискретным системам
1. Рекуррентное соотношение Беллмана.
2. Многомерные дискретные системы.
§ 14. Применение динамического программирования к системам непрерывного действия
1. Задача с фиксированным временем и свободным концом траектории.
2. Задача с закрепленным концом траектории и свободным временем.
3. Задача о быстродействии.
§ 15. Достаточные условия оптимальности и обоснование метода динамического программирования для систем непрерывного действия. Теоремы В. Г. Болтянского
1. Постановка задачи. Геометрическая интерпретация уравнения Беллмана в задаче о быстродействии.
2. Теорема В. Г. Болтянского для задачи о быстродействии.
3. Теорема В. Г. Болтянского для общей задачи динамического программирования.
§ 16. Связь уравнения Беллмана с уравнением Гамильтона — Якоби в задачах аналитической механики
1. Задача о минимизации интеграла вида
2. Получение уравнения Гамильтона — Якоби из принципа Гамильтона.
Глава 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА В ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
§ 17. Теорема о необходимом условии оптимальности
2. Принцип максимума Л. С. Понтрягина в задаче о быстродействии.
3. Доказательство теоремы о необходимом условии оптимальности (принципа максимума) в задаче с закрепленным временем Т и свободным концом траектории.
§ 18. Принцип максимума для неавтономных систем
1. Теорема о необходимом условии оптимальности для неавтономных систем.
2. Доказательство теоремы о необходимом условии оптимальности для неавтономной системы с линейно входящим управлением.
3. Линейные неавтономные системы. Приведение задачи о быстродействии к краевой задаче.
§ 19. Задача с подвижными концами. Применение принципа максимума. Условия трансверсальности
§ 20. Понятие регулярного синтеза в теории оптимальных систем
§ 21. Достаточное условие оптимальности в форме принципа максимума. Теорема В. Г. Болтянского
§ 22. Связь принципа максимума с методом динамического программирования
§ 23. Некоторые примеры применения принципа максимума
1. Теорема о числе переключений управления в линейной задаче о быстродействии.
2. Задача о максимальном отклонении.
3. Применение принципа максимума при отсутствии ограничений на управление.
§ 24. Оптимальные линейные системы с квадратичным критерием качества
1. Задача о регуляторе состояния [34].
2. Задача о регуляторе выхода.
3. Стационарные системы с бесконечным временем наблюдения.
4. Задача слежения [34].
Глава 6. СТОХАСТИЧЕСКИЕ СИСТЕМЫ
§ 25. Преобразование случайных сигналов линейными системами
§ 26. Прогноз и фильтрация одномерных случайных процессов
1. Метод А. Н. Колмогорова и Н. Винера. Стационарные случайные процессы.
2. Решение интегрального уравнения, определяющего функцию веса оптимальной системы.
3. Нестационарные случайные процессы. Интегральное уравнение для оптимальной функции веса.
4. Оптимальные фильтры Калмана — Бьюси.
§ 27. Многомерные случайные процессы. Оптимальные фильтры Кальмана — Бьюси
1. Системы с конечным временем наблюдения.
2. Стационарные системы с бесконечным временем наблюдения.
3. Нестационарные системы с бесконечным временем наблюдения.
4. Оптимальная фильтрация коррелированных шумов.
ЛИТЕРАТУРА