Главная > Автоматическое регулирование. Теория и элементы систем
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

5. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

В теории систем автоматического регулирования и ее практических приложениях значительное место занимает так называемая задача оптимального синтеза. При ее решении необходимо определить управление как функцию состояния, т. е. , относительно которой синтезируемая система оптимальна.

В этом важном случае, когда искомое управление не зависит от предыстория системы и определяется только ее текущим состоянием, задача оптимального синтеза может быть решена методом динамического программирования, в основе которого лежит принцип оптимальности, сформулированный Р. Веллманом [29]. Оптимальное управление обладает тем свойством, что каковы бы ни были первоначальное состояние и первоначальное решение, последующее решение должно определять оптимальную стратегию относительно состояния, полученного в результате первоначального решения. Это означает, что оптимальное управление зависит лишь от того, в какой точке фазового пространства находится в данный момент система.

Часто из этого положения делают неправильный вывод о том, что траектория, полученная путем объединения оптимальных траекторий, должна быть также оптимальна. Простейший пример иллюстрирует всю несостоятельность такого утверждения. Для трех точек А, В и С (рис. XX. 10) оптимальными траекториями в смысле наикратчайшего расстояния будут отрезки, соединяющие эти точки. Хотя по отношению к каждому из отрезков траектории оптимальны, их объединение дает оптимальную траекторию только в том случае, когда все три точки лежат на одной прямой.

Выясним, каким образом, используя принцип оптимальности, можно синтезировать системы оптимального управления.

Для этого рассмотрим процесс управления дискретной линейной системой вида

где суть -мерный и -мерный векторы состояния и управления, а — матрицы размерности .

Рис. XX. 10. К пояснению принципа оптимальности

Поставим задачу оптимального синтеза следующим образом. Для системы и ее начального состояния требуется определить последовательность управлений

т. е. найти функцию относительно которой функционал качества

принимает минимальное значение. Будем считать, что входящие в выражение (XX.59) матрицы и D — положительно определенные матрицы размерности — положительно полуопределенная матрица размерности как обычно, обозначает скалярное произведение, т. е.

где — 7-е компоненты векторов х и у.

Введем в рассмотрение функцию Беллмана

где

Из принципа оптимальности следует, что каково бы ни было состояние имеет место рекуррентное соотношение

Данное рекуррентное соотношение в теории оптимального управления носит название основного функционального уравнения Беллмана. Это уравнение занимает важное место в теории и практике проектирования систем оптимального управления, поскольку его решение равносильно решению проблемы оптимального синтеза.

Действительно, положим, что Тогда уравнение Беллмана примет

Так как задано, то, разрешая это уравнение, найдем управление, соответствующее состоянию т. е. состоянию, в котором находится система в данный момент.

Для уравнение Беллмана запишем в виде

где — состояние системы в которое она переходит под действием управления

Определив это состояние и решив затем уравнение (XX.62), найдем управление но уже относительно состояния Аналогичным образом могут быть получены управления относительно всех состояний системы. Иначе говоря, синтезирована функция управления для всех

Данный процесс рекурсивного построения функции управления на основе решения уравнений Беллмана носит название динамического программирования.

Между динамическим программированием и принципом максимума существует глубокая взаимосвязь [31, 583. Динамическое программирование целесообразно использовать в тех случаях, когда функция Беллмана либо известна, либо существует достаточно простой способ ее численного построения. Проблема, с которой здесь приходится сталкиваться, связана с необходимостью запоминания функции Беллмана во всех тех точках фазового пространства, относительно которых ищется управление.

Так, например, если область фазового пространства содержит 100 точек, то для реализации численного решения задачи оптимального синтеза методом динамического программирования потребуется цифровая вычислительная машина с оперативной памятью не менее чем в ячеек. Отсюда видно, что для одномерных или двумерных задач управления можно реализовать описанную выше процедуру синтеза. Если размерность фазового пространства равна трем, то объем оперативной памяти составляет 10е ячеек.

При синтез оптимальной системы управления становится невозможным, так как современные цифровые вычислительные машины не обладают требуемым объемом оперативной памяти, необходимой для реализации численной процедуры построения функции Беллмана.

Однако в том случае, когда аналитический вид функции найден, процесс вычисления оптимального управления оказывается сравнительно простым.

Действительно, из выражений (XX.60) и (XX.61) нетрудно установить, что функция Беллмана для задачи синтеза систем регулирования в виде выражений (XX.58), (XX.59) имеет вид квадратичной формы:

Подставляя это равенство в выражение (XX.61), получим соотношение

минимум которого легко вычислить, если принять во внимание, что

где — транспонирование относительно матрицы.

С учетом последнего выражения уравнение Беллмана примет

Обычный вариационный подход к его минимизации приводит к следующему уравнению:

Разрешая его относительно вектора получим искомое управление в виде функции от состояния системы (XX.58):

Рис. XX. 11. Структурная схема оптимальной системы регулирования с законом управления (ХХ.67)

Рис. XX. 12. Блок-схема программ вычисления коэффициентов

Входящая в это выражение матрица может быть найдена следующим образом. Подставим полученное управление (XX.65) в уравнение (XX.64):

Поскольку последнее выражение является тождеством и справедливо при любых то

Данное соотношение позволяет рекурсивно вычислить для всех где значение матрицы Ко можно получить, если учесть, что

т. е.

Таким образом, решение задачи оптимального синтеза приводит к последовательности управлений, имеющих вид

где матрицы вычисляются через рекуррентное соотношение

На рис. XX.11 показана структура оптимальной системы с законом управления для вычисления коэффициентов которого может быть использована программа, блок-схема которой представлена на рис. XX. 12. Отсюда видно, что процедура вычисления коэффициента относительно проста и легко может быть реализована на алгоритмических языках типа ФОРТРАН или АЛГОЛ.

Categories

1
Оглавление
email@scask.ru