Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
§ 13. Применение динамического программирования к дискретным системам1. Рекуррентное соотношение Беллмана.Многие управляемые системы описываются уравнениями в конечных разностях. Такие системы принято называть дискретными системами. К дискретным системам относятся импульсные системы, системы, в состав которых входят цифровые вычислительные устройства, и т. д. Системы, описываемые дифференциальными уравнениями, принято (в этом смысле) называть системами непрерывного действия. Любой системе обыкновенных дифференциальных уравнений можно поставить в соответствие эквивалентную ей систему уравнений в конечных разностях с непрерывным аргументом (77). Для этого необходимо проинтегрировать заданную систему дифференциальных уравнений на конечном интервале времени Полученная описанным способом система уравнений в конечных разностях будет представлять собой точные функциональные уравнения, связывающие между собой состояния системы в моменты времени, отстоящие друг от друга на величину, равную интервалу дискретности Если ограничиться изучением состояния системы лишь в дискретные моменты времени, промежутки между которыми равны интервалу дискретности Получение указанных выше уравнений в конечных разностях, точно описывающих управляемую систему непрерывного действия, в достаточно сложных задачах может оказаться громоздким. Приближенные уравнения в конечных разностях можно получить следующим образом. Пусть управляемая система, описывается скалярным дифференциальным уравнением
где
Начальное состояние системы задано
и требуется найти управление и
где Т — некоторая фиксированная величина. Будем считать, что
где N — некоторое целое число, а
Так как
то исходное дифференциальное уравнение (1) можно заменить следующим приближенным соотношением:
Левая часть соотношения (7) представляет собой первую разность функции Так как аргумент функций Функционал (3) аппроксимируем интегральной суммой
Обозначая
придем в соответствии с (7), (2) и (8) к следующей задаче. Для системы, описываемой скалярным уравнением в конечных разностях с дискретным аргументом
начальное состояние которой задано
найти управление и
и доставляющее минимум сумме
где N — некоторая фиксированная величина. Ниже при рассмотрении дискретных систем мы будем исходить из уравнений вида Погрешность решений, доставляемых разностными уравнениями, полученными при помощи аппроксимации вида (6) (приведенной здесь лишь в виде иллюстрации), может оказаться весьма значительной, и приемлемость такой аппроксимации должна каждый раз обосновываться. Этот вопрос требует, однако, специальных исследований и здесь обсуждаться не будет. Поставленная выше задача, описываемая уравнениями (11) — (14), состоит в том, чтобы найти совокупность значений Решение задачи начнем с последнего интервала времени
Так как согласно (11)
то выражение (15) принимает вид
Поскольку состояние
В (18) явно указано, что минимальное значение В соответствии с (17) соотношение (18) можно переписать так:
Рассмотрим теперь интервал времени
или в соответствии с (15)
Состояние Найдем теперь величину
представлен в виде функции от
то
Поскольку первое слагаемое в правой части (21) не зависит
Таким образом, выражение (24) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по Из выражения (24) видно, что выбор Обратимся теперь к интервалу времени
или согласно (20)
Состояние Найдем теперь величину
представлен в виде функции от то Поскольку первое слагаемое в правой части (26) не зависит от Выражение (29) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по Нетрудно теперь получить общую (рекуррентную) формулу, рассматривая интервал времени
Выражение (30) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по Таким образом, при помощи (19) и (30) будут найдены
В выражениях (31) явно указано, что найденные из рассмотрения частичных интервалов времени Так как состояние Таким образом, изложенный метод позволяет полностью определить оптимальное управление на заданном промежутке времени В построенном выше алгоритме динамического программирования для системы (11) существенную роль играло предположение о том, что конечный момент времени функционирования системы
|
1 |
Оглавление
|