Связь метода динамического программирования и принципа максимума.
Для установления связи [2.21] метода динамического программирования с принципом максимума запишем функциональное уравнение (2.3.7) в несколько иной форме. В связи с этим введем новую переменную . Очевидно, что
С учетом этого соотношения, а также очевидного равенства
Принцип максимума для задачи о минимуме функционала (2.3.3) на связях (2.3.1) доставляет (при ) условие
в котором является решением уравнения
Сравнивая (2.3.25) и (2.3.26), нетрудно заметить их идентичность, если доказать, что вдоль оптимальных траекторий выполняется равенство
Переходя к доказательству этого равенства, вычислим
С другой стороны, дифференцируя (2.3.25) по , получим вдоль оптимальных траекторий
Используя (2.3.29), запишем это равенство в виде
Сравнивая это выражение с сопряженными уравнениями (2.2.8), заключаем, что функции времени удовлетворяют одинаковым дифференциальным уравнениям и, следовательно, эти функции совпадают при одинаковых начальных (краевых) условиях в этих уравнениях.
Заметим, что при выводе (2.3.31) использовалось соотношение (2.3.30), которое нуждается в обосновании. Дело в том, что равенство выражения в фигурных скобках (2.3.25) нулю не означает равенства нулю ее производной, а это молчаливо предполагалось при выводе (2.3.30).
В связи с этим рассмотрим фиксированный момент времени . Для этого момента оптимальное управление является вектором чисел. Для точек фазового пространства, не лежащих на оптимальной траектории, уже не будет оптимальным и, следовательно, для этих точек функция в фигурных скобках выражения (2.3.25) не будет достигать максимума. Отсюда следует, что эта функция достигает максимума, равного нулю, лишь в точках, лежащих на оптимальной траектории, и, следовательно, частные производные рассматриваемой функции по в силу необходимых условий экстремума (по ) обращаются в нуль. Таким образом, связь между методом динамического программирования и принципом максимума установлена.
Укажем в заключение на различие этих методов. Оно вызвано тем, что функциональное уравнение (2.3.25) содержит частные производные , которые могут не существовать.
Это обстоятельство можно было бы считать не особенно существенным, если бы после решения функционального уравнения оказалось, что функция дифференцируема по . В действительности же для многих практически важных задач функция не является дифференцируемой по , и поэтому возникла необходимость дальнейших исследований, связанных с этим методом.
Дальнейшее развитие метода динамического программирования и его приложения в практике.
В 1962 г. В. Ф. Кротов предложил [2.22] простые достаточные условия оптимальности, которые охватили как частный случай функциональные уравнения метода динамического программирования. Эти условия нашли широкое применение для решения практических задач [2.23, 2.24]. С использованием этих условий были начаты исследования функционального уравнения метода динамического программирования. Были указаны дополнительные условия, накладываемые на это уравнение, при которых оно приводит к синтезу оптимального управления [2.25, 2.26].
Сразу же после появления метода динамического программирования началось его широкое практическое применение для построения управления запуском ракет и спутников, химическими процессами, реактором и другими объектами. Эти применения упомянуты в книгах освещающих различные аспекты метода динамического программирования.