МИНИМИЗАЦИИ ФУНКЦИЙ МЕТОДЫ
— методы поиска минимумов функций. Поиск максимумов сводится к поиску минимумов путем изменения знака ф-ции. М. ф. м.- раздел вычислительной математики, играющий большую роль в таких приложениях, как выбор оптим. вариантов в задачах планирования, проектирования и операций исследования, управления технологическими процессами, управления движением сложных объектов и т. п. М. ф. м. применяются также для решения систем ур-ний и неравенств при отыскании спектра операторов, при решении краевых задач и т. п.
Наиболее изучены М. ф. м- применительно к ф-циям, определенным во всем
-мерном евклидовом простр.
Рассмотрим их, не касаясь дискретных и дискретно-непрерывных задач минимизации, а также задач минимизации при наличии ограничений. Последние во многих случаях можно свести к задаче безусловной минимизации (напр., с использованием штрафных ф-ций). Не будем рассматривать методы нахождения минимума, основанные на непосредственном использовании необходимых условий экстремума, т. к. решение получаемых при этом систем нелинейных ур-ний можно рассматривать как задачу минимизации суммы квадратов невязок (или максимума модуля невязок). Возможность применения и сравнительная эффективность различных М. ф. м. во многом определяется классом ф-ций, к которому они применяются. Большинство М. ф. м. дают возможность находить локальный минимум, и лишь априорная информация о свойствах ф-ции (выпуклость, унимодальность) позволяет считать этот минимум глобальным. Методы, гарантирующие поиск глобального минимума с заданной точностью для достаточно общих классов ф-ций, являются весьма трудоемкими. На
практике для нахождения глобального минимума в основном используется сочетание Монте-Карло метода и одного из методов локальной минимизации.
Широкий класс М. ф. м. описывают следующей вычислительной схемой. Пусть
минимизируемая ф-ция, определенная в
произвольно выбранная начальная точка. Допустим, что
имеет непрерывные частные производные до
порядка включительно
будем рассматривать как производную нулевого порядка). Для получения последовательных приближений к локальному минимуму строится последовательность точек
по ф-лам следующего вида:
где
обозначает вектор частных производных
порядка
вычислимые ф-ции своих аргументов. Порядок высших частных производных, вычисляемых для реализации ф-лы (1), наз. порядком метода. Осн. группа применяемых на практике методов имеет ту особенность, что информация, необходимая для вычисления очередного значения
выражается через ограниченное к-во параметров, вычисляемых на данном шаге и предыдущих шагах процесса. Метод называют
-ступенчатым, если схема алгоритма имеет, начиная с некоторого
следующую структуру: на
шаге вычисляем параметры
где — некоторое натуральное число, и вектор
по ф-лам следующего вида:
(начальные параметры вычисляются с помощью спец. процедур). В широко распространенных методах спуска оператор
конкретизируется в следующей форме:
где
вещественное число, которое наз. шаговым множителем, вектор
определяет направление спуска. Среди методов спуска выделяются методы монотонного спуска или релаксационные методы. Метод
релаксационным, если
при к
Бели
непрерывно дифференцируема, то релаксационность метода (3) обеспечивается, когда направление спуска образует острый угол с направлением градиента и
достаточно мал. Обшая теория релаксационных процессов развита наиболее полно для случая выпуклых ф-ций. В качестве осн. параметров, характеризующих процесс, рассматриваются углы релаксации
между
и направлением градиента), а также множители релаксации
определяемые равенством
где
градиент ф-ции
(для квадратичного функционала
при наискорейшем спуске). Обозначим через
приведенный коэфф. релаксации. Необходимое и достаточное условие сходимости релаксационного процесса для сильно выпуклой ф-ции
:
Среди релаксационных методов наиболее известны градиентные методы. Рассмотрим более подробно одноступенчатые методы градиентного типа. Общая схема их следующая:
В рамках этой схемы можно выделить такие модификации:
а) градиентный спуск с постоянным шагом:
единичная матрица;
б) наискорейший градиентный спуск:
, где
определяется из условия минимума
в) метод Ньютона—Рафсона:
, где
— гессиан в точке
г) промежуточные схемы:
. К числу наиболее распространенных двухступенчатых градиентных методов можно отнести методы сопряженных градиентов; примером двухступенчатой схемы является метод сопряженных градиентов Флетчера — Ривза:
Методы a) и б) при достаточно общих условиях (первый — при достаточно малом а) сходятся к локальному минимуму со скоростью геом. прогрессии. Метод в) при достаточно общих условиях сходится из достаточно малой окрестности минимума с квадратичной скоростью. Промежуточная схема г) более гибкая и позволяет при определенной регулировке последовательностей
также получить квадратическую скорость сходимости при более слабых требованиях на начальное приближение.
Недостатком методов в), г) является необходимость вычисления гессиана. От этого недостатка избавлены методы сопряженных градиентов и так называемые алгоритмы с изменяемой метрикой, обладающие свойствами ускоренной сходимости для достаточно гладких ф-ций в окрестности минимума. Схемы алгоритмов с изменяемой метрикой по своему характеру являются комбинацией схемы сопряженных градиентов и метода Ньютона — Рафсона. Одновременно с движением по схеме типа сопряженных градиентов происходит итеративная аппроксимация матрицы, обратной гессиану в точке минимума. После каждых п шагов процесса происходит шаг по методу Ньютона—Рафсона, где вместо
выступает ее аппроксимация.
Если градиент
разрывен, перечисленные выше методы не применимы. Поэтому большое значение имеют методы минимизации выпуклых (не обязательно дифференцируемых) ф-ций; эти методы можно условно разбить на 2 группы: 1) методы градиентного типа и 2) методы «секущих плоскостей». К 1-й группе относятся различные модификации обобщенных градиентов метода, а также схемы с ускоренной сходимостью, основанные на растяжении простр. в направлении градиента или разности двух последовательных градиентов. К методам 2-й группы относится, напр., метод Келли. Пусть ЗП — выпуклое (ограниченное) мн-во, на котором определена
последовательность точек, в которых вычисляется обобщенный градиент
. Тогда
находится как решение задачи: найти
Метод Келли сходится по функционалу при любом начальном
. Из распространенных методов минимизации следует отметить, в частности, метод оврагов для минимизации ф-ций с сильно вытянутыми гиперповерхностями уровня; методы покоординатного поискас изменяемой системой координат; методы случайного поиска; комбинированные методы быстрого спуска и случайного поиска, когда направление убывания ф-ции находится методом Монте-Карло; методы дифференциального спуска, стохастической аппроксимации методы и др. В задачах оптим. регулирования большое значение имеют методы поиска нулевого порядка. В основе алгоритмов минимизации для этого случая обычно лежит идея линейной или квадратичной аппроксимации минимизируемой ф-ции или разностной аппроксимации соответствующих частных производных. Для поиска экстремума глобального предложен ряд методов. Осн. из них: метод Монте-Карло, комбинация метода Монте-Карло определения начальной точки с одним из алгоритмов локального поиска, методы, основанные на построении нижней огибающей данной ф-ции, методы последовательного отсечения подмн-в, методы построения траекторий, всюду плотно покрывающих область определения ф-ции, и минимизации вдоль этих траекторий.
Для решения спец. классов многоэкстремальных задач используются методы программирования динамического.
В наст, время создаются оптим. алгоритмы минимизации ф-ций разных классов. Пусть
класс ф-ций, определенных в кубе
, и имеющих в
частные производные до s-го порядка, удовлетворяющие условию Липшица с константой L. Любой алгоритм минимизации
из
, использующий информацию о значениях f и ее производных до
порядка включительно
не более чем в N точках
эквивалентен (в смысле результата) некоторому алгоритму А получения последовательности итераций (1) для
и аппроксимации искомого значения
при помощи итоговой операции
где
— некоторая вычислимая ф-ция. Введем следующие обозначения:
Алгоритм, для которого достигается
оптимальным. Условия
означают соответственно асимптотическую оптимальность и оптимальность по порядку алгоритма
Можно показать, что
причем выбор
, влияет лишь на константу в указанной оценке. В частном случае
и
имеем:
где
миним. сеть в
.
Другой подход к построению оптим. алгоритмов минимизации связан с обобщением идей последовательных статистических решений. Алгоритм минимизации рассматривается как управляемая последовательность опытов, каждый из которых дает тот или иной исход. На совокупности исходов определяется априорная вероятностная мера. После получения конкретного исхода очередного опыта происходит перераспределение вероятностей по ф-ле Байеса и выбирается следующий опыт или принимается окончательное решение. Алгоритмы отличаются друг от друга правилом, по которому выбирается следующий опыт, правилами остановки и выбора окончательного решения. Качество решения определяется ф-цией потерь, которая усредняется в соответствии с полученным на данном этапе вероятностным распределением. В этих терминах ставится задача выбора оптим. алгоритма как построения последовательного байесовского правила поиска решений. Такая постановка интересна тем, что в ее рамках можно учитывать статистические свойства класса решаемых задач, сопоставлять «средние» потери, связанныз с погрешностью решения, с затратами, связанными с уточнением решения. Лит.: Любич Ю. И., Майстровский Г. Д. Общая теория релаксационных процессов для выпуклых функционалов. «Успехи математических наук», 1970, т. 25, в. 1; Михалевич В. С. Последовательные алгоритмы оптимизации и их применение. «Кибернетика», 1965, N5 1-2; Иванов В. В. Об оптимальных алгоритмах минимизации функций некоторых классов. «Кибернетика», 1972, № 4; Уайлд Д. Дк. Методы поиска экстремума. Пер. с англ. М., 1967.
В. В. Иванов, В. С. Михалевич, Н. 3. Шор.