Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
§ 3. Обобщенный градиент
Вернемся к процедуре (9.2). Здесь
обычно в случае, когда функция дифференцируема по , в качестве вектора берется градиент по функции при , . Градиент функции будем обозначать . Таким образом, (9.2)
имеет вид
. (9.9)
Как
известно, градиентом функции в точке называется вектор такой, что функция является главной
линейной частью приращения
,
т.е.
, (9.10)
где
– величина
более высокого порядка малости по сравнению с .
Известно, что понятие градиента
может быть обобщено для недифференцируемых выпуклых функций следующим образом.
Обобщенным градиентом выпуклой функции в точке называется такой вектор , что для всех
. (9.11)
Существование обобщенного
градиента для выпуклых функций в любой точке показано, например, в работе [27].
Очевидно, что во всех точках, где
выпуклая функция дифференцируема, обобщенный градиент совпадает с обычным. В
самом деле, допустим, что в некоторой точке . Тогда существует вектор такой, что
.
Положим
.
Тогда
. (9.12)
Поскольку
, a – величина второго порядка малости, при
достаточно малых обе
части равенства (9.12) становятся меньше, чем , что противоречит (9.11).
Рассмотрим пример выпуклой
функции, которая не всюду дифференцируема:
,
где
– некоторый
фиксированный вектор, а – фиксированный скаляр. Эта функция
имеет градиент всюду, за исключением многообразия
.
Определим
обобщенный градиент следующим образом:
При сообщенный градиент совпадает с обычным,
а при условие
(9.11), очевидно, выполняется, поскольку при этом
,
в
то время как
.
В главе IV была введена в
рассмотрение функция потерь
.
Как
нетрудно убедиться, в качестве обобщенного градиента суммы функций можно взять
сумму обобщенных градиентов.
Поэтому для этой функции
обобщенный градиент можно положить равным
.
В дальнейшем будем рассматривать
только выпуклые по функции
потерь. Это будет означать, что для таких функций всегда существует обобщенный
градиент и выполнены условия
.