Главная > Теория распознавания образов (статистические проблемы обучения)
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

§ 3. Обобщенный градиент

Вернемся к процедуре (9.2). Здесь обычно в случае, когда функция  дифференцируема по , в качестве вектора  берется градиент по  функции  при , . Градиент функции  будем обозначать . Таким образом, (9.2) имеет вид

.                 (9.9)

Как известно, градиентом функции  в точке  называется вектор  такой, что функция  является главной линейной частью приращения

 ,

т.е.

,                   (9.10)

где  – величина более высокого порядка малости по сравнению с .

Известно, что понятие градиента может быть обобщено для недифференцируемых выпуклых функций следующим образом. Обобщенным градиентом  выпуклой функции  в точке  называется такой вектор , что для всех

.                       (9.11)

Существование обобщенного градиента для выпуклых функций в любой точке  показано, например, в работе [27].

Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обычным. В самом деле, допустим, что в некоторой точке  . Тогда существует вектор  такой, что

.

Положим

.

Тогда

.                      (9.12)

Поскольку , a  – величина второго порядка малости, при достаточно малых  обе части равенства (9.12) становятся меньше, чем , что противоречит (9.11).

Рассмотрим пример выпуклой функции, которая не всюду дифференцируема:

,

где  – некоторый фиксированный вектор, а  – фиксированный скаляр. Эта функция имеет градиент всюду, за исключением многообразия

.

Определим обобщенный градиент следующим образом:

При  сообщенный градиент совпадает с обычным, а при  условие (9.11), очевидно, выполняется, поскольку при этом

,

в то время как

.

В главе IV была введена в рассмотрение функция потерь

.

Как нетрудно убедиться, в качестве обобщенного градиента суммы функций можно взять сумму обобщенных градиентов.

Поэтому для этой функции обобщенный градиент можно положить равным

.

В дальнейшем будем рассматривать только выпуклые по  функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и выполнены условия

.

 

1
Оглавление
email@scask.ru