§ 2. Метод сопряженных градиентов

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

369

370

371

372

373

374

375

376

377

378

379

380

381

382

383

384

385

386

387

388

389

390

391

392

393

394

395

396

397

398

399

400

401

402

403

404

405

406

407

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 2. Метод сопряженных градиентов

Метод сопряженных градиентов для нахождения максимума квадратичной формы имеет несколько модификаций.

1. Одна из них получается непосредственно из рассмотренного выше процесса, если заменить максимизацию функции на гиперпространстве отысканием максимума на прямой вида (16.15). Как было показано в предыдущем пункте результат от этого не изменится, так как эти максимумы совпадают.

Алгоритм получается таким (модификация I):

А. Начальный шаг.

1) Находится градиент функции в произвольной точке ;

2) полагается ;

3) находится точка , доставляющая максимум функции на прямой ( – параметр).

Б. Общий шаг. Пусть уже найдены точки .

1) находится градиент функции в точке .

2) полагается

где

;

3) находится точка , доставляющая условный максимум на прямой

В. Останов алгоритма. Процесс обрывается в тот момент, когда градиент обратится в нуль, т. е. достигается максимум на всем пространстве .

При абсолютно точном вычислении алгоритм должен привести к максимуму не более чем за шагов, так как при этом точки вычисляемые методом сопряженных градиентов, совпадают с точками , получающимися в процессе, описанном в предыдущем пункте: как было показано, этот процесс выводит на абсолютный максимум не более чем за шагов.

В реальных условиях, при ограниченной точности вычислений, процесс поиска максимума следует остановить не при точном обращении в нуль градиента, а в тот момент, когда градиент станет достаточно мал. При этом на самом деле может потребоваться более шагов. Более подробно эти вопросы будут рассмотрены ниже.

Чтобы придать алгоритму более «конструктивную» форму, найдем формулу, определяющую точку максимума квадратичной формы на прямой .

Подставляя уравнение прямой в выражение функции , получим

где – градиент в точке . Максимизируя по , получим

и соответственно

. (16.16)

Таким образом, вычисление в пункте 3) алгоритма может быть осуществлено по формуле

2. Более известна модификация метода, при которой для вычисления очередного направления используются векторы и вместо и .

Рассмотрим систему векторов , коллинеарных соответственно векторам (т. е. при некоторых действительных ). Для векторов и сохраняется условие -ортогональности

при . (16.17)

Кроме того, из (16.11) следует, что

при . (16.18)

Наконец, остается в силе соотношение типа (16.9)

. (16.19)

Умножая правую и левую части (16.19) на и учитывая (16.17) и (16.18), получим при

откуда при . При получим

откуда

. (16.20)

Соотношение (16.20) определяет с точностью до произвольного множителя через и ц. При выводе (16.20) использовались лишь соотношения (16.17), (16.18), (16.19). Поэтому процесс построения векторов может рассматриваться как процесс -ортогонализации векторов .

Полагая в (16.20) и , получим конкретную систему векторов , коллинеарных . Каждый вектор задает направление прямой, исходящей из , на которой лежит . Алгоритм, таким образом, примет следующий вид (модификация II).

А. Начальный шаг, такой же как и в модификации I.

Б. Пусть уже найдены точка и направление .

1) Находится градиент функции в точке ;

2) полагается

где

; (16.21)

3) находится точка , доставляющая условный максимум на прямой

по формуле

. (16.22)

Формулы (16.21) и (16.22) могут быть преобразованы. Так, полагая

имеем из (16.22)

откуда получаем, применяя (16.12),

. (16.23)

С другой стороны, поскольку

из (16.21) имеем

и, таким образом,

. (16.24)

Наконец, из (16.21), (16.23) и (16.24) получаем

Таким образом, формулы (16.21) и (16.22) могут быть записаны в виде

где

(16.25)

. (16.26)

Совпадение результатов действия по формулам (16.21) и (16.22), с одной стороны, и (16.25), (16.26), с другой, может служить критерием правильности вычислений.

3. Метод сопряженных градиентов может быть применен и для максимизации функций , не являющихся квадратичными. Известно, однако, что вблизи максимума достаточно гладкие функции, как правило, хорошо аппроксимируются квадратичной функцией, например, с помощью разложения в ряд Тейлора. При этом обычно предполагается, что коэффициенты аппроксимирующей квадратичной функции неизвестны, но для любой точки можно найти градиент функции .

При этом пункт 1) алгоритма может быть выполнен без изменений, пункт 2) должен выполняться по формуле (16.25), поскольку в эту формулу не входит явно матрица , а пункт 3), нахождение условного максимума на прямой, может быть выполнен одним из известных способов, например, методом Фибоначчи. Применение метода сопряженных градиентов дает обычно значительно более быструю сходимость к максимуму по сравнению с методами наискорейшего спуска, Гаусса – Зайделя и др.

4. Что будет, если применить метод сопряженных градиентов для максимизации квадратичной формы с положительно полуопределенной формой ?

Если квадратичная форма положительно полуопределена, то, как известно из линейной алгебры, в соответствующей системе координат функция примет вид

где все и некоторые из . При этом функция имеет максимум, если выполнено условие: когда , то и . Легко видеть, что максимум в этом случае достигается на целом гиперпространстве. А именно, пусть, например, при , меняющемся от 1 до , , а при , меняющемся от до , и . Тогда максимум достигается в точках с координатами при и с произвольными значениями при . Они образуют гиперпространство размерности .

Если же при некоторых , a , то функция не имеет максимума и возрастает неограниченно. В самом деле, пусть, например, и ; тогда, если положить при и устремить к , то, очевидно, и будет возрастать до бесконечности.

Оказывается, что метод сопряженных градиентов (при точном счете) позволяет в первом случае достигнуть максимума не более чем за шагов, где – число не равных нулю, а во втором случае не более чем через шагов выводит на направление, по которому функция возрастает неограниченно.

В исходной системе координат функция имеет вид

причем матрица вырождена и имеет ранг . При этом, как и раньше, обращение градиента в нуль есть критерий достижения максимума, а ортогональность градиента гиперпространству – критерий условного экстремума на гиперпространстве.

Рассмотрим применение метода сопряженных градиентов в форме II в этом случае. Здесь приходится изменить условие остановки, т. е. теперь возможно, что при вычислении длины шага

знаменатель может обратиться в нуль (при вычислении значения величина также входит в знаменатель, но если она равна нулю, то уже предыдущий шаг невозможен).

Таким образом, условие останова будет таким. Процесс останавливается, если:

на очередном шаге

или

на очередном шаге оказывается, что

В первом случае алгоритм, естественно, приводит в точку максимума. Во втором случае направление будет направлением неограниченного возрастания функции . В самом деле, на прямой

при функция имеет вид

причем

так как при останов произошел бы по пункту а). Но теперь очевидно, что при функция возрастает неограниченно. Можно показать, что при этом из всех направлений, по которым функция бесконечно возрастает, она растет быстрее всего в направлении .

Нам остается убедиться, что останов произойдет не более чем через шагов, где – ранг матрицы . В самом деле пусть при выполнено условие . Тогда остаются в силе соотношения

при

(при выводе этих соотношений положительно-определенность не использовалась).

Отсюда следует, что векторы образуют -ортогональный базис, а градиент в точке ортогонален гиперпространству размерности , состоящему из векторов вида

причем

так что в точке достигается условный максимум функции на . Далее, на гиперпространстве функция имеет вид

где

и так как , то квадратичная часть положительно определена. Но, как известно из линейной алгебры, это возможно только в том случае, когда размерность пространства меньше или равна рангу матрицы .

Следовательно, останов обязательно произойдет при .

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
ЧАСТЬ ПЕРВАЯ ЭЛЕМЕНТАРНАЯ ТЕОРИЯ
Глава I. Персептрон Розенблатта
§ 1. Феномен восприятия
§ 2. Физиологическая модель восприятия
§ 3. Техническая модель. Персептрон
§ 4. Математическая модель
§ 5. Обобщенная математическая модель
§ 6. Теорема Новикова
§ 7. Доказательство теоремы Новикова
§ 8. Двухуровневая схема распознавания
Глава II. Задача обучения машин распознаванию образов
§ 1. Задача имитации
§ 2. Качество обучения
§ 3. Надежность обучения
§ 4. Обучение – задача выбора
§ 5. Две задачи конструирования обучающихся устройств
§ 6. Математическая постановка задачи обучения
§ 7. Три пути решения задачи о минимизации среднего риска
§ 8. Задача обучения распознаванию образов и методы минимизации среднего риска
Глава III. Методы обучения, основанные на восстановлении распределения вероятностей
§ 1. О восстановлении распределения вероятностей
§ 2. Классификация оценок
§ 3. Метод максимума правдоподобия
§ 4. Байесов принцип восстановления
§ 5. Сравнение байесова метода оценивания и оценивания методом максимума правдоподобия
§ 6. Оценка параметров распределения дискретных независимых признаков
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
§ 9. Байесов метод восстановления нормального распределения
Глава IV. Рекуррентные алгоритмы обучения распознаванию образов
§ 1. Метод стохастической аппроксимации
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
§ 3. Конечно-сходящиеся рекуррентные процедуры
§ 4. Теоремы об останове
§ 5. Метод циклического повторения обучающей последовательности
§ 6. Метод потенциальных функций
Глава V. Алгоритмы, минимизирующие эмпирический риск
§ 1. Метод минимизации эмпирического риска
§ 2. Равномерная сходимость частот появления событий к их вероятностям
§ 3. Теорема Гливенко
§ 4. Частный случай
§ 5. Оценка числа различных линейных разделений векторов
§ 6. Условия равномерной сходимости частот появления событий к их вероятностям
§ 7. Свойства функции роста
§ 8. Оценка уклонения эмпирически оптимального решающего правила
§ 9. Метод минимизации эмпирического риска в детерминистской постановке задачи обучения распознаванию образов
§ 10. Замечание об оценке скорости равномерной сходимости частот появления событий к их вероятностям
§ 11. Замечания об особенностях метода минимизации эмпирического риска
§ 12. Алгоритмы метода обобщенного портрета
§ 13. Алгоритм Кора
Глава VI. Метод упорядоченной минимизации риска
§ 1. О критериях оценки качества алгоритмов
§ 2. Минимаксный критерий
§ 3. Критерий минимакса потерь
§ 4. Критерий Байеса
§ 5. Упорядочение классов решающих правил
§ 6. О критериях выбора
§ 7. Несмещенность оценки скользящего контроля
§ 8. Упорядочение по размерностям
§ 9. Упорядочение по относительным расстояниям
§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного риска
§ 11. О выборе оптимальной совокупности признаков
§ 12. Алгоритмы упорядоченной минимизации суммарного риска
§ 13. Алгоритмы построения экстремальных кусочно-линейных решающих правил
§ 14. Приложение к главе VI
Глава VII. Примеры применения методов обучения распознаванию образов
§ 1. Задача о различении нефтеносных и водоносных пластов в скважине
§ 2. Задача о различении сходных почерков
§ 3. Задача о контроле качества продукции
§ 4. Задача о прогнозе погоды
§ 5. Применение метода обучения распознаванию образов в медицине
§ 6. Замечания о применениях методов обучения распознаванию образов
Глава VIII. Несколько общих замечаний
§ 1. Еще раз о постановке задачи
§ 2. Физики об интуиции
§ 3. Машинная интуиция
§ 4. О мире, в котором возможна интуиция
Часть вторая. СТАТИСТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ
Глава IX. О сходимости рекуррентных алгоритмов обучения распознаванию образов
§ 1. Определение понятия сходимости
§ 2. Выпуклые функции
§ 3. Обобщенный градиент
§ 4. Условия сходимости рекуррентных алгоритмов
§ 5. Еще одно условие сходимости рекуррентных алгоритмов
Глава X. Достаточные условия равномерной сходимости частот к вероятностям по классу событий
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
§ 2. Определение равномерной сходимости частот к вероятностям
§ 3. Определение функции роста
§ 4. Свойства функции роста
§ 5. Основная лемма
§ 6. Вывод достаточных условий равномерной сходимости частот к вероятностям по классу событий
§ 7. О равномерной сходимости с вероятностью единица
§ 8. Примеры и дополнительные замечания
§ 9. Приложение к главе X
Глава XI. Необходимые и достаточные условия равномерной сходимости частот к веронтностям по классу событий
§ 1. Энтропия системы событий
§ 2. Асимптотические свойства энтропии
§ 3. Необходимые и достаточные условия равномерной сходимости (доказательство достаточности)
§ 4. Доказательство необходимости условий равномерной сходимости
§ 5. Примеры и дополнительные критерии
Глава XII. Оценки равномерного относительного уклонения частот от вероятностей в классе событий
§ 1. О равномерном относительном уклонении
§ 2. Оценка равномерного относительного уклонения частот в двух полувыборках
§ 3. Оценка равномерного относительного уклонения частот от вероятностей
Глава XIII. Применение теории равномерной сходимости к методам минимизации эмпирического риска
§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию
§ 2. Равномерная сходимость средних к математическим ожиданиям
Часть третья. МЕТОДЫ ПОСТРОЕНИЯ РАЗДЕЛЯЮЩИХ ПОВЕРХНОСТЕЙ
Глава XIV. Построение разделяющей гиперплоскости (метод обобщенного портрета)
§ 1. Оптимальная разделяющая гиперплоскость
§ 2. Однопараметрическое семейство разделяющих гиперплоскостей
§ 3. Некоторые свойства обобщенного портрета
§ 4. Двойственная задача
§ 5. Алгоритмы персептронного типа
§ 6. Градиентные методы построения разделяющей гиперплоскости (вычисление обобщенного портрета)
§ 7. Теория оптимальной разделяющей гиперплоскости
§ 8. Двойственная задача
§ 9. Методы вычисления оптимальной разделяющей гиперплоскости
§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса–Зайделя
§ 11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости
§ 12. Некоторые статистические особенности метода обобщенного портрета
§ 13. Приложение к главе XIV
Глава XV. АЛГОРИТМЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ, РЕАЛИЗУЮЩИЕ МЕТОД ОБОБЩЕННОГО ПОРТРЕТА
§ 1. Способы представления информации
§ 2. Алгоритм построения разделяющей гиперплоскости
§ 3. Алгоритм построения разделяющей гиперплоскости, минимизирующей число ошибочно классифицируемых векторов
§ 4. Алгоритм построения кусочно-линейной разделяющей поверхности
§ 5. Алгоритмы построения разделяющей гиперплоскости в пространстве минимального числа признаков
§ 6. Алгоритм построения экстремальной линейной разделяющей поверхности
§ 7. Алгоритм построения экстремальной кусочно-линейной разделяющей поверхности
§ 8. Алгоритм построения разделяющей гиперплоскости с оценкой ее качества методом скользящего контроля
§ 9. Алгоритмы построения экстремальных разделяющих гиперповерхностей с помощью процедуры скользящий контроль
§ 10. О работе с алгоритмами
Глава XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ
§ 1. Идея метода
§ 2. Метод сопряженных градиентов
§ 3. Метод параллельных касательных (партан)
§ 4. Анализ погрешностей метода
КОММЕНТАРИИ
ЛИТЕРАТУРА