§ 1. О критериях оценки качества алгоритмов

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

Глава VI. МЕТОД УПОРЯДОЧЕННОЙ МИНИМИЗАЦИИ РИСКА

§ 1. О критериях оценки качества алгоритмов

До сих пор мы интересовались только тем, каким условиям должен удовлетворять алгоритм, чтобы обеспечить машине способность обучаться. Были рассмотрены рекуррентные алгоритмы. Оказалось, что они требуют достаточно большой обучающей последовательности. Поэтому была рассмотрена их модернизация, которая заключалась в запоминании обучающей последовательности и многократном ее использовании. Суть этой модернизации состояла в том, что задача решалась методом минимизации эмпирического риска. Были найдены условия, при которых алгоритмы минимизации эмпирического риска приводят к успеху, и тем самым получена возможность строить различные алгоритмы, способные обучаться распознаванию образов. Какой же алгоритм выбрать теперь для решения конкретных задач? Какой из алгоритмов обучения распознаванию образов будет лучше работать на выборках фиксированной длины ?

Для того чтобы строить наилучшие алгоритмы на выборках фиксированной длины (конечно-оптимальные алгоритмы), надо прежде всего договориться о том, как оценивать качество алгоритма (т. е. о том, каков критерий оптимизации).

Качество алгоритма обучения при решении конкретной задачи естественно определять как качество решающего правила, выбранного им по обучающей последовательности. Качество же решающего правила для конкретной задачи, заданной распределением , мы определили выше как

Но поскольку выбор решающего правила зависит от случайно составленной обучающей последовательности , величина будет случайной, зависящей от той или иной реализации обучающей последовательности.

Случайная величина наиболее полно характеризуется своей функцией распределения. В нашем случае качество алгоритма, решающего фиксированную задачу на выборках длины будет определяться функцией распределения качества .

Сравнивать качество двух алгоритмов – значит сравнивать две функции распределения. Если одна из функций расположена не ниже другой (так, как на рис. 13), то выбор может быть сделан однозначно.

Рис. 13.

При таком расположении кривых для любых двух точек с равными ординатами абсцисса точки первой кривой лежит левее абсциссы точки второй кривой. Это значит, что для любого уровня надежности первый алгоритм гарантирует достижение меньшего значения функционала и потому лучше второго. Однако возможны и такие расположения функций распределения качества двух алгоритмов, как на рис. 14.

Рис. 14.

В этом случае для одного уровня надежности оказывается предпочтительнее первый алгоритм, а для другого предпочтение должно быть отдано второму. Таким образом, сравнивать между собой функции распределения качества алгоритмов, решающих некоторую задачу на выборках длины , можно только при фиксированном уровне надежности. Это создает некоторые неудобства, поэтому будем иногда характеризовать качество алгоритма не функцией распределения , а математическим ожиданием качества

Теперь для решения предложенной задачи на выборках длины будем считать тот алгоритм лучшим, для которого соответствующая величина математического ожидания меньше.

Обозначим через алгоритм обучения, а через конкретную задачу; тогда качество алгоритма , решающего задачу обучения распознавания образов на выборках длины , можно записать как функцию двух переменных .

Итак, определено, как должно измеряться качество для любой фиксированной задачи . Далее следует договориться, как измерять качество алгоритма, предназначенного для решения класса задач .

Разрешению этой трудности посвящена теория статистических решений. В этой теории для сравнения различных алгоритмов предлагаются следующие три критерия:

a) критерий Байеса,

б) критерий минимакса,

в) критерий минимакса потерь.

Критерий Байеса предлагает вычислять для каждого алгоритма среднее по множеству всех задач качество. Для этого надо знать закон, который указывал бы, с какой вероятностью придется решать ту или иную задачу, т. е. знать функцию распределения . Тогда критерий Байеса определяется так:

Критерий минимакса наиболее осторожен. Он предлагает оценивать качество алгоритма как качество решения наиболее неблагоприятной для данного алгоритма задачи. При таком критерии, напротив, совершенно не принимается во внимание, какова вероятность того, что на практике придется решать эту неблагоприятную задачу. Поэтому может оказаться так, что качество алгоритма определяет задача, которая на практике никогда не встретится. Иначе говоря, этот критерий конструируется так:

Критерий минимакса потерь предполагает минимизацию наибольшей величины потери качества, которая возникает из-за применения данного алгоритма для решения разных задач по сравнению с применением оптимального для каждой из задач алгоритма. Иначе говоря, критерий минимакса потерь конструируется по правилу:

Эта глава посвящена сравнению различных алгоритмов обучения распознаванию образов. В ней будут рассмотрены оптимальные с точки зрения различных критериев алгоритмы, установлена близость алгоритмов, минимизирующих эмпирический риск, к оптимальным с точки зрения минимаксного критерия и критерия минимакса потерь. Однако алгоритмы, оптимальные по этим двум критериям, не столь интересны, как алгоритмы, оптимизирующие критерий Байеса. Построение же оптимальных по критерию Байеса алгоритмов – задача, практически неосуществимая из-за чрезвычайно громоздких вычислений. Поэтому представляют интерес квазибайесовы процедуры, которые сохраняют ценные свойства байесовых процедур, но не столь громоздки. В этой главе будут рассмотрены алгоритмы упорядоченной минимизации риска, которые реализуют такие процедуры.

Рассмотрение оптимальных алгоритмов начнем с исследования алгоритмов, оптимальных по минимаксному критерию.

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
ЧАСТЬ ПЕРВАЯ ЭЛЕМЕНТАРНАЯ ТЕОРИЯ
Глава I. Персептрон Розенблатта
§ 1. Феномен восприятия
§ 2. Физиологическая модель восприятия
§ 3. Техническая модель. Персептрон
§ 4. Математическая модель
§ 5. Обобщенная математическая модель
§ 6. Теорема Новикова
§ 7. Доказательство теоремы Новикова
§ 8. Двухуровневая схема распознавания
Глава II. Задача обучения машин распознаванию образов
§ 1. Задача имитации
§ 2. Качество обучения
§ 3. Надежность обучения
§ 4. Обучение – задача выбора
§ 5. Две задачи конструирования обучающихся устройств
§ 6. Математическая постановка задачи обучения
§ 7. Три пути решения задачи о минимизации среднего риска
§ 8. Задача обучения распознаванию образов и методы минимизации среднего риска
Глава III. Методы обучения, основанные на восстановлении распределения вероятностей
§ 1. О восстановлении распределения вероятностей
§ 2. Классификация оценок
§ 3. Метод максимума правдоподобия
§ 4. Байесов принцип восстановления
§ 5. Сравнение байесова метода оценивания и оценивания методом максимума правдоподобия
§ 6. Оценка параметров распределения дискретных независимых признаков
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
§ 9. Байесов метод восстановления нормального распределения
Глава IV. Рекуррентные алгоритмы обучения распознаванию образов
§ 1. Метод стохастической аппроксимации
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
§ 3. Конечно-сходящиеся рекуррентные процедуры
§ 4. Теоремы об останове
§ 5. Метод циклического повторения обучающей последовательности
§ 6. Метод потенциальных функций
Глава V. Алгоритмы, минимизирующие эмпирический риск
§ 1. Метод минимизации эмпирического риска
§ 2. Равномерная сходимость частот появления событий к их вероятностям
§ 3. Теорема Гливенко
§ 4. Частный случай
§ 5. Оценка числа различных линейных разделений векторов
§ 6. Условия равномерной сходимости частот появления событий к их вероятностям
§ 7. Свойства функции роста
§ 8. Оценка уклонения эмпирически оптимального решающего правила
§ 9. Метод минимизации эмпирического риска в детерминистской постановке задачи обучения распознаванию образов
§ 10. Замечание об оценке скорости равномерной сходимости частот появления событий к их вероятностям
§ 11. Замечания об особенностях метода минимизации эмпирического риска
§ 12. Алгоритмы метода обобщенного портрета
§ 13. Алгоритм Кора
Глава VI. Метод упорядоченной минимизации риска
§ 1. О критериях оценки качества алгоритмов
§ 2. Минимаксный критерий
§ 3. Критерий минимакса потерь
§ 4. Критерий Байеса
§ 5. Упорядочение классов решающих правил
§ 6. О критериях выбора
§ 7. Несмещенность оценки скользящего контроля
§ 8. Упорядочение по размерностям
§ 9. Упорядочение по относительным расстояниям
§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного риска
§ 11. О выборе оптимальной совокупности признаков
§ 12. Алгоритмы упорядоченной минимизации суммарного риска
§ 13. Алгоритмы построения экстремальных кусочно-линейных решающих правил
§ 14. Приложение к главе VI
Глава VII. Примеры применения методов обучения распознаванию образов
§ 1. Задача о различении нефтеносных и водоносных пластов в скважине
§ 2. Задача о различении сходных почерков
§ 3. Задача о контроле качества продукции
§ 4. Задача о прогнозе погоды
§ 5. Применение метода обучения распознаванию образов в медицине
§ 6. Замечания о применениях методов обучения распознаванию образов
Глава VIII. Несколько общих замечаний
§ 1. Еще раз о постановке задачи
§ 2. Физики об интуиции
§ 3. Машинная интуиция
§ 4. О мире, в котором возможна интуиция
Часть вторая. СТАТИСТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ
Глава IX. О сходимости рекуррентных алгоритмов обучения распознаванию образов
§ 1. Определение понятия сходимости
§ 2. Выпуклые функции
§ 3. Обобщенный градиент
§ 4. Условия сходимости рекуррентных алгоритмов
§ 5. Еще одно условие сходимости рекуррентных алгоритмов
Глава X. Достаточные условия равномерной сходимости частот к вероятностям по классу событий
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
§ 2. Определение равномерной сходимости частот к вероятностям
§ 3. Определение функции роста
§ 4. Свойства функции роста
§ 5. Основная лемма
§ 6. Вывод достаточных условий равномерной сходимости частот к вероятностям по классу событий
§ 7. О равномерной сходимости с вероятностью единица
§ 8. Примеры и дополнительные замечания
§ 9. Приложение к главе X
Глава XI. Необходимые и достаточные условия равномерной сходимости частот к веронтностям по классу событий
§ 1. Энтропия системы событий
§ 2. Асимптотические свойства энтропии
§ 3. Необходимые и достаточные условия равномерной сходимости (доказательство достаточности)
§ 4. Доказательство необходимости условий равномерной сходимости
§ 5. Примеры и дополнительные критерии
Глава XII. Оценки равномерного относительного уклонения частот от вероятностей в классе событий
§ 1. О равномерном относительном уклонении
§ 2. Оценка равномерного относительного уклонения частот в двух полувыборках
§ 3. Оценка равномерного относительного уклонения частот от вероятностей
Глава XIII. Применение теории равномерной сходимости к методам минимизации эмпирического риска
§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию
§ 2. Равномерная сходимость средних к математическим ожиданиям
Часть третья. МЕТОДЫ ПОСТРОЕНИЯ РАЗДЕЛЯЮЩИХ ПОВЕРХНОСТЕЙ
Глава XIV. Построение разделяющей гиперплоскости (метод обобщенного портрета)
§ 1. Оптимальная разделяющая гиперплоскость
§ 2. Однопараметрическое семейство разделяющих гиперплоскостей
§ 3. Некоторые свойства обобщенного портрета
§ 4. Двойственная задача
§ 5. Алгоритмы персептронного типа
§ 6. Градиентные методы построения разделяющей гиперплоскости (вычисление обобщенного портрета)
§ 7. Теория оптимальной разделяющей гиперплоскости
§ 8. Двойственная задача
§ 9. Методы вычисления оптимальной разделяющей гиперплоскости
§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса–Зайделя
§ 11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости
§ 12. Некоторые статистические особенности метода обобщенного портрета
§ 13. Приложение к главе XIV
Глава XV. АЛГОРИТМЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ, РЕАЛИЗУЮЩИЕ МЕТОД ОБОБЩЕННОГО ПОРТРЕТА
§ 1. Способы представления информации
§ 2. Алгоритм построения разделяющей гиперплоскости
§ 3. Алгоритм построения разделяющей гиперплоскости, минимизирующей число ошибочно классифицируемых векторов
§ 4. Алгоритм построения кусочно-линейной разделяющей поверхности
§ 5. Алгоритмы построения разделяющей гиперплоскости в пространстве минимального числа признаков
§ 6. Алгоритм построения экстремальной линейной разделяющей поверхности
§ 7. Алгоритм построения экстремальной кусочно-линейной разделяющей поверхности
§ 8. Алгоритм построения разделяющей гиперплоскости с оценкой ее качества методом скользящего контроля
§ 9. Алгоритмы построения экстремальных разделяющих гиперповерхностей с помощью процедуры скользящий контроль
§ 10. О работе с алгоритмами
Глава XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ
§ 1. Идея метода
§ 2. Метод сопряженных градиентов
§ 3. Метод параллельных касательных (партан)
§ 4. Анализ погрешностей метода
КОММЕНТАРИИ
ЛИТЕРАТУРА