§ 7. Три пути решения задачи о минимизации среднего риска

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 7. Три пути решения задачи о минимизации среднего риска

Существуют три традиционных пути решения задачи минимизации среднего риска.

Первый путь связан с идеей восстановления функции распределения вероятностей. Предположим, что наряду с функцией распределения существуют условные плотности распределения , и вероятности , . Здесь – плотность распределения вероятностей векторов первого класса, а – плотность распределения вероятностей векторов второго класса. Величины , определяют вероятность появления векторов соответственно первого и второго классов.

Зная эти функции, можно с помощью формулы Байеса определить вероятность принадлежности вектора первому или второму классу:

. (2.3)

В формуле (2.3)

– нормирующий множитель.

Нетрудно понять, что минимальные потери будут получены при такой классификации векторов, при которой вектор будет отнесен к первому классу в случае выполнения неравенства

(т. е. если более вероятно, что он принадлежит к первому классу, чем ко второму) и относится ко второму классу в противном случае.

Иначе говоря, учитывая (2.3), вектор должен быть отнесен к первому классу, если выполняется неравенство

или, что то же самое, оптимальная классификация векторов производится с помощью характеристической функции

. (2.4)

Такие характеристические функции иногда называют дискриминантными. Таким образом, знание плотностей условных распределений , и вероятностей , гарантирует отыскание оптимального правила классификации.

Первый путь заключается в том, чтобы сначала восстановить по выборке неизвестные функции распределения векторов первого и второго классов, а затем по восстановленным функциям распределения построить дискриминантную функцию.

Однако следует заметить, что в этом случае решение сравнительно простой задачи – построение дискриминантной функции – подменяется решением значительно более сложной задачи – задачи о восстановлении функции распределения. Ведь восстанавливаемые функции распределения вероятностей составляют исчерпывающие сведения о классах векторов, в то время как нужная нам дискриминантная функция отражает только одну из характеристик взаимного расположения векторов различных классов.

Поэтому, вообще говоря, решать задачу обучения распознаванию образов, восстанавливая неизвестные функции распределения вероятностей, нерационально. Исключения составляют случаи, когда задачи о восстановлении многомерных функций распределений сильно вырождаются. Например, когда функция распределения такова, что координаты вектора распределены независимо, т. е.

В этом случае задача о восстановлении двух -мерных функций распределения вероятностей вырождается в задачу о восстановлении одномерных функций

, .

Второй путь связан с организацией рекуррентной процедуры поиска параметра , доставляющего минимум функционалу (2.2).

Если бы функция распределения вероятностей была известна, то при определенных условиях рекуррентная процедура поиска минимума могла бы быть организована с помощью градиентного спуска по функции . В данном случае градиент может быть найден так:

Процедура спуска представляла бы собой следующее правило:

, (2.5)

где – величина -го шага.

Прямым обобщением градиентного метода поиска минимума функции на случай неизвестной функции распределения вероятностей является процедура метода стохастической аппроксимации

, (2.6)

где вектор-функцию можно понимать как градиент по функции в точке .

В (2.6) вектор определяет направление движения. В отличие от (2.5) направление, вдоль которого будет происходить изменение вектора , зависит не только от предыдущего значения , но и от случайной величины . Таким образом, вектор определяет стохастический градиент – направление, случайное вследствие влияния переменной . В этой процедуре сходимость к минимуму обеспечивает такая последовательность величин шагов , что

(эти условия обеспечивают возможность, во-первых, подойти к точке минимума из сколь угодно «далекой» точки пространства , а во-вторых, приблизиться к точке минимума как угодно близко).

Теория таких итерационных методов поиска минимума направлена на то, чтобы выяснить, каким условиям должны подчиняться функция двух групп переменных , вектор-функция и константы , чтобы с помощью процедуры (2.6) можно было обеспечить сходимость последовательности к значению , на котором достигается минимум функционала . Используя эту теорию, можно для определенных (не для любых!) функций потерь строить рекуррентную процедуру поиска нужных значений вектора параметров .

Второй путь как раз и связан с построением итерационной процедуры (2.6) для поиска минимума .

Наконец, третий путь связан с идеей замены неизвестного функционала

функцией

построенной по случайной и независимой выборке .

Функция получила название функции, исчисляющей величину эмпирического риска. Для каждого фиксированного значения параметра она определяет среднюю величину потерь на выборке .

Идея метода состоит в том, чтобы найти значение параметров , обеспечивающих минимум функции эмпирического риска, а затем в качестве решения задачи о минимизации среднего риска предложить функцию с этими значениями параметров, т. е. .

Такой метод решения задачи называется методом минимизации эмпирического риска. Теория метода минимизации эмпирического риска призвана ответить на вопросы, когда (для каких функций ) такая подмена возможна и какая при этом совершается ошибка.

Развитие методов обучения распознаванию образов пошло по всем трем путям минимизации среднего риска.

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
ЧАСТЬ ПЕРВАЯ ЭЛЕМЕНТАРНАЯ ТЕОРИЯ
Глава I. Персептрон Розенблатта
§ 1. Феномен восприятия
§ 2. Физиологическая модель восприятия
§ 3. Техническая модель. Персептрон
§ 4. Математическая модель
§ 5. Обобщенная математическая модель
§ 6. Теорема Новикова
§ 7. Доказательство теоремы Новикова
§ 8. Двухуровневая схема распознавания
Глава II. Задача обучения машин распознаванию образов
§ 1. Задача имитации
§ 2. Качество обучения
§ 3. Надежность обучения
§ 4. Обучение – задача выбора
§ 5. Две задачи конструирования обучающихся устройств
§ 6. Математическая постановка задачи обучения
§ 7. Три пути решения задачи о минимизации среднего риска
§ 8. Задача обучения распознаванию образов и методы минимизации среднего риска
Глава III. Методы обучения, основанные на восстановлении распределения вероятностей
§ 1. О восстановлении распределения вероятностей
§ 2. Классификация оценок
§ 3. Метод максимума правдоподобия
§ 4. Байесов принцип восстановления
§ 5. Сравнение байесова метода оценивания и оценивания методом максимума правдоподобия
§ 6. Оценка параметров распределения дискретных независимых признаков
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
§ 9. Байесов метод восстановления нормального распределения
Глава IV. Рекуррентные алгоритмы обучения распознаванию образов
§ 1. Метод стохастической аппроксимации
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
§ 3. Конечно-сходящиеся рекуррентные процедуры
§ 4. Теоремы об останове
§ 5. Метод циклического повторения обучающей последовательности
§ 6. Метод потенциальных функций
Глава V. Алгоритмы, минимизирующие эмпирический риск
§ 1. Метод минимизации эмпирического риска
§ 2. Равномерная сходимость частот появления событий к их вероятностям
§ 3. Теорема Гливенко
§ 4. Частный случай
§ 5. Оценка числа различных линейных разделений векторов
§ 6. Условия равномерной сходимости частот появления событий к их вероятностям
§ 7. Свойства функции роста
§ 8. Оценка уклонения эмпирически оптимального решающего правила
§ 9. Метод минимизации эмпирического риска в детерминистской постановке задачи обучения распознаванию образов
§ 10. Замечание об оценке скорости равномерной сходимости частот появления событий к их вероятностям
§ 11. Замечания об особенностях метода минимизации эмпирического риска
§ 12. Алгоритмы метода обобщенного портрета
§ 13. Алгоритм Кора
Глава VI. Метод упорядоченной минимизации риска
§ 1. О критериях оценки качества алгоритмов
§ 2. Минимаксный критерий
§ 3. Критерий минимакса потерь
§ 4. Критерий Байеса
§ 5. Упорядочение классов решающих правил
§ 6. О критериях выбора
§ 7. Несмещенность оценки скользящего контроля
§ 8. Упорядочение по размерностям
§ 9. Упорядочение по относительным расстояниям
§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного риска
§ 11. О выборе оптимальной совокупности признаков
§ 12. Алгоритмы упорядоченной минимизации суммарного риска
§ 13. Алгоритмы построения экстремальных кусочно-линейных решающих правил
§ 14. Приложение к главе VI
Глава VII. Примеры применения методов обучения распознаванию образов
§ 1. Задача о различении нефтеносных и водоносных пластов в скважине
§ 2. Задача о различении сходных почерков
§ 3. Задача о контроле качества продукции
§ 4. Задача о прогнозе погоды
§ 5. Применение метода обучения распознаванию образов в медицине
§ 6. Замечания о применениях методов обучения распознаванию образов
Глава VIII. Несколько общих замечаний
§ 1. Еще раз о постановке задачи
§ 2. Физики об интуиции
§ 3. Машинная интуиция
§ 4. О мире, в котором возможна интуиция
Часть вторая. СТАТИСТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ
Глава IX. О сходимости рекуррентных алгоритмов обучения распознаванию образов
§ 1. Определение понятия сходимости
§ 2. Выпуклые функции
§ 3. Обобщенный градиент
§ 4. Условия сходимости рекуррентных алгоритмов
§ 5. Еще одно условие сходимости рекуррентных алгоритмов
Глава X. Достаточные условия равномерной сходимости частот к вероятностям по классу событий
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
§ 2. Определение равномерной сходимости частот к вероятностям
§ 3. Определение функции роста
§ 4. Свойства функции роста
§ 5. Основная лемма
§ 6. Вывод достаточных условий равномерной сходимости частот к вероятностям по классу событий
§ 7. О равномерной сходимости с вероятностью единица
§ 8. Примеры и дополнительные замечания
§ 9. Приложение к главе X
Глава XI. Необходимые и достаточные условия равномерной сходимости частот к веронтностям по классу событий
§ 1. Энтропия системы событий
§ 2. Асимптотические свойства энтропии
§ 3. Необходимые и достаточные условия равномерной сходимости (доказательство достаточности)
§ 4. Доказательство необходимости условий равномерной сходимости
§ 5. Примеры и дополнительные критерии
Глава XII. Оценки равномерного относительного уклонения частот от вероятностей в классе событий
§ 1. О равномерном относительном уклонении
§ 2. Оценка равномерного относительного уклонения частот в двух полувыборках
§ 3. Оценка равномерного относительного уклонения частот от вероятностей
Глава XIII. Применение теории равномерной сходимости к методам минимизации эмпирического риска
§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию
§ 2. Равномерная сходимость средних к математическим ожиданиям
Часть третья. МЕТОДЫ ПОСТРОЕНИЯ РАЗДЕЛЯЮЩИХ ПОВЕРХНОСТЕЙ
Глава XIV. Построение разделяющей гиперплоскости (метод обобщенного портрета)
§ 1. Оптимальная разделяющая гиперплоскость
§ 2. Однопараметрическое семейство разделяющих гиперплоскостей
§ 3. Некоторые свойства обобщенного портрета
§ 4. Двойственная задача
§ 5. Алгоритмы персептронного типа
§ 6. Градиентные методы построения разделяющей гиперплоскости (вычисление обобщенного портрета)
§ 7. Теория оптимальной разделяющей гиперплоскости
§ 8. Двойственная задача
§ 9. Методы вычисления оптимальной разделяющей гиперплоскости
§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса–Зайделя
§ 11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости
§ 12. Некоторые статистические особенности метода обобщенного портрета
§ 13. Приложение к главе XIV
Глава XV. АЛГОРИТМЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ, РЕАЛИЗУЮЩИЕ МЕТОД ОБОБЩЕННОГО ПОРТРЕТА
§ 1. Способы представления информации
§ 2. Алгоритм построения разделяющей гиперплоскости
§ 3. Алгоритм построения разделяющей гиперплоскости, минимизирующей число ошибочно классифицируемых векторов
§ 4. Алгоритм построения кусочно-линейной разделяющей поверхности
§ 5. Алгоритмы построения разделяющей гиперплоскости в пространстве минимального числа признаков
§ 6. Алгоритм построения экстремальной линейной разделяющей поверхности
§ 7. Алгоритм построения экстремальной кусочно-линейной разделяющей поверхности
§ 8. Алгоритм построения разделяющей гиперплоскости с оценкой ее качества методом скользящего контроля
§ 9. Алгоритмы построения экстремальных разделяющих гиперповерхностей с помощью процедуры скользящий контроль
§ 10. О работе с алгоритмами
Глава XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ
§ 1. Идея метода
§ 2. Метод сопряженных градиентов
§ 3. Метод параллельных касательных (партан)
§ 4. Анализ погрешностей метода
КОММЕНТАРИИ
ЛИТЕРАТУРА