Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
Вероятностные алгоритмы обучения.
Трудноразделимые классы ситуаций требуют применения при автоматической классификации и распознавании образов вероятностных методов. При этом существенное значение приобретают априорные сведения о вероятностных характеристиках принадлежности объектов к тем или иным классам. Если априорные сведения достаточно полны, тогда можно использовать классический байесовский подход теории статистических решений, основанный на минимизации функции среднего риска
по знаку которой можно определить принадлежность ситуаций х к классу X, или (соответственно при или
Результатом решения уравнения (11.196) является экстремальное значение вектора параметров с. Как правило, решение такого нелинейного уравнения в общем виде затруднено, поэтому экстремальное значение вектора с определяется с помощью итеративных процедур в виде разностных уравнений, связывающих предшествующие и последующие дискретные значения с:
или в виде дифференциальных уравнений в случае непрерывных
где — квадратные матрицы, определяющие шаг итерации и сходимость значений вектора с к с.
В случае разделения пространства ситуаций X только на два класса X, и средний риск равен
Необходимые условия минимума среднего риска
Отсюда разделяющая функция получает следующий вид:
правило решения об отнесении ситуаций к классам выглядит так:
В классическом подходе используются постоянные функции потерь в виде
поэтому разделяющую функцию можно записать иначе:
где — отношение правдоподобия
— фиксированный порог Следовательно, правило классификации (11.203) можно теперь представить таким образом:
Отсюда классическое байесовское правило классификации заключается в вычислении отношения правдоподобия и сравнении его с фиксированным порогом который зависит от выбранного правила оценки априорных вероятностей . Нетрудно видеть, что отсутствие априорной информации о значениях или информации об отношении правдоподобия лишает возможности использовать классический подход в задачах классификации и распознавания образов. В случае такой неопределенности эффективным средством решения задач оказывается применение методов обучения. При этом с помощью методов обучения удается либо аппроксимировать неизвестную заранее разделяющую функцию и затем адаптивно отслеживать ее отклонения от действительной разделяющей функции, либо восстановить из опыта не известную заранее совместную плотность распределения ситуаций по классам.
Несмотря на то что включение обучения в классическую байесовскую процедуру классификации замедляет работу системы, применение обучения оправдывается снижением требований к объему априорной информации в задаче.
Наиболее общие алгоритмы обучения классификации в вероятностной постановке разработаны Я. 3. Цыпкиным [7] как для обучения с поощрением, так и для самообучения.
Обучение с поощрением. Пусть разделяющая функция имеет вид
На этапах обучения сообщается информация о принадлежности ситуаций х к классам
Поощрение правильного распознавания или его ошибочность определяются в соответствии с неравенствами
и функцией штрафа в виде выпуклой функции разности у и у
Учитывая то, что точная разделяющая функция у неизвестна, ее аппроксимируют комбинацией линейно независимых функций
тогда функция штрафа принимает вид
Подставив ее в выражение среднего риска из (11.200), получим
где — совместная плотность распределения.
В соответствии с условиями среднего риска
определяются итеративные алгоритмы обучения в дискретном виде
и в непрерывном виде
Если вместо функции штрафа (11.211) взять выпуклую функцию в виде среднеквадратической ошибки аппроксимации разделяющей функции с помощью , т. е.
то минимизацию можно осуществить в соответствии с условием
или
Обозначив получим
Учитывая, что получим
откуда можно получить дискретные алгоритмы:
если — из класса
если х — из класса
Таким образом, неизвестная разделяющая функция адаптивно восстанавливается в результате обучения с помощью аппроксимирующей ее функции