Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
§ 1. Способы представления информацииВ задачах обучения распознаванию
образов принято два способа представления информации – непрерывный и
дискретный. При непрерывном способе представления все координаты вектора
Оба способа представления информации имеют как свои сильные, так и слабые стороны. Сильной стороной непрерывного
способа является точность задания значений координат. Каждая координата вектора
здесь равна тому значению параметра, которое было замерено. Однако при таком
способе представления информации для хранения значения каждого параметра
требуется одна ячейка памяти вычислительной машины. А так как в задачах
распознавания ситуация описывается большим числом параметров (вектор Возможен способ записи информации, при котором кодируется не только наличие или отсутствие некоторого признака, но и степень проявления признака. Например, следующие характеристики: «бледность кожного покрова не выражена», «бледность кожного покрова выражена слабо», «бледность кожного покрова сильно выражена» – могут иметь соответствующие коды 100, 010, 001. Таким образом, наличие качественных признаков описания объекта предопределяет дискретный способ представления информации. В задачах обучения распознаванию образов принято дискретно кодировать не только признаки, отражающие качественную характеристику объекта, но и параметры, которые принимают непрерывные значения. При этом пользуются следующим способом представления дискретной информации. Весь диапазон значений параметра
разбивается на ряд градаций. Единицей кодируется Пример. Пусть значение параметра
Кодом
10000 обозначаются величины Рассмотренный дискретный способ
представления информации замечателен не только тем, что позволяет компактно
записывать информацию. Дискретизация величины Поэтому увеличение числа градаций
при кодировке значения параметра эквивалентно использованию более
разнообразного класса разделяющих поверхностей в пространстве В этом параграфе будет приведен алгоритм определения экстремальной разбивки значения признаков на градации. Принцип, который реализует алгоритм, заключается в следующем: необходимо так разбить значения параметра, чтобы оценка неопределенности (энтропии) при классификации с помощью этого признака была минимальной или близка к минимальной (оценка энтропии производится с помощью элементов обучающей последовательности). Итак, пусть признак
Для
каждого фиксированного значения признака
Среднее значение по мере
Пусть
теперь параметр
Воспользуемся теперь формулой Байеса
Подставляя (15.2) в (15.1), получим
Подставляя
теперь байесовы оценки
где
Формула (15.3) получена в
предположении, что априорные значения
В более общем случае целесообразно рассмотреть формулу
где
параметр Реализация сформулированного принципа состоит в таком подборе разбивки на градации, чтобы обеспечить минимум (15.5). Алгоритм удобно реализовать в
следующей форме: сначала разбить параметр на большое число градации, а затем,
«склеивая» соседние градации, добиваться минимизации значения Можно оценить и количество
информации
где
Часто разумно продолжать
«склеивать» градации и после достижения минимума по
|
1 |
Оглавление
|