9.2. Алгоритм DW [120]
В
основе этого алгоритма также лежит гипотеза проективной компактности.
Рассмотрим его работу на примере распознавания двух образов. Элементарным
высказыванием
в этом алгоритме
называется выражение следующего вида:
а)
для признака
, измеренного в номинальной
шкале;
б)
для признака в любой более
сильной шкале.
В этих
выражениях
—
фиксированное (пороговое) значение. Будем называть высказывания
и
дополнительными
к вышеприведенным и обозначать через
. Конъюнкцией
длины
на
элементарных высказываниях называем выражение вида
. Набор конъюнкций представим в
виде дихотомического дерева
, в котором каждой ветви соответствует
одна конъюнкция. Конечные вершины дерева содержат имена объектов обучающей
выборки, прошедших сюда от начальной вершины дерева. Если в некоторой конечной
вершине имеются объекты разных образов, то считается, что эта вершина
принадлежит тому образу, чьих объектов в ней больше.
Работа
по проверке истинности или ложности выражений
по отношению к объекту
организуется с
помощью таблицы
.
Вершине
дерева с номером
(т. е.
высказыванию
)
сопоставляется
-я
строка таблицы, в которой описываются характеристики
этой вершины:
— номер строки,
занимаемый данной вершиной;
— номер строки,
куда следует переходить, если
истинно;
—
номер строки, куда следует переходить, если
ложно;
— номер
признака, на котором построено высказывание
;
— порог
, использованный при построении
высказывания
;
— количество
объектов первого образа в
-й
вершине;
— количество
объектов второго образа в
-й
вершине.
Конечные
вершины дерева будут помечены тем, что у них
. Движение по дереву с помощью таблицы
осуществляется следующим
образом. Пусть мы находимся в вершине
. Если
, то проверяем, удовлетворяет
ли объект
условиям высказывания
, отраженным в
и
.
Если да, то идем в вершину
, если нет —
в вершину
.
Если очередная вершина является конечной, то проверяется содержимое ее
элементов
и
.
Если окажется, что
, то объект
будет распознан в качестве
реализации первого образа, и наоборот. Если же
, то решение принимается в пользу того или
иного образа с вероятностью 0,5.
При
выборе вариантов пороговых значений
и их сочетаний возникает большой
перебор, сокращение которого основано на методе наращивания «лучшего к лучшему»
[2]. На первом шаге строится наилучшее в смысле некоторого критерия
элементарное
высказывание
и
его дополнение
.
С помощью этих высказываний обучающая выборка делится на две группы: группу
объектов
, удовлетворяющих
, и группу
, удовлетворяющих
. Если группа
содержит объекты разных образов,
то для нее ищется высказывание
и его дополнение
, наилучшие с точки зрения критерия
. Та же
процедура для группы
дает наилучшее высказывание
и его
дополнение
.
В результате обучающая выборка делится на четыре группы. Процесс такого
деления можно представить в виде дерева
, показанного
на рис. 22.
Рис. 22
Вопрос
о том, нужно ли дальше продолжать процесс наращивания ветвей, решается
проверкой содержимого каждой из полученных групп. Если в группе
обнаружится
объектов первого
образа и
объектов второго образа и
, где
— положительная
константа, меньшая единицы, а
— общее число объектов обучающей выборки,
то деление группы
на подгруппы
должно быть продолжено. В противном случае группа
образует конечную вершину, и новый
объект, попадающий в нее, относится к тому образу, чьих обучающих реализаций
больше в этой вершине. Если принять
, то в нашем примере при
дальнейшее деление
требуется делать для вершины
.
Логические
решающие правила оказались очень эффективным средством решения задач
распознавания. Они могут работать с разнотипными признаками. Не страшно, если
какой-то признак у нового объекта не известен: может оказаться, что по
имеющимся признакам он удовлетворяет определенным закономерностям и хорошо
распознается. Процесс построения ЛРП сложен, но процесс принятия решений по
найденным правилам очень прост и может делаться даже вручную.
Большое
значение имеет наглядная форма представления ЛРП в виде списка правил типа
«если ... то ...». Как показал опыт,
некоторые заказчики, получив решение в виде ЛРП, признаются, что оно само по
себе им более интересно и полезно, чем возможность использовать его для
автоматического распознавания новых объектов: им становятся видны и понятны
простые закономерности, которые имеют место в изучаемой ими области.
Наконец,
самое важное достоинство ЛРП состоит в том, что формулировка закономерностей в
виде конъюнкций соответствует форме представления знаний в интеллектуальных
системах. Следовательно, методы поиска ЛРП могут использоваться для автоматического
извлечения знаний из данных.