1.3.4. Поиск характерных закономерностей.
Ниже описывается общая логическая схема одного из наиболее известных алгоритмов, возникшего из эвристических соображений о деятельности человека при распознавании образов — алгоритма «Кора» [28, 43]. В нем рассматриваются все возможные конъюнкции вида
где
события, определенные в п. 1.3.2 при введении правил разделения, а
— некоторое наперед заданное число
алгоритме «Кора»
Среди конъюнкций выделяются те, которые характерны (верны на обучающей выборке чаще, чем некоторый порог
для одного из классов и не характерны для другого (верны реже, чем в доле случаев
(в алгоритме «Кора»
). Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более
, то оставляется «наилучшая» с точки зрения различения классов из них, а если конъюнкции эквивалентны, то более короткая (имеющая в представлении (1.54) меньшее
или просто отобранная ранее. Параметры
подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило некоторого числа т. Для нового наблюдения X подсчитывается
— число характерных для
класса отобранных конъюнкций, которые верны в точке X. Если
, то принимается решение, что верна гипотеза
в противном случае — что верна гипотеза
Поскольку при отборе конъюнкций в принципе возможен полный перебор, вычислительный процесс должен быть организован эффективно, чтобы не рассматривать бесперспективные ветви. Алгоритм «Кора» зарекомендовал себя удачным в ряде прикладных областей [28, 82]. Идея поиска закономерностей, характерных для одного из классов, положена в основу алгоритма автоматизированного поиска гипотез [49].