1.3.4. Поиск характерных закономерностей.
Ниже описывается общая логическая схема одного из наиболее известных алгоритмов, возникшего из эвристических соображений о деятельности человека при распознавании образов — алгоритма «Кора» [28, 43]. В нем рассматриваются все возможные конъюнкции вида
где события, определенные в п. 1.3.2 при введении правил разделения, а — некоторое наперед заданное число алгоритме «Кора» Среди конъюнкций выделяются те, которые характерны (верны на обучающей выборке чаще, чем некоторый порог для одного из классов и не характерны для другого (верны реже, чем в доле случаев (в алгоритме «Кора» ). Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более , то оставляется «наилучшая» с точки зрения различения классов из них, а если конъюнкции эквивалентны, то более короткая (имеющая в представлении (1.54) меньшее или просто отобранная ранее. Параметры подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило некоторого числа т. Для нового наблюдения X подсчитывается — число характерных для класса отобранных конъюнкций, которые верны в точке X. Если , то принимается решение, что верна гипотеза в противном случае — что верна гипотеза Поскольку при отборе конъюнкций в принципе возможен полный перебор, вычислительный процесс должен быть организован эффективно, чтобы не рассматривать бесперспективные ветви. Алгоритм «Кора» зарекомендовал себя удачным в ряде прикладных областей [28, 82]. Идея поиска закономерностей, характерных для одного из классов, положена в основу алгоритма автоматизированного поиска гипотез [49].