Главная > Прикладные методы анализа данных и знаний
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

§ 3. Выбор информативного подмножества предикатов

Исходным множеством предикатов можно считать список тех предикатов, которые упоминаются в БЗ хотя бы один раз. Информативность предикатов в разных задачах анализа знаний может выглядеть по-разному. Мы рассматриваем здесь две задачи: задачу предсказания целевого предиката, заданного в непрерывной шкале (аналог задачи регрессионного анализа), и задачу предсказания целевого предиката, заданного в шкале наименований (задача распознавания).

Если считать, что предикат  не зависит от других предикатов, то его информативность в задаче регрессионного анализа можно было бы оценивать по корреляции его значений со значениями целевого предиката, если бы мы умели вычислять коэффициент корреляции между предикатами, заданными своими распределениями. Ввиду отсутствия такого аппарата опираемся на следующую гипотезу: если предикат  информативен, то его малые изменения вызовут малые изменения целевого предиката , а большие изменения — большие. Величину изменения каждого предиката оцениваем по описанному выше расстоянию между распределениями. От корреляции между предикатами мы как бы переходим к корреляции между их первыми разностями. Если модуль этой корреляции высок, значит, предикат  сильно связан с целевым предикатом  и его следует считать важным, информативным.

Такой же подход можно использовать и для оценки информативности связки из двух, трех и т. д. предикатов с целевым предикатом . Нужно вычислить расстояния между выбранными предикатами из левых частей всех пар знаний и расстояния между значениями целевого предиката для тех же пар. В результате получится две серии чисел, по модулю корреляции между которыми можно судить о влиянии выбранных предикатов на целевой предикат.

В случае задачи распознавания образов об информативности предиката  по отношению к целевому (номинальному) предикату  можно судить по тому, выполняется ли на этой паре предикатов гипотеза компактности. Если она выполняется, то расстояния между предикатами  знаний, имеющих одно и то же значение целевого предиката (т. е. принадлежащих одному и тому же образу), должны быть малыми. Расстояния же между  из разных образов должны быть большими. Это значит, что знания одного и того же образа в пространстве  должны отображаться в «компактные сгустки», удаленные от сгустков представителей других образов. Если это так, тогда функции принадлежности всех знаний обучающей выборки к своим образам будут больше, чем к чужим. Количественно об информативности предиката  можно судить по тем же критериям, которые использовались и при распознавании данных: числу знаний, ошибочно распознаваемых по этому предикату. При использовании прецедентов о низкой информативности предиката будет говорить большое количество необходимых прецедентов.

Если условие компактности не выполняется, значит, предикат , взятый в отдельности, не будет способствовать успешному распознаванию новых знаний и его следует считать неинформативным. Правда, этот предикат в группе с другими предикатами может оказаться информативным, но для проверки этого предположения нужно испытать его в составе таких групп.

Условие проверки на информативность для групп их двух, трех и большего числа предикатов то же, что и для одного: нужно проверять, выполняется ли для них гипотеза компактности.

Ясно, что большие вычислительные трудности, сопровождающие такого рода NP-полные переборные задачи, в данном случае усугубляются сложностью определения расстояний между знаниями. Дополнительные трудности могут возникнуть, если зависимости между предикатами носят нелинейный характер, который к тому же может меняться при разных значениях других предикатов (например, так меняется влияние содержания азота на рост растений при низких и высоких температурах). При этом придется пользоваться методами обнаружения кусочно-линейных зависимостей [105].

 

Categories

1
Оглавление
email@scask.ru