Глава 11. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ
В предыдущих главах были представлены основные разделы теории распознавания образов. Подробно рассматривались про цедуры построения классификаторов, оценивание параметров и плотности вероятности. При этом постоянно предполагалось существование обучающего множества уже классифицированных: объектов. В этой главе мы рассмотрим задачу классификации объектов без использования обучающего множества. Назовем этот вид классификации автоматической классификацией или классификацией без учителя.
Существует много примеров, когда классификация должна и может быть выполнена при отсутствии априорной информации Рассмотрим, например, задачу биологической таксономии. На протяжении многих лет все известные живые организмы классифицировались в соответствии с определенными наблюдаемыми характеристиками. Конечно, растения и животные не родятся с ярлыками, указывающими их семейство, тип и т. д. Они классифицируются в соответствии с их наблюдаемыми характеристиками без указаний извне.
Задача автоматической классификации не полностью определена, если не указаны свойства, которыми должны обладать искомые классы объектов. Выбор этих свойств или, что то же определение класса — это основной вопрос теории автоматической классификации. Если имеется адекватное определение класса становится возможным отличать хорошие классификации от плохих.
В нашем примере классы образуются объединением в одну группу похожих видов и разделением непохожих. Группировка по сходству является наиболее общей формой автоматической классификации, и мы ее подробно рассмотрим. Однако, как будет показано в конце зтой главы, автоматическая классификация возможна и на базе более общих отношений между объектами.
Для того чтобы построить автоматическую процедуру решения задачи автоматической классификации, необходимо дать более строгое определение класса. Один из возможных путей — это конструирование критерия качества классификации. Критерий качества классификации
ставит в соответствие каждой возможной классификации множества объектов некоторое число. Областью определения
является множество всех возможных классификаций объектов, а областью значений — множество действительных чисел. Предполагается, что классификации, хорошие в смысле принятого определения класса, соответствуют экстремальным значениям критерия Л
Таким образом, если критерий
задан, то можно оценить любую данную классификацию. Как правило, однако, нереально вычислять
для каждой возможной классификации. Поэтому для эффективного определения наилучшей в смысле критерия
классификации необходим алгоритм автоматической классификации. В соответствии с принятой нами системой определений критерий качества классификации и алгоритм автоматической классификации вместе составляют процедуру решения задачи автоматической классификации.
В следующем параграфе будет описан универсальный алгоритм автоматической классификации, основанный на критерии общего вида. В последующих двух параграфах мы подробно рассмотрим два основных типа критериев качества классификации. В последнем параграфе будет дана краткая характеристика некоторых других критериев и подведены итоги этой главы.