Глава 11. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ
 
В предыдущих главах были представлены основные разделы теории распознавания образов. Подробно рассматривались про цедуры построения классификаторов, оценивание параметров и плотности вероятности. При этом постоянно предполагалось существование обучающего множества уже классифицированных: объектов. В этой главе мы рассмотрим задачу классификации объектов без использования обучающего множества. Назовем этот вид классификации автоматической классификацией или классификацией без учителя. 
Существует много примеров, когда классификация должна и может быть выполнена при отсутствии априорной информации Рассмотрим, например, задачу биологической таксономии. На протяжении многих лет все известные живые организмы классифицировались в соответствии с определенными наблюдаемыми характеристиками. Конечно, растения и животные не родятся с ярлыками, указывающими их семейство, тип и т. д. Они классифицируются в соответствии с их наблюдаемыми характеристиками без указаний извне. 
Задача автоматической классификации не полностью определена, если не указаны свойства, которыми должны обладать искомые классы объектов. Выбор этих свойств или, что то же определение класса — это основной вопрос теории автоматической классификации. Если имеется адекватное определение класса становится возможным отличать хорошие классификации от плохих. 
В нашем примере классы образуются объединением в одну группу похожих видов и разделением непохожих. Группировка по сходству является наиболее общей формой автоматической классификации, и мы ее подробно рассмотрим. Однако, как будет показано в конце зтой главы, автоматическая классификация возможна и на базе более общих отношений между объектами. 
 
Для того чтобы построить автоматическую процедуру решения задачи автоматической классификации, необходимо дать более строгое определение класса. Один из возможных путей — это конструирование критерия качества классификации. Критерий качества классификации 
 ставит в соответствие каждой возможной классификации множества объектов некоторое число. Областью определения 
 является множество всех возможных классификаций объектов, а областью значений — множество действительных чисел. Предполагается, что классификации, хорошие в смысле принятого определения класса, соответствуют экстремальным значениям критерия Л 
Таким образом, если критерий 
 задан, то можно оценить любую данную классификацию. Как правило, однако, нереально вычислять 
 для каждой возможной классификации. Поэтому для эффективного определения наилучшей в смысле критерия 
 классификации необходим алгоритм автоматической классификации. В соответствии с принятой нами системой определений критерий качества классификации и алгоритм автоматической классификации вместе составляют процедуру решения задачи автоматической классификации. 
В следующем параграфе будет описан универсальный алгоритм автоматической классификации, основанный на критерии общего вида. В последующих двух параграфах мы подробно рассмотрим два основных типа критериев качества классификации. В последнем параграфе будет дана краткая характеристика некоторых других критериев и подведены итоги этой главы.