Глава 8. ВЫДЕЛЕНИЕ ПРИЗНАКОВ
8.0. Общие понятия
Методы векторной и грамматической классификации предполагают существование признаков, которые можно измерить. Нахождение признаков само по себе представляет часто существенный этап в решении рассматриваемой задачи. Можно считать, что любая машина получает некоторое множество результатов элементарных измерений, на которые она может реагировать. Эти измерения могут и не соответствовать истинным свойствам классифицируемых объектов. Рассматриваемый объект сам по себе может описываться (возможно, малым) числом признаков, которые по-разному отражены в основных измерениях. Предположим, например, что мы пытались в разные дни классифицировать степень загрязнения воды в реке. Естественно было бы измерить содержание в воде серы, мышьяка и других химических соединений. Однако на самом деле кислород, сера, мышьяк, ртуть и другие соединения вовсе не обязательно сброшены в реку. Причиной загрязнения могут быть расположенные выше по течению от места измерения лесопилка, фабрика и любые другие установки, сбрасывающие отходы, причем каждая дает определенный тип отходов, который представляет собой некоторую композицию основных измеряемых химических веществ. Для точного описания степени загрязнения реки желательно было бы в произвольный заданный день знать объем (композицию) отходов от каждого источника, а не пользоваться измерениями, сделанными ниже по течению. Но предположим, что мы не знаем о Существовании источников загрязнения выше по течению. Можно ли вывести их существование из анализа измерений, проведенных ниже по течению? Этот пример может служить иллюстрацией к задаче выделения признаков.
Существуют два общих подхода к анализу признаков, зависящие от предположений, которые делаются относительно элементарных измерений. В подходе, использующем многомерный анализ, с каждым простым измерением обращаются как с непрерывно измеряемой комбинацией лежащих в его основе признаков. Иначе говоря, исследуется проблема уменьшения размерности пространства описаний, т. е. переход от
-мерного пространства, определяемого первоначальными измерениями, к меньшему (приведенному)
-мерному пространству, определяемому признаками. После этого классификация осуществляется в приведенном пространстве. Задача определения такого
-мерного пространства интенсивно изучалась и получила название „факторный анализ".
Рис. 8.1. Представление буквы (внутри квадрата слева показан локальный квадрат
): а — проекция на сетку; б — цифровое представление.
Необходимый математический аппарат описан в работе Тацуоки (1971). Харман (1967) подробно излагает методы, применяемые в настоящее время. Мейзел (1972) и Фукунага (1972) рассматривают распознавание образов как область прикладной математики. Благодаря наличию этой литературы, а также из-за нашей неуверенности в том, что это и есть то, что большинство исследователей имеют в виду, когда говорят о выделении признаков, мы лишь вкратце обсудим этот метод.
Во втором подходе к выделению признаков результаты основных измерений объекта представляют в виде последовательности двоичных векторов. Признаки считаются подмножествами основных измерений. Задача состоит в определении некоторого полезного множества таких подмножеств. Иллюстративным и важным практическим примером может служить машинное чтение рукописных знаков. Представим себе, что классифицируемые алфавитно-цифровые знаки проектируются на сетку размером
Квадраты сетки нумеруются в обычном порядке чтения слева направо и сверху вниз так, что каждый элемент сетки можно считать двоичной переменной, которая принимает значение 1 тогда и только тогда, когда какая-нибудь линия пересекает его. Тогда с помощью простой
оптической системы можно преобразовать предъявленный знак в вектор, состоящий из 100 исходных измерений
Типичные входные данные показаны на рис. 8.1. Разумно предположить, что любой реальный знак будет образован объединением некоторого числа признаков, таких, как диагональ слева направо, горизонталь, диагональ справа налево и др. Например, из множества компонент
можно построить буквы А, В, С, Р. Если бы мы не знали этих компонент, то могли бы их выявить, обратив внимание на локальные регулярности в различных буквах. Математически это означает, что мы должны выработать алгоритм, обнаруживающий регулярно повторяющиеся наборы значений двоичных переменных