14.2. Векторы признаков
Поскольку мы выяснили, что нельзя хорошо классифицировать объекты, используя один параметр, мы могли бы ввести дополнительные параметры, например, определить возраст животных и выбрать второй порог, опираясь на тот факт, что кошки живут несколько дольше собак. Результат этих двух отдельных тестов можно объединить с помощью таких логических операций, как И и ИЛИ (V).
Более разумным было бы использовать эти данные, учитывая тот факт, что возраст и вес коррелируют между собой. Эти две величины можно объединить, разделив вес на возраст или разделив вес на среднее значение ожидаемого веса для данного возраста обоих типов животных. Разделение, базирующееся на производной характеристике, вероятно, предпочтительнее разделения, базирующегося на каждой из этих характеристик по отдельности.
Мы можем добиться еще большего, если будем рассматривать
маркированную диаграмму разброса вес — возраст. Диаграмма разброса состоит из точек в пространстве признаков, соответствующих известным выборкам из различных классов. Плотность точек для конкретного класса стремится к двумерному распределению вероятности для этого класса по мере того, как в рассмотрение включается все большее и большее число образцов. Если нам повезет, мы можем обнаружить, что можно провести гладкую кривую, разделяющую все точки с меткой «кошка» от всех точек с меткой «собака». Однако, по всей вероятности, сделать этого мы не сможем. В этом случае мы могли бы по крайней мере провести кривую, которая делила бы плоскость таким образом, чтобы совершить как можно меньше ошибок.
Чтобы получить лучшие результаты, необходимо привлечь большее число параметров. Тогда пространство, которое мы должны разделить на части, соответствующие различным классам, будет иметь большую размерность. Часто такой подход быстро себя исчерпывает. Это означает, что новые параметры часто коррелируют с уже имеющимися параметрами и поэтому содержат мало новой информации. Такие параметры не улучшают разделения. Более того, некоторые параметры вообще могут не иметь отношения к требуемой конкретной задаче.
Чтобы использовать статистическую информацию в качестве основы выбора границ возможных решений, мы должны получить многомерное распределение вероятностей. Можно придумать много различных сложных методов решения, однако, как правило, их трудно реализовать или они требуют большого объема вычислений.
Конечно, если вы знакомы с животными, вы знаете, что кошка умеет прятать когти, а собака — нет. В этом случае для различения возможно использовать одну бинарную характеристику. Отсюда следует, что методы классификации образов не должны использоваться слепо, результаты хороши лишь настолько, насколько хороши признаки, выбранные для измерений. Никакие ухищрения в алгоритме решения не могут компенсировать неудачного выбора признаков.