14.8. Кластеры разной формы
Предположим теперь, что элементы одного класса встречаются гораздо чаще, чем другого. Использование в качестве границы перпендикуляра к середине приводит к одинаковым частотным ошибкам, т. е. будет неправильно классифицировано одинаковое число неизвестных векторов каждого класса. Это может быть то, что мы хотим, а может быть и нет. Безусловно, в данном случае общую ошибку можно
уменьшить, если переместить границу к центроиде того класса, элементы которого встречаются реже. Это изменение увеличивает появление редких ошибок и уменьшает появление частых ошибок. Пусть вероятности принадлежности неизвестного вектора к первому и второму классам соответственно. Это означает, что мы хотим выполнения равенства
или
т. е.
Мы опять получили уравнение гиперплоскости с нормалью Однако на этот раз она смещена от середины между на величину в направлении к центроиде с меньшей из вероятностей и Заметим, между гфочим, что если и отношение достаточно велики, то гиперплоскость может даже не пройти между двумя центроидами!
Теперь рассмотрим случай, для которого один кластер является более компактным, чем другой. Границу следует расположить ближе к центроиде более компактного кластера. Пусть два распределения имеют разбросы а, и соответственно. Теперь, если сравнить плотность вероятности на границе, получим
или
На этот раз члены, содержащие сохраняются. Таким образом, поверхность границы является квадратичной, а не гиперплоскостью. Хотя может оказаться трудным представить ее наглядно, тем не менее по-прежнему можно использовать это уравнение для реализации нашего метода.
Эти результаты можно распространить на случай наличия более двух классов. При определении расположения границы не обязательно руководствоваться простым сопоставлением плотностей вероятностей. Вместо этого можно воспользоваться методом максимума вероятности или минимизировать некоторую функцию стоимости. Однако следует иметь в виду, что получить аналитическое решение может оказаться невозможным.
Используемая до сих пор простая модель распределения вероятности не позволяет работать с кластерами сложной формы. Трудно обрабатывать кластеры в виде банана, тора или тем более спирали. Иногда класс может породить несколько различных кластеров; в этом случае можно попытаться классифицировать каждый кластер отдельно.
В общем случае, если характеристики выбраны хорошо, будет работать любой простой метод классификации. И наоборот, если характеристики неудачны, не помогут даже сложные методы классификации.