5.3. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ РАЗДЕЛЯЮЩИЕ ФУНКЦИИ
Линейная разделяющая функция
может быть записана в следующем виде:
где коэффициенты
являются компонентами весового вектора w. Добавив в это уравнение члены, содержащие произведения двух
компонент вектора х, получим квадратичную разделяющую функцию
Не нарушая общности, можно положить поскольку
Таким образом, в формулу квадратичной разделяющей функции входят
дополнительных коэффициентов; это позволяет получать более сложные разделяющие поверхности. Разделяющая поверхность, определяемая уравнением
является поверхностью второго порядка, или гиперквадрикой. Если симметричная матрица
невырожденна, то линейные члены в
могут быть исключены путем преобразования системы координат, и основное свойство разделяющей поверхности может быть описано с помощью масштабированной матрицы
Если матрица W является положительным кратным единичной матрицы, разделяющая поверхность будет гиперсферой. Если W — положительно определенная матрица, то разделяющая поверхность — гиперэллипсоид. Если некоторые характеристические числа матрицы W положительны, а другие отрицательны, то поверхность является одним из гипергиперболоидов. Как было отмечено в гл. 2, это все виды разделяющих поверхностей, которые появляются в общем случае многомерного нормального распределения.
Продолжая вводить дополнительные члены, такие, как
можно получить класс полиномиальных разделяющих функций. Указанные функции можно рассматривать как усеченные разложения в ряд некоторой произвольной функции
что в свою очередь ведет к представлению об обобщенных линейных разделяющих функциях, имеющих следующий вид;
или
где а есть
-мерный весовой вектор, a d функций
(иногда называемых
-функциями) могут быть произвольными функциями от х. Выбирая указанные функции соответствующим образом и полагая d достаточно большим, можно аппроксимировать любую заданную разделяющую функцию таким разложением в ряд. Полученная разделяющая функция нелинейна относительно х, однако линейна относительно у. Отображение точек
-мерного пространства
-мерное пространство у осуществляют d функций
Однородная разделяющая функция
разделяет точки в данном отображенном пространстве посредством гиперплоскости, проходящей через начало
координат. Таким образом, переход от х к у сводит задачу к определению однородной линейной разделяющей функции.
Некоторые преимущества и недостатки данного подхода можно продемонстрировать на простом примере. Пусть
будет квадратичной разделяющей функцией
так что трехмерный вектор у задается матрицей
Переход от х к у показан на рис. 5.4. Данные, по существу, остаются одномерными, поскольку изменение х соответствует появлению кривой в трехмерном пространстве у.
Рис. 5.4. Отображение в случае
Таким образом, отсюда сразу вытекает тот факт, что, если х подчиняется вероятностному закону
отображенная функция плотности
становится вырожденной, обращаясь в нуль везде, кроме кривой, где она принимает бесконечно большие значения.
Приведенный пример представляет собой общую задачу, возникающую в случае, когда
и отображение точек происходит из пространства с меньшей размерностью в пространство с большей размерностью.
Плоскость Н, определяемая уравнением
делит пространство у на две области решений:
. На рис. 5.5 показана разделяющая плоскость, определяемая вектором
и соответствующие области решений
в пространстве х. Квадратичная
разделяющая функция
положительна, если
или если
так что область
является многосвязной. Таким образом, хотя области решений в у-пространстве выпуклые, это отнюдь не обязательно имеет место в х-пространстве. Даже при наличии сравнительно простых функций
поверхности решений, отображенные в х-пространство, могут быть весьма сложными.
К сожалению, «проклятие размерности» усложняет практическое использование возможностей классификатора. Полная квадратичная разделяющая функция включает
членов. Если d сравнительно велико, скажем
то требуется вычисление большого числа членов.
Рис. 5.5. Области решений в х-пространстве и у-пространстве.
Включение кубичных членов и членов с более высоким порядком приводит к еще большим значениям d. Более того, d компонент весового вектора а должны определяться из выборок. Если d придается смысл числа степеней свободы разделяющей функции, то естественным будет требование, чтобы число выборок было не меньше, чем это число степеней свободы. Очевидно, что в случае общего разложения в ряд функции
можно легко прийти к совершенно нереальным требованиям в отношении процесса вычислений и необходимых данных.
В случае обобщенной линейной разделяющей функции, хотя и трудно реализовать ее потенциальные преимущества, по крайней мере достигается удобство записи
в виде однородной функции
. В частном случае линейной разделяющей функции вида