§ 6. Теорема Новикова
Естественно, что первый же
вопрос, который возник при изучении персептрона,– насколько эффективен
предложенный Розенблаттом алгоритм построения разделяющей гиперплоскости, т. е.
всегда ли с помощью этого алгоритма может быть построена гиперплоскость,
разделяющая два множества векторов
и
. Конечно, имеются в виду случаи, когда
такая гиперплоскость в принципе существует.
В 1960 году американский ученый
А. Новиков показал, что если последовательность, составленную из всех элементов
множеств
и
, предъявить
персептрону достаточное число раз, то он, в конце концов, разделит ее (конечно,
если разделение с помощью гиперплоскости в принципе возможно). Это утверждение
оказалось чрезвычайно важным для развития теории обучающихся программ.
Использованные для его доказательства понятия оказались полезными и при
установлении более тонких свойств алгоритмов обучения. Рассмотрим их подробнее.
Утверждение Новикова относится к
случаю, когда в пространстве
существует гиперплоскость, проходящая
через начало координат и разделяющая два множества векторов
и
, т. е. когда существует такой вектор
, что выполняются
неравенства
,
,
,
. (1.5)
Здесь
использовано обозначение
.
Рассмотрим множество
, состоящее из всех
векторов
и
. Тогда система
неравенств (1.5) примет вид
для
всех
.
Если
обозначить
,
а
,
то
условие разделимости векторов
и
может быть формально выражено
так:
.
Величине
может быть дана следующая
геометрическая интерпретация. Пусть, как на рис. 3, множество векторов
обозначено крестиками,
а множество векторов
кружками.
Рис. 3.
Утверждение
о том, что два множества векторов разделимы гиперплоскостью, проходящей через
начало координат, эквивалентно тому, что выпуклая оболочка векторов
,
не содержит нуля или, что то же
самое, расстояние от начала координат до выпуклой оболочки множества
отлично от нуля.
Величина
как
раз и равна расстоянию от выпуклой оболочки множества
до начала координат.
Особенность алгоритма персептрона,
состоящая в том, что разделяющая гиперплоскость проходит через начало
координат, не является серьезным ограничением при построении произвольной
разделяющей гиперплоскости (в том числе и не проходящей через начало
координат). Если для разделения классов необходима гиперплоскость, не
проходящая через начало координат, то достаточно расширить пространство
, добавив к векторам
,
одну координату и положить ее
равной 1. Тогда нетрудно видеть, что в новом пространстве множества разделимы
гиперплоскостью, проходящей через начало координат. Итак, пусть расстояние от
начала координат до выпуклой оболочки множества
отлично от нуля и равно
, а расстояние от
начала координат до конца самого далекого вектора этого множества равно
.
Тогда, как показал Новиков, после
многократного предъявления обучающей последовательности, составленной из
элементов множеств
и
, будет
проведено не более
исправлений
коэффициентов (символ
означает целую часть числа
).