Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
§ 2. Построение разделяющих гиперплоскостей
Основой создания алгоритмов обучения распознаванию образов в классе линейных решающих правил являются алгоритмы построения гиперплоскости, разделяющей два конечных множества векторов: множество векторов
и множество векторов
Задача сводится к отысканию вектора для которого выполняются неравенства
Очевидно, если существует вектор для которого выполняются неравенства (11.8), то имеется множество векторов удовлетворяющих (11.8). Будем искать среди них минимальный по модулю вектор. Этот вектор был назван обобщенным портретом [12].
Минимизация квадратичной формы
при ограничениях (11.8) является задачей квадратичного программирования.
Необходимые и достаточные условия минимума (11.9) при ограничениях (11.8) определяются теоремой Куна — Таккера.
Теорема 11.1 (Кун - Таккер). Пусть заданы дифференцируемая выпуклая функция и линейные функции Пусть доставляет минимум при ограничениях
Тогда существуют такие удовлетворяющие условиям
что справедливо равенство
- знак градиента).
И обратно, если для некоторой точки выполняются условия (11.10) и можно найти числа удовлетворяющие условиям (11.11) и (11.12), то в точке достигается условный минимум при ограничениях (11.10).
Доказательство теоремы Куна — Таккера приводится во всех руководствах по выпуклому программированию (например, [65]).
Применим теорему Куна — Таккера для нашего случая минимизации (11.9) при ограничениях (11.8).
Теорема 11.2. Минимальный по модулю вектор , удовлетворяющий (11.8) (обобщенный портрет), представим в виде
причем
Среди всех векторов удовлетворяющих (11.8), вектор представимый в виде (11.13), (11.14), является минимальным по модулю.
Доказательство теоремы немедленно следует из теоремы Куна — Таккера.
Назовем векторы для которых выполняются условия
крайними векторами. Согласно теореме 11.2 обобщенный портрет разложим с ненулевыми весами лишь по системе крайних векторов.
Рассмотрим теперь двойственную задачу, решение которой эквивалентно построению обобщенного портрета. Введем
пространство параметров и рассмотрим функцию
где вектор есть
Покажем, что точка максимума функции в положительном квадранте а определяет обобщенный портрет.
Действительно, необходимыми и достаточными условиями максимума функции в точке являются условия
Выпишем эти условия, обозначив
Получим
Условия (11.17) могут быть переписаны в виде неравенств
и равенств
Согласно же утверждению теоремы 11.2 эти условия определяют обобщенный портрет.
Итак, задача построения гиперплоскости, разделяющей два множества векторов, свелась к отысканию максимума функции в положительном квадранте.
Ниже мы рассмотрим методы минимизации квадратичной формы в положительном квадранте, но прежде установим следующий важный факт.
Теорема 11.3. Если разделяющая гиперплоскость существует (существует вектор для которого выполняются неравенства (11.18)), то максимум функции в положительном квадранте равен половине квадрата модуля обобщенного портрета
Доказательство. Действительно, согласно теореме 11.2
Поэтому
и, учитывая (11.15), получаем
Таким образом,
Теорема доказана.
Из теоремы 11.3 вытекает важное для построения алгоритмов распознавания следствие.
Следствие. Если среди крайних векторов обобщенного портрета есть векторы обоих классов, то имеет место оценка
где расстояние между проекциями множеств на направление обобщгнного портрета. При этом равенство в оценке (11.20) достигается в точке
Доказательство. В силу теоремы 11.3
Далее, в силу условия следствия найдутся такие векторы множества, что
Поэтому расстояние между проекциями векторов, для которых выполнялось (11.21), равно
Учитывая, что получаем неравенство (11.20).
Это следствие используется для построения критерия неразделимости векторов. В самом деле, будем считать, что два конечных множества векторов не могут быть разделимы гиперплоскостью, если расстояние между проекциями на направление обобщенного портрета меньше А это значит, что не существует разделимости, если найдутся такие что
Таким образом, при построении обобщенного портрета проблема состоит в том, чтобы найти максимум отрицательно определенной квадратичной формы в положительном квадранте или установить, что максимум функции превосходит величину Последнее означает, что построение обобщенного портрета невозможно.