§ 11. О выборе оптимальной совокупности признаков

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 11. О выборе оптимальной совокупности признаков

Соображения предыдущего параграфа указывают на то, что при построении конечно-оптимальных решающих правил следует учитывать не только число ошибок на обучающей последовательности и размерность выбираемого подпространства, но и относительное расстояние между проекциями классов на подпространство.

Для того чтобы учесть все эти особенности, рассмотрим двухступенчатую схему упорядочения класса решающих правил. Пусть сначала задана ранжировка системы признаков. Как и ранее, разобьем класс линейных решающих правил на вложенные подклассы так, что в подкласс попадают правила, использующие только первые признаков, т. е. работающие в подпространстве .

Рассмотрим сначала задачу в детерминистской постановке. Пусть дана обучающая выборка . Алгоритмы первого уровня, используя упорядоченный поиск, выберут каждый в своем классе из числа безошибочных решающих правил правило (если оно есть) с максимальным . Процедура второго уровня должна выбрать наилучшее из предложенных первым уровнем решающих правил.

Теперь естественно принять в качестве критерия выбора величину доверительного интервала

, (6.20')

где

Здесь как величина , так и зависят от подпространства поскольку и расстояние между выпуклыми оболочками классов и их диаметры изменяются при проектировании в подпространство. Процедура второго уровня должна выбрать то решающее правило из числа предложенных первым уровнем, для которого оценка (6.20') минимальна.

Оценка доверительного интервала (6.20') меняется, вообще говоря, не монотонно с ростом размерности подпространства. Поэтому выбранное процедурой второго уровня подпространство может содержать больше признаков, чем минимально необходимо для разделения классов.

Описанная процедура эквивалентна упорядоченному поиску при одноступенчатом упорядочении, определенном следующим образом.

К первому классу относятся либо все те решающие правила, которые либо производят разделение в подпространстве, заданном первым признаком, либо такие, которые характеризуются числом

Ко второму классу относятся разделяющие гиперплоскости, которые либо производят разделение в подпространстве, заданном первыми двумя признаками, либо характеризуются числом

и т. д.

Иначе говоря, к -му классу относятся такие гиперплоскости, для которых минимум двух величин равен , т. е.

В общей постановке не требуется, чтобы выбираемое правило было безошибочным на материале обучающей последовательности. Обозначим частоту ошибок на материале обучения для решающего правила . Пусть правила доставляют минимум в подклассе . Процедура высшего уровня выбирает наилучшее правило из по критерию

. (6.19')

В том случае, когда априорная ранжировка признаков не задана, упорядочение класса линейных правил производится по следующему правилу: к -му классу относятся гиперплоскости, заданные в подпространстве размерности .

В случае детерминистской постановки задачи алгоритмы первого уровня выбирают каждый в своем классе решающее правило, которое правильно классифицирует материал обучения (если такое есть) и при этом доставляет максимум величине .

Алгоритм высшего уровня выбирает из числа предложенных алгоритмами первого уровня такое решающее правило, для которого минимальна величина

, (6.20")

где

В общем случае алгоритмы первого уровня действуют так, как это было описано в конце предыдущего параграфа, а на втором уровне выбор проводится по критерию

При использовании некоторых алгоритмов построения линейных разделяющих гиперплоскостей (в частности, алгоритмов метода обобщенного портрета) можно ввести такой способ упорядочения, при котором достигается более глубокий гарантированный минимум.

Идея этого способа упорядочения связана с тем, что в формуле (6.19') можно понимать не как размерность координатного пространства, а как размерность линейной оболочки множества векторов обучающей рабочей выборки. Размерность же линейной оболочки векторов может оказаться меньше размерности координатного пространства. Поэтому при введении порядка в классе линейных решающих правил можно учесть это обстоятельство.

Рассмотрим следующий способ упорядочения: к -му классу отнесем те правила, для которых выполняется равенство

т. е. минимум трех величин равен . Здесь символ определяет минимальное число векторов обучающей последовательности, по которым раскладывается вектор направляющих косинусов разделяющей гиперплоскости.

При таком способе упорядочения оценка качества выбранного решающего правила также определяется критериями (6.19), (6.20).

Итак, рассмотрено три способа упорядочения класса линейных решающих правил. Каждый следующий способ позволял достичь, вообще говоря, более глубокого гарантированного минимума. Это происходило за счет того, что разделяющая гиперплоскость строилась не в исходном пространстве признаков, а в некотором его подпространстве, обладающем экстремальными свойствами.

Таким образом, оказалось, что попытка построить по выборке фиксированного объема наилучшее решающее правило приводит к выбору того или иного набора признаков из фиксированного множества признаков и построению в пространстве выбранных признаков разделяющей гиперплоскости.

Часто множество отобранных признаков называют информативным набором признаков. «Информативность» этого набора может быть оценена числом, равным минимальной величине критерия (6.19'), которая достигается в пространстве этих признаков. Можно оценивать «вклад» каждого признака в информативность набора признаков как разность между величиной оценки набора признаков, из которого исключен данный признак, и информативностью набора признаков.

Однако, вероятно, понятие «информативность набора признаков» или «информативность данного признака» не несет достаточно глубокого содержания. И вот почему:

1) понятие «информативность пространства признаков» определяется не само по себе, а в связи с конкретным алгоритмом опознания;

2) информативность набора признаков зависит от конкретной обучающей последовательности.

Ясно, что чем больше объем выборки, тем большим будет, вообще говоря, информативный набор признаков. Тем не менее можно привести примеры задач, когда информативный набор признаков, найденный по выборке меньшего объема, и информативный набор признаков, найденный по обучающей последовательности большего объема, не имеют ни одного общего элемента.

<< Предыдущий параграф

Следующий параграф >>

Оглавление

ПРЕДИСЛОВИЕ
ЧАСТЬ ПЕРВАЯ ЭЛЕМЕНТАРНАЯ ТЕОРИЯ
Глава I. Персептрон Розенблатта
§ 1. Феномен восприятия
§ 2. Физиологическая модель восприятия
§ 3. Техническая модель. Персептрон
§ 4. Математическая модель
§ 5. Обобщенная математическая модель
§ 6. Теорема Новикова
§ 7. Доказательство теоремы Новикова
§ 8. Двухуровневая схема распознавания
Глава II. Задача обучения машин распознаванию образов
§ 1. Задача имитации
§ 2. Качество обучения
§ 3. Надежность обучения
§ 4. Обучение – задача выбора
§ 5. Две задачи конструирования обучающихся устройств
§ 6. Математическая постановка задачи обучения
§ 7. Три пути решения задачи о минимизации среднего риска
§ 8. Задача обучения распознаванию образов и методы минимизации среднего риска
Глава III. Методы обучения, основанные на восстановлении распределения вероятностей
§ 1. О восстановлении распределения вероятностей
§ 2. Классификация оценок
§ 3. Метод максимума правдоподобия
§ 4. Байесов принцип восстановления
§ 5. Сравнение байесова метода оценивания и оценивания методом максимума правдоподобия
§ 6. Оценка параметров распределения дискретных независимых признаков
§ 7. Байесовы оценки параметров распределения дискретных независимых признаков
§ 8. Восстановление параметров нормального распределения методом максимума правдоподобия
§ 9. Байесов метод восстановления нормального распределения
Глава IV. Рекуррентные алгоритмы обучения распознаванию образов
§ 1. Метод стохастической аппроксимации
§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образов
§ 3. Конечно-сходящиеся рекуррентные процедуры
§ 4. Теоремы об останове
§ 5. Метод циклического повторения обучающей последовательности
§ 6. Метод потенциальных функций
Глава V. Алгоритмы, минимизирующие эмпирический риск
§ 1. Метод минимизации эмпирического риска
§ 2. Равномерная сходимость частот появления событий к их вероятностям
§ 3. Теорема Гливенко
§ 4. Частный случай
§ 5. Оценка числа различных линейных разделений векторов
§ 6. Условия равномерной сходимости частот появления событий к их вероятностям
§ 7. Свойства функции роста
§ 8. Оценка уклонения эмпирически оптимального решающего правила
§ 9. Метод минимизации эмпирического риска в детерминистской постановке задачи обучения распознаванию образов
§ 10. Замечание об оценке скорости равномерной сходимости частот появления событий к их вероятностям
§ 11. Замечания об особенностях метода минимизации эмпирического риска
§ 12. Алгоритмы метода обобщенного портрета
§ 13. Алгоритм Кора
Глава VI. Метод упорядоченной минимизации риска
§ 1. О критериях оценки качества алгоритмов
§ 2. Минимаксный критерий
§ 3. Критерий минимакса потерь
§ 4. Критерий Байеса
§ 5. Упорядочение классов решающих правил
§ 6. О критериях выбора
§ 7. Несмещенность оценки скользящего контроля
§ 8. Упорядочение по размерностям
§ 9. Упорядочение по относительным расстояниям
§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного риска
§ 11. О выборе оптимальной совокупности признаков
§ 12. Алгоритмы упорядоченной минимизации суммарного риска
§ 13. Алгоритмы построения экстремальных кусочно-линейных решающих правил
§ 14. Приложение к главе VI
Глава VII. Примеры применения методов обучения распознаванию образов
§ 1. Задача о различении нефтеносных и водоносных пластов в скважине
§ 2. Задача о различении сходных почерков
§ 3. Задача о контроле качества продукции
§ 4. Задача о прогнозе погоды
§ 5. Применение метода обучения распознаванию образов в медицине
§ 6. Замечания о применениях методов обучения распознаванию образов
Глава VIII. Несколько общих замечаний
§ 1. Еще раз о постановке задачи
§ 2. Физики об интуиции
§ 3. Машинная интуиция
§ 4. О мире, в котором возможна интуиция
Часть вторая. СТАТИСТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ
Глава IX. О сходимости рекуррентных алгоритмов обучения распознаванию образов
§ 1. Определение понятия сходимости
§ 2. Выпуклые функции
§ 3. Обобщенный градиент
§ 4. Условия сходимости рекуррентных алгоритмов
§ 5. Еще одно условие сходимости рекуррентных алгоритмов
Глава X. Достаточные условия равномерной сходимости частот к вероятностям по классу событий
§ 1. О близости минимума эмпирического риска к минимуму среднего риска
§ 2. Определение равномерной сходимости частот к вероятностям
§ 3. Определение функции роста
§ 4. Свойства функции роста
§ 5. Основная лемма
§ 6. Вывод достаточных условий равномерной сходимости частот к вероятностям по классу событий
§ 7. О равномерной сходимости с вероятностью единица
§ 8. Примеры и дополнительные замечания
§ 9. Приложение к главе X
Глава XI. Необходимые и достаточные условия равномерной сходимости частот к веронтностям по классу событий
§ 1. Энтропия системы событий
§ 2. Асимптотические свойства энтропии
§ 3. Необходимые и достаточные условия равномерной сходимости (доказательство достаточности)
§ 4. Доказательство необходимости условий равномерной сходимости
§ 5. Примеры и дополнительные критерии
Глава XII. Оценки равномерного относительного уклонения частот от вероятностей в классе событий
§ 1. О равномерном относительном уклонении
§ 2. Оценка равномерного относительного уклонения частот в двух полувыборках
§ 3. Оценка равномерного относительного уклонения частот от вероятностей
Глава XIII. Применение теории равномерной сходимости к методам минимизации эмпирического риска
§ 1. Оценка достаточной длины обучающей последовательности в задачах обучения распознаванию
§ 2. Равномерная сходимость средних к математическим ожиданиям
Часть третья. МЕТОДЫ ПОСТРОЕНИЯ РАЗДЕЛЯЮЩИХ ПОВЕРХНОСТЕЙ
Глава XIV. Построение разделяющей гиперплоскости (метод обобщенного портрета)
§ 1. Оптимальная разделяющая гиперплоскость
§ 2. Однопараметрическое семейство разделяющих гиперплоскостей
§ 3. Некоторые свойства обобщенного портрета
§ 4. Двойственная задача
§ 5. Алгоритмы персептронного типа
§ 6. Градиентные методы построения разделяющей гиперплоскости (вычисление обобщенного портрета)
§ 7. Теория оптимальной разделяющей гиперплоскости
§ 8. Двойственная задача
§ 9. Методы вычисления оптимальной разделяющей гиперплоскости
§ 10. Построение оптимальной разделяющей гиперплоскости модифицированным методом Гаусса–Зайделя
§ 11. Применение метода обобщенного портрета для нахождения оптимальной разделяющей гиперплоскости
§ 12. Некоторые статистические особенности метода обобщенного портрета
§ 13. Приложение к главе XIV
Глава XV. АЛГОРИТМЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ, РЕАЛИЗУЮЩИЕ МЕТОД ОБОБЩЕННОГО ПОРТРЕТА
§ 1. Способы представления информации
§ 2. Алгоритм построения разделяющей гиперплоскости
§ 3. Алгоритм построения разделяющей гиперплоскости, минимизирующей число ошибочно классифицируемых векторов
§ 4. Алгоритм построения кусочно-линейной разделяющей поверхности
§ 5. Алгоритмы построения разделяющей гиперплоскости в пространстве минимального числа признаков
§ 6. Алгоритм построения экстремальной линейной разделяющей поверхности
§ 7. Алгоритм построения экстремальной кусочно-линейной разделяющей поверхности
§ 8. Алгоритм построения разделяющей гиперплоскости с оценкой ее качества методом скользящего контроля
§ 9. Алгоритмы построения экстремальных разделяющих гиперповерхностей с помощью процедуры скользящий контроль
§ 10. О работе с алгоритмами
Глава XVI. МЕТОД СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ
§ 1. Идея метода
§ 2. Метод сопряженных градиентов
§ 3. Метод параллельных касательных (партан)
§ 4. Анализ погрешностей метода
КОММЕНТАРИИ
ЛИТЕРАТУРА