2.6. Метод структурной минимизации риска
Одна из основных трудностей традиционных алгоритмов дискриминантного анализа состоит в том, что они существенно зависят от субъективных предположений (см. п.2.1.1), которые трудно и не всегда можно проверить по имеющимся данным. Более того, исследователь порой знает, что предположения не верны, а продолжает ими пользоваться, так как они, существенно ограничивая класс возможных решающих правил, успешно работают в данной предметной области. Таким образом, результат применения дискриминантного анализа существенно субъективен, хотя сами алгоритмы полностью формализованы. Поэтому возникло направление исследований, рассчитанное на тех, кто не хотел бы начинать исследование с субъективных предположений. Цель его — не столько предложить эффективные рабочие формулы, сколько развить общую теорию оценивания и на ее основании доказать, что в принципе при можно найти решение и без априорных предположений. В основе нового подхода лежит известное понятие функции потерь. Для простоты изложения ограничимся случаем двух классов, для которого функция потерь
где — некоторый класс функций, принимающих значения и зависящих от абстрактного параметра a; F (X, у) — неизвестная функция распределения (X, у). При вычислениях Q(а) заменяют на ее выборочную оценку
(2.63)
Обозначим класс функций через S, обычно его выбирают заметно шире, чем класс функций, используемый в статистическом дискриминантном анализе. Это позволяет, с одной стороны, отказаться от априорных предположений, а с другой — служит источником трудностей, о которых речь ниже.
В классе S ищут минимум по Пусть он достигается при Далее строится оценка, показывающая, насколько могут отличаться . Эта оценка зависит от доверительной вероятности и имеет вид
где — известная непрерывная функция своих аргументов — объем выборки; h — новое фундаментальное понятие, называемое емкостью класса S [44, с. 195—196]. Оно характеризует число способов разделения выборки с помощью функций класса S. Поскольку это понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к оригинальным работам [44, 45]. Отметим только, что емкость в случае линейных от функций X правил вида
где - известные функции X.
Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы заранее сузить класс функций S, среди которых ищут минимум Фэмш и формула (2.64) давала бы оценку точности решения. Однако исходная целевая установка заключалась в отказе от априорных предположений и рассмотрении максимально широкого класса S. Для того чтобы соединить потенциальную широту S и ограниченность объема выборки, на S выделяется некоторая структура вложенных друг в друга подмножеств растущей емкости
и минимизация проводится внутри подходящего так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функций с потерями при переходе от к Q, оцениваемыми по формуле (2.64).
Этот подход к построению алгоритмов классификации получил название структурной минимизации риска.
Достоинства метода структурной минимизации:
1) отказ от априорных предположений;
2) решение прямой задачи — поиск а не оценка параметров гипотетических распределений;
3) построение универсальных оценок (2.64);
4) наличие рекомендаций по сочетанию объема выборки и сложности используемого класса функций;
5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не может не сказаться на будущем развитии дискриминантного анализа.
Недостатки этого метода:
1) сильно завышены оценки погрешности, делающие метод неконкурентно способным по сравнению с современными алгоритмами дискриминантного анализа;
2) перенос трудностей, связанных с выбором предположений, на этап введения последовательности структур (2.66);
3) отсутствие рекомендаций по выбору структур в зависимости от геометрии расположения классов.
Одна из возможных программных реализаций метода структурной минимизации риска названа алгоритмом «обобщенный портрет» [44]. Алгоритм начинается с отображения исходного пространства переменных в бинарное пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность , где — число градаций, на которые разбивается признак. Это обеспечивает универсальность последующей трактовки, а с другой стороны, как показано в п. 2. 3. 4, порой ведет к очень большим потерям информации. Интерпретация формул, получаемых с помощью алгоритма «обобщенный портрет», часто бывает затруднительна из-за большой зашумленности используемых оцифровок.