Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
5.4.3. Метод разбиения выборки.Для того чтобы разбить имеющиеся объекты на обучающую и экзаменационную выборки Вначале предположим, что имеется бесконечное число объектов для синтеза классификатора и
где С другой стороны, если имеется
где Дисперсию оценки
где
Это преобразование основано на том, что для нормальных распределений с равными ковариационными матрицами байесовский классификатор — линейный, а распределение отношения правдоподобия также является нормальным распределением. Подобные выражения встречались в формулах (3.35) — (3.38). Заметим, что даже если две истинные ковариационные матрицы равны, то оценки их различны. Однако для упрощения предположим, что обе эти оценки равиы и имеют вид
где Математическое ожидание оценки наипростейший случай, когда
где
Величина
Математическое ожидание и дисперсия плотности (5.151) равны:
Исключая с, получим верхнюю границу дисперсии
Таким образом, степень влияния числа обучающих объектов на оценку вероятности ошибки
Величину подстановкой в формулу (5.141) значений
Величины Из рис. 5.3 видно, что Рис. 5.3. (см. скан) Для любых фиксированных значений рис. 5.3, Поскольку с ростом Пример 5.7. Для распространения вышеприведенного результата на случай нормальных распределений с неравными ковариационными матрицами были проведены эксперименты для стандартных данных Таблица 5.1. Выборочный эксперимент для вычисления смещения и среднеквадратичного отклонения, обусловленных построением классификатора
предыдущему выводу относительно того, что величина Хайлиман показал, что если задача состоит в синтезе классификатора, обеспечивающего минимум дисперсии несмещенной оценки Исключение задания класса для объектов экзаменационной выборки. Для того чтобы оценить вероятность ошибки как при обучении, так и на экзамене, требуются выборки объектов, в которых известно, какой объект к какому конкретному классу принадлежит. Однако в некоторых случаях получение такой информации связано с большими затратами. Рассмотрим метод оценки вероятности ошибки, не требующий информации о принадлежности объектов экзаменационной выборки к конкретному классу [Чоу, 1970]. Применение этого метода наиболее эффективно в случае, когда при оптимальном разбиении выборки на обучающую и экзаменационную, число объектов в экзаменационной выборке больше, чем в обучающей. Введем критическую область для задач классификации М классов:
где При таком решающем правиле вероятность ошибки
и
Предположим, что область отклонения увеличивается на
Интегрируя (5.161) в пределах области
где
Суммируя по всем дискретным значениям
Полагая
Уравнение (5.165) показывает, что вероятность ошибки
Рис. 5.4. Приращение областей отклонения. Воспользуемся выражением (5.165) для исключения задания класса объектов экзаменационной выборки. Для этого поступим следующим образом. 1. Для определения 2. Подсчитаем число неклассифицированных объектов экзаменационной выборки, которые попали в область 3. Тогда из выражения (5.165) следует, что оценка вероятности ошибки
В описанной процедуре использовалось то, что коэффициент отклонения является функцией от плотности вероятности смеси, а не от плотностей вероятности отдельных классов. Поэтому после того, как по классифицированным объектам найдены расширенные области отклонения, в дальнейшем для оценивания
|
1 |
Оглавление
|