Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

3. КЛАССИФИКАЦИЯ ПО ДАННЫМ С ПРОПУСКАМИ

Следующей задачей, в которой мы рассмотрим применение подхода с заменой исходного (полного) распределения на маргинальные распределения, является дискриминантный анализ многомерных наблюдений с пропусками.

Пусть мы получаем (с пропусками) измерения характеристик объекта, которые зависят от того, к какому из к классов принадлежит объект, т.е. X есть случайный вектор, имеющий одно из к распределений которые мы будем считать известными. Потери при отнесении наблюдения из класса в класс обозначим через априорную вероятность принадлежности к классу через

Решающее правило есть отображение

т.е. классификация объектов с использованием той части данных, которая доступна нам в соответствии с вектором пропусков Задачей является поиск оптимального решающего правила минимизирующего средние потери

где математическое ожидание по распределению случайного вектора в классе Обозначим через полную и маргинальную (в соответствии со структурой пропусков плотности, отвечающие распределению случайного вектора X в классе

Теорема 4. Пусть выполняется условие ОС и распределение пропусков не зависит от класса:

Тогда оптимально (минимизирует средние потери) решающее правило, основанное на маргинальны плотностях:

Исходя из этого простого результата с помощью геометрических представлений несложно показать, что предварительное заполнение пропусков в распознаваемом наблюдении (предлагаемое, например в [Kennedy, Chien (1982)]) не может улучшить качество классифицирования, а в широком круге задач приводит к увеличению средних потерь (вероятности ошибочной классификации при антидиагональной матрице потерь). Этот результат верен в условиях теоремы, т.е. при известных распределениях, или при оценивании распределений по обучающим выборкам, по крайней мере, в асимптотике роста объемов выборок.

Приведенная формулировка включает случай [Krzysko (1983)] дискриминантного анализа временных рядов (см. также раздел 4).

К проблеме классификации можно отнести и задачу о разладке [Клигене, Текльснис (1983)], в которой качество методов характеризуется, как правило, длительностью периода от изменения состояния наблюдаемого объекта (разладки) до подачи сигнала об обнаружении разлодки (при заданной интенсивности ложных тревог). Ясно, что оптимальная обработка пропусков может быть очень важной при практическом применении методов обнаружения разладки, будь то анализ технологическогог процесса, обработки данных сейсмического слежения и т.п. Следует ожидать, что использование маргинальных плотностей в (асимптотически) оптимальных методах, например в алгоритме кумулятивных сумма (см., например, [Никифоров (1983)]), позволит сохранить их свойства при наличии пропусков.

Categories

1
Оглавление
email@scask.ru