Главная > Прикладная статистика: Классификации и снижение размерности
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

19.5. Выделение аномальных наблюдений

19.5.1. Проекционный индекс и приближенная вычислительная процедура.

В качестве ПИ, подходящего для получения проекций, на которых аномальные наблюдения (outliers) могли бы наблюдаться визуально, можно воспользоваться отношением

(19.36)

где — обычная оценка дисперсии одномерной проекции выборки на вектор — некоторая устойчивая оценка параметра масштаба.

Известно, что обычная оценка весьма чувствительна к наличию аномальных наблюдений и их присутствие приводит, как правило, к возрастанию ее величины. Поэтому те направления, на которых значения ПИ (19.36) достигают максимума, могут обоснованно рассматриваться как направления, где влияние аномальных наблюдений наиболее выражено (если, конечно, таковые вообще имеют место).

В числителе (19.36) стоит квадратичная форма знаменатель приближенно можно аппроксимировать квадратичной формой , где — некоторая устойчивая оценка матрицы ковариаций. Поэтому как приближенное решение оптимизационной задачи для (19.36) можно использовать решение обобщенной задачи на собственные значения и векторы

(19.37)

Имеется не более положительных собственных чисел для задачи (19.37), которые можно упорядочить в порядке убывания их величины . Для получения проекций используются собственные векторы соответствующие наибольшим собственным числам, превосходящим 1.

Устойчивые оценки матрицы ковариаций и вектора средних. Устойчивые оценки матрицы ковариаций можно получать разными методами. В частности, имеющаяся в пакете ППСА [66] программная реализация основана на использовании разновидности М-оценок [269], так называемых экспоненциально-взвешенных оценок [11, гл. 10]. Однако экспоненциально-взвешенные оценки обладают тем недостатком, что в случае дискретных переменных с некоторым значением, частота которого больше частот остальных значений (что часто встречается на практике), оценкой матриц ковариаций может быть матрица с нулями на диагонали, т. е. оценки дисперсий для этих переменных равны нулю, что иногда приводит к трудностям в реализации процедуры.

Модификация индекса выразительности (19.36). Критерий (19.36) можно усовершенствовать, если учесть еще различие между оценками параметров положения (обычной М и устойчивой Муст), например, положив

где

Приближенное решение снова получается как решение полной проблемы собственных векторов и чисел

Пример 19.3. Рассмотрим пример применения метода главных компонент и ЦП к выборке реальных данных.

Используем матрицу данных из работы [149], содержащую сведения о 130 сельскохозяйственных районах СССР за 1975 г. Показатели, использованные в этой матрице, представляют собой некоторые обобщенные характеристики: возрастной состав населения, состав сельскохозяйственной продукции, техническую оснащенность и т. д. Всего имеется 26 таких показателей каждый из них имеет пять градаций, измерены они в ординальной шкале.

Результаты применения метода главных компонент в ЦП приведены соответственно на рис. (19.1, а, б) где квадратами обозначены 5% наблюдений, имеющих минимальный вес (они рассматриваются в качестве «подозрительных» как аномальные наблюдения). На рис. (19.1, а) эти наблюдения хорошо выделены и далеко отстоят от основной массы наблюдений.

Важно, однако, знать, действительно ли эти наблюдения могут в каком-либо содержательном смысле играть роль аномальных? Идентификация этих наблюдений показывает, что им соответствуют Магаданская, Архангельская, Мурманская и т. д. области.

(см. скан)

Рис. 19.1. Диаграмма рассеивания для 130 сельскохозяйственных регионов СССР: а) целенаправленное проецирование для выделения аномальных наблюдений, точки, «подозрительные» как аномальные, обозначены закрашенными квадратами; б) отображение тех же объектов на плоскости двух первых главных компонент

В смысле структуры сельскохозяйственного производства это действительно районы, резко отличающиеся от большинства сельскохозяйственных районов СССР — сельское хозяйство в них направлено в основном на удовлетворение нужд крупного промышленного города (Магадана, Архангельска и т.д.) и почти ничего не производит для других потребителей в СССР.

Categories

1
Оглавление
email@scask.ru