19.5. Выделение аномальных наблюдений
19.5.1. Проекционный индекс и приближенная вычислительная процедура.
В качестве ПИ, подходящего для получения проекций, на которых аномальные наблюдения (outliers) могли бы наблюдаться визуально, можно воспользоваться отношением
(19.36)
где — обычная оценка дисперсии одномерной проекции выборки на вектор — некоторая устойчивая оценка параметра масштаба.
Известно, что обычная оценка весьма чувствительна к наличию аномальных наблюдений и их присутствие приводит, как правило, к возрастанию ее величины. Поэтому те направления, на которых значения ПИ (19.36) достигают максимума, могут обоснованно рассматриваться как направления, где влияние аномальных наблюдений наиболее выражено (если, конечно, таковые вообще имеют место).
В числителе (19.36) стоит квадратичная форма знаменатель приближенно можно аппроксимировать квадратичной формой , где — некоторая устойчивая оценка матрицы ковариаций. Поэтому как приближенное решение оптимизационной задачи для (19.36) можно использовать решение обобщенной задачи на собственные значения и векторы
(19.37)
Имеется не более положительных собственных чисел для задачи (19.37), которые можно упорядочить в порядке убывания их величины . Для получения проекций используются собственные векторы соответствующие наибольшим собственным числам, превосходящим 1.
Устойчивые оценки матрицы ковариаций и вектора средних. Устойчивые оценки матрицы ковариаций можно получать разными методами. В частности, имеющаяся в пакете ППСА [66] программная реализация основана на использовании разновидности М-оценок [269], так называемых экспоненциально-взвешенных оценок [11, гл. 10]. Однако экспоненциально-взвешенные оценки обладают тем недостатком, что в случае дискретных переменных с некоторым значением, частота которого больше частот остальных значений (что часто встречается на практике), оценкой матриц ковариаций может быть матрица с нулями на диагонали, т. е. оценки дисперсий для этих переменных равны нулю, что иногда приводит к трудностям в реализации процедуры.
Модификация индекса выразительности (19.36). Критерий (19.36) можно усовершенствовать, если учесть еще различие между оценками параметров положения (обычной М и устойчивой Муст), например, положив
где
Приближенное решение снова получается как решение полной проблемы собственных векторов и чисел
Пример 19.3. Рассмотрим пример применения метода главных компонент и ЦП к выборке реальных данных.
Используем матрицу данных из работы [149], содержащую сведения о 130 сельскохозяйственных районах СССР за 1975 г. Показатели, использованные в этой матрице, представляют собой некоторые обобщенные характеристики: возрастной состав населения, состав сельскохозяйственной продукции, техническую оснащенность и т. д. Всего имеется 26 таких показателей каждый из них имеет пять градаций, измерены они в ординальной шкале.
Результаты применения метода главных компонент в ЦП приведены соответственно на рис. (19.1, а, б) где квадратами обозначены 5% наблюдений, имеющих минимальный вес (они рассматриваются в качестве «подозрительных» как аномальные наблюдения). На рис. (19.1, а) эти наблюдения хорошо выделены и далеко отстоят от основной массы наблюдений.
Важно, однако, знать, действительно ли эти наблюдения могут в каком-либо содержательном смысле играть роль аномальных? Идентификация этих наблюдений показывает, что им соответствуют Магаданская, Архангельская, Мурманская и т. д. области.
(см. скан)
Рис. 19.1. Диаграмма рассеивания для 130 сельскохозяйственных регионов СССР: а) целенаправленное проецирование для выделения аномальных наблюдений, точки, «подозрительные» как аномальные, обозначены закрашенными квадратами; б) отображение тех же объектов на плоскости двух первых главных компонент
В смысле структуры сельскохозяйственного производства это действительно районы, резко отличающиеся от большинства сельскохозяйственных районов СССР — сельское хозяйство в них направлено в основном на удовлетворение нужд крупного промышленного города (Магадана, Архангельска и т.д.) и почти ничего не производит для других потребителей в СССР.