11.5. Анализ резко выделяющихся наблюдений
11.5.1. Постановка задачи.
В этом параграфе рассматриваются методы выделения наблюдений, которые сильно отклоняются от центра распределения. Иногда такие большие отклонения возникают в результате случайного просчета, неправильного чтения показаний измерительного прибора, случайного сдвига запятой в десятичной записи числа и т. д., т. е. в результате действительной ошибки. Иногда же они отражают более тонкие моменты, такие, как несоответствие в отдельных точках действительности используемой математической модели, незамеченное исследователем изменение условий эксперимента и т. п.
В любом случае с математической точки зрения речь идет о выделении наблюдений, величина которых не согласуется с распределением основной массы данных. Идентификация выделяющихся наблюдений позволяет обычно еще раз проверить условия их регистрации и процессирования и тем самым подчас выявить и устранить ошибку. Если же ошибку устранить не удается, то наблюдение обычно просто исключается из дальнейшей обработки как нетипичное.
Рассматриваемая задача разделяется на два этапа: выявление «подозрительных» наблюдений и проверка статистической значимости их отличия от основной массы данных.
Естественно, что оба этапа основываются на определенных предположениях о распределении как основной («незасоренной») части наблюдений, так и «выбросов» («засорений»). Обычно предполагается, что наблюдения незасоренной части имеют одномерное или многомерное нормальное распределение с неизвестными параметрами. При анализе отклонений наблюдений от математической модели иногда дополнительно предполагается, что среднее распределения отклонений равно нулю, т. е. что модель в среднем не вносит смещения. Относительно моделей для засорения единства предположений нет. Иногда предполагается, что выбросы имеют такую же дисперсию, что основная часть выборки, но заметно сдвинутое среднее. Иногда, что среднее не сильно отличается от среднего основной части, но зато дисперсия значительно больше. Для удобства дальнейших ссылок запишем эти предположения в более формальном виде. Пусть — результаты наблюдения, — наборы индексов из множества соответствующие незасоренной и засоренной частям выборки. Предположение о незасоренной части выборки:
(11.77)
где — неизвестные параметры.
Предположения о засоренной части случай сдвига среднего:
(11.78)
и случай большой дисперсии:
(11.79)
В случае когда из априорных соображений можно считать, что среднее основной части выборки равно нулю, (11.77) переходит в
а предположения относительно засоренной части — в
Прежде чем приступить к описанию конкретных методов выделения выбросов, отметим, что чисто статистический подход к проблеме идентификации и удаления нестандартных наблюдений, развиваемый в этом параграфе, требует определенной осторожности при интерпретации данных. Предположение однородности, лежащее в основе статистических процедур, в действительности может не иметь места, и выбросы могут оказаться наиболее важными наблюдениями, проливающими свет на то, как собирались данные.