10.4.4. Проблема устойчивости оценок при небольших отклонениях распределения от нормального.
К. Ф. Гаусс пришел в 1809 г. к нормальному закону из решения задачи, которая на современном языке может быть сформулирована следующим образом [110, 111]: найти распределение, для которого среднее арифметическое независимых наблюдений — является оценкой максимального правдоподобия для параметра сдвига. Из самой постановки задачи Гауссом следует, что совсем не обязательно должно иметь хорошие выборочные свойства для распределений, не являющихся нормальными. И это действительно так, эффективность как оценки параметра сдвига, даже для симметричных распределений, быстро падает с утяжелением «хвостов» распределения. Для ряда распределений относительная эффективность показана в табл. 8.1.
Исторически уже давно было замечено, что при оценке центра распределения желательно отбросить слева и справа равные небольшие доли крайних членов вариационного ряда и взять среднее арифметическое оставшихся членов. Такая оценка предлагалась в XVIII в. во Франции при оценке среднегодовой урожайности. В 1910 г. ее выдвигал А. Пуанкаре как более устойчивую альтернативу Таким методом выводится, например, судьями средний балл в гимнастике. Однако позднее, в 30-х и 40-х годах нашего века, в математической статистике под влиянием блестящих работ Р. А. Фишера и введенных им фундаментальных понятий достаточности (статистики), эффективности (оценки) при четко определенном классе рассматриваемых альтернатив об устойчивости оценки забыли. В наше время первым о старых предложениях вспомнил Дж. Тьюки, привлекший к проблеме устойчивости оценок внимание профессиональных статистиков [141].
Приведем еще пример того, как устойчивая, удобная, широко распространенная в начале нашего века статистика была объявлена недостаточно эффективной, к 60-м годам практически исчезла из учебников математической статистики, а в наше время полностью восстановлена в своих правах. Речь идет об оценке параметра масштаба, так называемой средней абсолютной ошибке
Со времен Гаусса эта оценка конкурировала со среднеквадратической оценкой Вообще
говоря, d и s — это разные параметризации распределения. Для нормального закона отношение их предельных значений равно:
Для сравнения используем следующую асимптотическую характеристику, показывающую относительную асимптотическую эффективность по отношению к как оценок параметра масштаба:
и проведем сравнение на модели «засоренного» нормального закона Тьюки (см. п.6.1.11). Поведение как функции от 6 показано в табл. 10.3. По данным таблицы видно, что в нормальном случае эффективнее d на но уже при эффективнее d.
Таблица 10.3
Далее эффективность d продолжает быстро расти и при в два раза превышает эффективность 5. Поскольку d оказалась эффективнее s практически для всех значений , из данных табл. 10.3 вытекает, что во всех случаях выборок малого и умеренного объема в практической работе предпочтительнее использовать d. И только в случаях выборок очень большого объема, когда распределение оказывается очень близким к нормальному лучше использовать
Графические оценки, описанные в п. 10.4.3, явно устойчивы к отклонениям распределения от гауссовского, но они все-таки недостаточно эффективны в случае нормального закона. Хотелось бы более полно использовать информацию, заключающуюся в центральной части распределения. Это можно сделать, например, путем использования при определении параметров специально подобранных весовых функций. В многомерном случае М — оценку вектора сдвига и В — оценку ковариационной матрицы можно
искать (89, 126] путем итерационного решения уравнений вида
(10.13)
где — заданные весовые функции константа, подбираемая так, чтобы компенсировать в гауссовском случае смещение в оценке ковариационной матрицы, вызванное взвешиванием. При формулы (10.13), (10.14) сводятся к обычным для нормального закона оценкам (10.11), (10.12).