10.4. Оценивание параметров сдвига и масштаба
10.4.1. Постановка задачи.
На практике часто встречаются распределения, близкие к нормальным. Они возникают или при непосредственной регистрации наблюдаемых переменных, или в результате описанного в конце § 10.3 преобразования эмпирических данных. Основными характеристиками, используемыми при работе с этими распределениями, являются так или иначе введенные параметры сдвига и масштаба. Поскольку точная аналитическая форма эмпирических распределений обычно не известна, да подчас и не интересна для исследователя, эти параметры обычно определяют с помощью вычислительной процедуры. При этом оценки параметров вводятся так, чтобы:
1) в случае гауссовского распределения выборочный параметр сдвига был состоятельной оценкой среднего а выборочный параметр масштаба b был состоятельной оценкой стандартного отклонения
2) при линейном преобразовании случайной величины параметры изменялись так же, как меняются параметры нормального закона.
В многомерном случае вводятся соответственно вектор сдвига М и неотрицательно определенная матрица В, сводящиеся в случае гауссовского распределения к обычным вектору средних и ковариационной матрице.
Каждый способ оценивания параметров сдвига и масштаба приводит к определенной параметризации распределений. Обсудим здесь различные способы оценивания. Эти вопросы последние десять-пятнадцать лет привлекают большое внимание профессиональных статистиков, поскольку прямое математическое моделирование показало, что статистические процедуры, оптимальные для нормального
распределения, неожиданно быстро теряют свои оптимальные свойства при утяжелении «хвостов» по сравнению с нормальным распределением. Прежде чем переходить к систематическому изложению, остановимся на возможных механизмах появления «тяжелых» хвостов. Нормальная выборка может быть загрязнена существенными ошибками технического характера, допущенными при регистрации наблюдений. При обработке данных эти «выбросы» желательно идентифицировать и далее можно просто игнорировать. Во втором, принципиально важном, случае мы имеем приближенно нормальное распределение с примесью другого распределения, имеющего несколько отличное среднее и большее рассеивание. Такие случаи возникают при определении «нормы» в экономике, социальных исследованиях, медицине. Здесь уже не удается трактовать «засорение» как «выброс», так как данные, регистрируемые у части выборки, отличаются подчас не столько изменением пределов возможных значений переменных, сколько изменением частоты отклонений от центральной тенденции «нормы». Ситуация еще более усложняется тем, что здесь обычны засорения несимметричные. Так, например, при оценке производительности труда на предприятиях какой-либо отрасли промышленности предприятия со старой технологией будут в среднем иметь худшие показатели по сравнению с основной группой предприятий. Аналогично начавшаяся болезнь сдвигает физиологические показатели пациента в каком-то одном направление. Выбор способа параметризации в этих случаях существенно зависит от цели исследования: надо ли описать всю имеющуюся популяцию или надо описать только ее центральное ядро, представляющее «норму», по возможности сняв эффект «засорения». Поэтому при изучении различных способов введения параметров сдвига и шкалы внимание приходится обращать на простоту интерпретации получающихся оценок, возможность их настройки на решение стоящей перед исследователем задачи и выборочные статистические свойства оценок не только в гчучае гауссовского распределения, но и для широкого сне/а моделей «загрязнения» нормальной выборки. Наконец, немалую роль играет простота технической реализации оценок, особенно в многомерном случае.