13.6. Влияние нарушений основных предположений
Мы уже видели ранее, что отклонения от предположения нормальности распределения могут существенно сказываться на эффективности оценок среднего и дисперсии [14, п. 8.6.1 и 10.4.4]. Проиллюстрируем еще раз этот факт на примере влияния эксцесса на величину доверительного интервала для
построенного по выборке большого объема.
Согласно [14, п. 8.6.51 в нормальном случае доверительный интервал строится по величине
имеющей распределение
. Для
в случае нормального распределения
(13.33)
При отличном от нуля эксцессе
п. 5.6.6] при любом
ситуация сильно меняется, так как, хотя (13.33) и остается тем же, вместо (13.34) имеем:
(13.35)
При больших
отношение (13.34) к (13.35) приближается к
и поскольку
имеет приблизительно нормальное распределение, легко может быть подсчитан доверительный интервал для
. В табл. 13.1 для разных значений
показана вероятность Р того, что истинное значение
не попадает в
-ный доверительный интервал, построенный согласно нормальной теории при больших значениях
.
Таблица 13.5 [148]
Как видно по таблице, для реально встречающихся на практике распределений (см. [14, п. 6.1.11]) истинная ошибка первого рода может быть очень большой, в несколько раз превышая нормальную ошибку в 5%.
Будем называть выводы, относящиеся только к постоянным факторам ДА, выводами о средних, а выводы, относящиеся к случайным эффектам, — выводами о дисперсиях. Примером первых являются критерии для проверки гипотез о главных эффектах и взаимодействиях в моделях с постоянными факторами и соответствующие доверительные интервалы. Примером выводов о дисперсиях являются критерии равенства дисперсий в моделях со случайными факторами и доверительные интервалы для компонент дисперсии.
Нарушение предположений нормальности оказывает слабое влияние на выводы о средних и очень опасно при выводах о дисперсиях. Первым на это обратил внимание Е. Пирсон [148, 234].
Другая опасность, подстерегающая исследователя при использовании ДА, — это не отраженная в модели коррелированность между наблюдениями. Рассмотрим простейшую модель корреляции между последовательными наблюдениями. Предполагается, что
для
а все остальные коэффициенты корреляции равны нулю. Возможны все р, такие, что
Некоторым обоснованием этого предположения является наблюдение Стьюдента [148, § 10.1], вычислившего коэффициенты корреляции между последовательными анализами пяти различных химических свойств с выборками из одной и той же партии хорошо перемешанного материала: 0,27; 0,31; 0,19; 0,09; 0,09.
Для иллюстрации влияния отклонений от предположения независимости воспользуемся тем же методическим приемом, что и выше, а именно: построим: при большом
доверительный интервал для среднего
исходя из предположения независимости наблюдений и подсчитаем Р — вероятность того, что
-ный доверительный интервал не накроет истинное значение
. Результаты показаны в табл. 13.2. Из нее следует один вывод: неучтенная корреляция последовательных наблюдений может серьезно влиять на статистические выводы.
Таблица 13.6 [148]
Значительная неучтенная корреляция может возникнуть в моделях со случайными факторами при иерархической классификации (§ 13.4), когда при построении модели и планировании сбора данных пропускается один из источников варьирования результатов экспериментов.
Влияние неравенства дисперсий наблюдений изучалось многими авторами. Общий вывод [148, § 10.4]: в моделях с постоянными факторами его надо учитывать только в случае плохо сбалансированного распределения экспериментальных точек.