Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

2.4. ПОДСТАНОВКА ОЦЕНОК НАИМЕНЬШИХ КВАДРАТОВ

2.4.1. Метод Йейтса

Классический и общепринятый подход к пропускам в дисперсионном анализе обязан своим происхождением в основном Йейтсу Он состоит в следующем: 1) заменить все пропущенные значения их оценками наименьших квадратов где определенное в (2.2), получено по строкам с присутствующими применить метод анализа для полных данных. Этот подход с подстановкой оценок наименьших квадратов на первый взгляд создает порочный круг небесполезен на практике, так как для него вроде бы требуется знать при оценивании величиной до получения (3,. Как это ни удивительно, но можно относительно

легко вычислять для пропущенных до непосредственного вычисления если отсутствует небольшое число значений.

Процедура Йейтса обосновывается тем, что она дает 1) правильные оценки наименьших квадратов и 2) правильную остаточную сумму квадратов, т. е. получаемая оценка будет правильна и равна Доказать два этих факта довольно легко. Пусть обозначает оценки наименьших квадратов отсутствующих значений, которыми для простоты обозначений мы будем считать первые наблюдений. Методы для полных данных, примененные к заполненным данным, минимизируют величину

по 0. По определению минимизирует вторую сумму в но минимизирует и первую сумму, делая ее равной нулю. Следовательно, при заполнении пропусков оценками наименьших квадратов 1) достигает минимума при равна минимальной сумме квадратов остатков по присутствующим значениям Отсюда 1) правильная оценка наименьших квадратов равна оценке наименьших квадратов 0, полученной с помощью программы дисперсионного анализа для полных данных и 2) правильная оценка наименьших квадратов получается из оценки для полных данных,

Анализ с подстановкой вместо пропущенных несовершенен: он приводит к заниженной оценке ковариационной матрицы суммы квадратов, относящиеся к набору линейных комбинаций 0, завышены, хотя при небольшой доле пропусков эти смещения часто относительно малы. Теперь мы приступим к рассмотрению методов вычисления значений

2.4.2. Формулы для пропущенных значений

Один из подходов состоит в том, чтобы заменять пропущенные значения с помощью явного выражения. Впервые применяя эту идею, Аллан и Уишарт [см. Allan and Wishart (1930)] вывели формулы для оценки наименьших квадратов для одного пропущенного значения в плане рандомизированных блоков и в плане латинских квадратов. Например, для рандомизированных блоков при обработках и В блоках оценкой наименьших квадратов пропущенного значения для обработки в блоке является

где соответственно сумма наблюденных значений для обработки и блока а сумма всех наблюденных Уилкинсон [см. Wilkinson (1958а)] обобщил эту работу, приведя таблицу с формулами для многих планов и структур пропусков.

2.4.3. Итеративный подбор пропущенных значений

Хартли [Hartley (1956)] предложил общий неитеративный метод оценки одного пропущенного значения, который по его предложению следует использовать итеративно при большем числе пропусков. Метод для одного пропуска состоял в подстановке трех различных пробных значений вместо пропуска и вычислении суммы квадратов остатков для каждого из этих значений. Тогда, поскольку сумма квадратов остатков квадратична по пропущенному значению, можно найти значение для одного пропуска, минимизирующее эту сумму. Этот подход менее привлекателен, чем другие методы.

Хили и Уэстмакот [Healy and Westmacott (1956)] описали известный итеративный метод, который иногда приписывают Йейтсу, а иногда — даже Фишеру. В этом методе 1) вместо всех пропусков подставляют начальные значения; 2) проводят анализ для полных данных; 3) для пропусков получают предсказываемые значения; 4) подставляют эти значения вместо пропусков; 5) снова проводят анализ для полных данных и т. д., пока значения для пропусков не станут меняться мало, или, что эквивалентно, пока остаточная сумма квадратов не перестанет существенно уменьшаться.

Как мы покажем в примере 8.5, метод Хили и Уэстмакота — пример ЕМ-алгоритма, описываемого в гл. 7. Каждая итерация уменьшает остаточную сумму квадратов или (что то же самое при соответствующей нормальной модели) увеличивает правдоподобие. В некоторых случаях сходимость может быть медленной. Были предложены специальные методы ускорения [см. Реагсе (1965), с. 111; Ргеесе (1971)]. В некоторых случаях они увеличивают скорость сходимости, в других же нарушают монотонное уменьшение остаточной суммы квадратов (см. сводку условий в [Jarrett (1978)]).

2.4.4. Ковариационный анализ с современными пропусков

Общий неитеративный метод, предложенный Бартлетом [см. Bartlett (1937)], заключается в подстановке начальных значений вместо пропусков и проведении ковариационного анализа с сопеременной (covariate, сопутствующая переменная) пропусков для каждого пропущенного значения. По определению сопеременная пропусков — это индикатор пропущенного значения, т. е. всегда нуль, за исключением случая, когда пропущено значение, тогда она равна 1. При вычитании коэффициента для сопеременной пропуска из начального значения получается оценка наименьших квадратов пропуска. Кроме того, остаточный средний квадрат и суммы квадратов для всех контрастов, пересчитанные по сопеременной пропусков, принимают свои истинные значения. Мы докажем эти результаты в разделе 2.5.

Хотя этот метод привлекателен в определенных отношениях, его часто нельзя реализовать непосредственно, потому что специализированные программы дисперсионного анализа могут не обладать возможностью вести обработку при многих сопеременных. Оказывается, однако, что метод Бартлета можно применять, располагая только имеющимися программами дисперсионного анализа для полных данных и программой обращения симметричной матрицы . В следующем разделе доказано, что метод Бартлета дает правильные результаты, в других же разделах рассмотрено получение этих результатов только с помощью программ дисперсионного анализа для полных данных.

Categories

1
Оглавление
email@scask.ru