Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

8.4. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

8.4.1. Множественная линейная регрессия с Пропусками только в зависимой переменной

Когда строится регрессия скалярной выходной переменной У на предсказывающих переменных (регрессоров) и частично отсутствуют лишь значения У, неполные наблюдения не несут информации о параметрах регрессии если раздельный, а также если X рассматриваются как фиксированные постоянные. Тем не менее можно применить ЕМ-алгоритм по всем наблюдениям и итеративно получить те же МП-оценки, что были бы получены неитеративно только по полным наблюдениям. В некоторых случаях легче найти МП-оценки с помощью ЕМ-алгоритма, чем неитеративным способом.

Пример 8.4. Пропуски в дисперсионном анализе. В планируемых экспериментах набор значений выбирают так, чтобы провести вычисления параметров методом наименьших квадратов. При нормальном распределении У, условном по заданным метод наименьших квадратов дает МП-оценки. Когда часть значений У, скажем отсутствует, то исходный план с оставшимися наблюдениями не сбалансирован. По множеству причин, изложенных в гл. 2, может быть желательным оставить все наблюдения и рассматривать эту задачу как задачу с пропусками.

В ЕМ-алгоритме для этой задачи шаг соответствует методу наименьших квадратов для исходного плана, а на шаге ищут ожидаемые значения и ожидаемые квадраты пропущенных значений Условно по текущим оценкам параметров

где -матрица значений Пусть У — -вектор значений вектор У, в котором пропуски у, замещены оценками на итерации шага На шаге вычисляют

Алгоритм можно упростить, заметив, что в (8.9) не входит а, и после того, как процесс сошелся, мы имеем

так что из (8.10)

или

Следовательно, в ЕМ-алгоритме можно опустить итеративное оценивание на шаге данные, на шаге и итеративно вычислять только По окончании итераций мы можем вычислить непосредственно по (8.11). Эти итерации, в которых повторяется заполнение пропусков и переоценивание подставляемых значений из дисперсионного анализа, и составляют алгоритм, предложенный в [Healy and Westmacott (1956)] и упомянутый в разделе 2.4.3.

8.4.2. Линейная регрессия с пропусками в регрессорах

В общем случае пропуски могут быть и в выходных переменных, и в регрессорах. Предположим сначала совместную многомерную нормальность Тогда мы можем получать МП-оценки для регрессии на непосредственно с помощью ЕМ-алгоритма для многомерного нормального распределения, описанного ранее. Пусть

обозначает дополненную ковариационную матрицу, соответствующую переменным Свободный член, коэффициенты регрессии и остаточная дисперсия для регрессии на находятся в последнем столбце матрицы в — свертке в по постоянному члену и регрессорам. Тогда, если в — МП-оценка в, найденная методом из раздела 8.2, то МП-оценки параметров регрессии находятся в последнем столбце

Пусть -оценки коэффициентов регрессии на X и остаточная дисперсия при фиксированном X, найденные с помощью ЕМ-алгоритма, как описано выше. Эти оценки являются МП-оценками в более общих условиях, чем многомерная нормальность Точнее, допустим, мы разбили на где переменные в наблюдаются больше и переменной Y, и переменных (см. раздел 6.6), т. е. в любом объекте хотя бы с одним наблюдением в У или присутствуют все переменные из . Особенно простая ситуация, когда наблюдается полностью, так что Общий случай представлен на рис. 6.1, где будет соответствовать пустое множество. Тогда, если условное распределение при заданном многомерное нормальное, то и -оценки. Детальное изложение этих проблем содержится в гл. 6.

Это предположение намного слабее, чем многомерная нормальность поскольку предикторы (регрессоры) в могут быть категориальными, как в регрессии на фиктивные переменные, и. кроме того, можно вводить в регрессию взаимодействие между полностью наблюдаемыми регрессорами или степени регрессоров, не нарушая свойства процедуры для неполных данных.

К сожалению, в отличие от полных данных -подматрица из первых строк и столбцов в при наличии пропусков не соответствует ковариационной матрице оценок коэффициентов регрессии. Для вычисления асимптотической ковариационной матрицы оценок коэффициентов, основанной на обычной аппроксимации для растущего объема выборки, в общем случае требуется обращение полной информационной матрицы средних, дисперсий и ковариаций, приведенной в разделе 8.2.2. При моделировании, проведенном в [Little (1979)], хорошие свойства обнаружил приближенный метод оценивания этой ковариационной матрицы, предложенный в [Beale and Little (1975)]. При этом методе определяют

где -матрица взвешенных сумм квадратов и перекрестных произведений с элементом, равным:

где наблюдаемые или оцениваемые значения соответственно полученные на последней итерации ЕМ-алгоритма, взвешенное среднее, определяется как

где -оценка дисперсии у, условной по независимым переменным, присутствующим в наблюдении.

МП-оценки для многомерной линейной регрессии можно получить, применяя алгоритм из раздела 8.2.1 и проводя затем свертку по независимым переменным в получаемой дополненной ковариационной матрице. Точнее, если зависимые, а независимые переменные, то сначала дополненная ковариационная матрица объединенного множества переменных оценивается с помощью многомерного нормального ЕМ-алгоритма, а затем проводится свертка по Получаемая матрица содержит МП-оценки матрицы коэффициентов регрессии на X и ковариационной матрицы остатков от регрессии на X при заданном

Пример 8.5. Пропуски в нескольких зависимых переменных. Теперь мы проиллюстрируем регрессионный анализ с несколькими зависимыми переменными и несколькими предикторами при наличии пропусков (преимущественно в зависимых переменных) на данных о сроках проявления признаков развития на первом году жизни детей [см. Reinisch, Rosenblum, Rubin and Schulzinger (1985)]. В выборке из 4653 здоровых детей содержались данные о датах проявления десяти

признаков развития (например, первая улыбка) и о 9 сопеременных, связанных с развитием ребенка. Пол был зарегистрирован для всех детей, 9 сопеременных — почти для всех детей, но в данных о признаках развития были существенные пробелы, поскольку они регистрировались по дневникам матерей.

МП-оценки средних, дисперсий и корреляций между всеми переменными были получены с помощью ЕМ-алгоритма из раздела 8.2. Затем сверткой матрицы МП-оценок по полу была построена регрессия 10 признаков развития на пол, чтобы получить оценки средних возрастов проявления признака у мальчиков и девочек и оценки различий для этих возрастов между мальчиками и девочками. Стандартные ошибки параметров были вычислены подстановкой МП-оценок параметров в обычные выражения стандартных ошибок для полных данных, взятых с числом наблюдений, равным числу записей о проявлении признаков развития. Другими словами, ОМП средних, дисперсий и ковариаций были введены в стандартную программу регрессионного анализа полных данных при и было проведено только одно изменение результатов — пересчет стандартных ошибок и статистик критериев на действительное число присутствующих значений зависимой переменной. Эта процедура согласуется с предложением в [Beale and Little (1975)], так как пол присутствует всегда. Результаты даны в табл. 8.2.

Таблица 8.2. (см. скан) Различие между мальчиками и девочками срокам проявления признаков развития

В правых столбцах табл. 8.2 приведены также результаты анализа с учетом 9 сопеременных. Оценки были получены сверткой матрицы МП-оценок средних, дисперсий и ковариаций по полу и этим 9 сопеременным. Стандартные ошибки вычислялись в соответствии с числом присутствующих значений для каждой зависимой переменной, поскольку сопеременные наблюдались практически полностью.

Последним этапом обработки был регрессионный анализ разностей выходных переменных (т. е. промежутков времени между проявлением признаков развития), взятых в качестве зависимых переменных. Снова использовались при вычислении стандартных ошибок методы регрессии для полных данных, и проводился лишь пересчет на объем выборки зависимой переменной, равнявшийся числу детей с присутствием обоих признаков, составляющих данную переменную. Эти объемы составляли от 1262 для разности между «самостоятельно ходит» и «самостоятельно стоит» до 3524 для разности между «стоит с поддержкой» и «самостоятельно сидит».

1
Оглавление
email@scask.ru