8.4. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
8.4.1. Множественная линейная регрессия с Пропусками только в зависимой переменной
Когда строится регрессия скалярной выходной переменной У на
предсказывающих переменных (регрессоров)
и частично отсутствуют лишь значения У, неполные наблюдения не несут информации о параметрах регрессии
если
раздельный, а также если X рассматриваются как фиксированные постоянные. Тем не менее можно применить ЕМ-алгоритм по всем наблюдениям и итеративно получить те же МП-оценки, что были бы получены неитеративно только по полным наблюдениям. В некоторых случаях легче найти МП-оценки с помощью ЕМ-алгоритма, чем неитеративным способом.
Пример 8.4. Пропуски в дисперсионном анализе. В планируемых экспериментах набор значений
выбирают так, чтобы провести вычисления параметров методом наименьших квадратов. При нормальном распределении У, условном по заданным
метод наименьших квадратов дает МП-оценки. Когда часть значений У, скажем
отсутствует, то исходный план с оставшимися наблюдениями не сбалансирован. По множеству причин, изложенных в гл. 2, может быть желательным оставить все наблюдения и рассматривать эту задачу как задачу с пропусками.
В ЕМ-алгоритме для этой задачи шаг
соответствует методу наименьших квадратов для исходного плана, а на шаге
ищут ожидаемые значения и ожидаемые квадраты пропущенных значений
Условно по текущим оценкам параметров
где
-матрица значений
Пусть У —
-вектор значений
вектор У, в котором пропуски у, замещены оценками на
итерации шага
На шаге
вычисляют
Алгоритм можно упростить, заметив, что в (8.9) не входит а, и после того, как процесс сошелся, мы имеем
так что из (8.10)
или
Следовательно, в ЕМ-алгоритме можно опустить итеративное оценивание
на шаге
данные, на шаге
и итеративно вычислять только
По окончании итераций мы можем вычислить
непосредственно по (8.11). Эти итерации, в которых повторяется заполнение пропусков и переоценивание подставляемых значений из дисперсионного анализа, и составляют алгоритм, предложенный в [Healy and Westmacott (1956)] и упомянутый в разделе 2.4.3.
8.4.2. Линейная регрессия с пропусками в регрессорах
В общем случае пропуски могут быть и в выходных переменных, и в регрессорах. Предположим сначала совместную многомерную нормальность
Тогда мы можем получать МП-оценки для регрессии
на
непосредственно с помощью ЕМ-алгоритма для многомерного нормального распределения, описанного ранее. Пусть
обозначает дополненную ковариационную матрицу, соответствующую переменным
Свободный член, коэффициенты регрессии и остаточная дисперсия для регрессии
на
находятся в последнем столбце матрицы
в — свертке в по постоянному члену и регрессорам. Тогда, если в — МП-оценка в, найденная методом из раздела 8.2, то МП-оценки параметров регрессии находятся в последнем столбце
Пусть
-оценки коэффициентов регрессии
на X и остаточная дисперсия
при фиксированном X, найденные с помощью ЕМ-алгоритма, как описано выше. Эти оценки являются МП-оценками в более общих условиях, чем многомерная нормальность
Точнее, допустим, мы разбили
на
где переменные в
наблюдаются больше и переменной Y, и переменных
(см. раздел 6.6), т. е. в любом объекте хотя бы с одним наблюдением в У или
присутствуют все переменные из
. Особенно простая ситуация, когда
наблюдается полностью, так что
Общий случай представлен на рис. 6.1, где
будет соответствовать
пустое множество. Тогда, если условное распределение
при заданном
многомерное нормальное, то
и
-оценки. Детальное изложение этих проблем содержится в гл. 6.
Это предположение намного слабее, чем многомерная нормальность
поскольку предикторы (регрессоры) в
могут быть категориальными, как в регрессии на фиктивные переменные, и. кроме того, можно вводить в регрессию взаимодействие между полностью наблюдаемыми регрессорами или степени регрессоров, не нарушая свойства процедуры для неполных данных.
К сожалению, в отличие от полных данных
-подматрица из
первых строк и столбцов
в при наличии пропусков не соответствует ковариационной матрице оценок коэффициентов регрессии. Для вычисления асимптотической ковариационной матрицы оценок коэффициентов, основанной на обычной аппроксимации для растущего объема выборки, в общем случае требуется обращение полной информационной матрицы средних, дисперсий и ковариаций, приведенной в разделе 8.2.2. При моделировании, проведенном в [Little (1979)], хорошие свойства обнаружил приближенный метод оценивания этой ковариационной матрицы, предложенный в [Beale and Little (1975)]. При этом методе определяют
где
-матрица взвешенных сумм квадратов и перекрестных произведений с
элементом, равным:
где
наблюдаемые или оцениваемые значения соответственно
полученные на последней итерации ЕМ-алгоритма,
взвешенное среднее,
определяется как
где
-оценка дисперсии у, условной по независимым переменным, присутствующим в
наблюдении.
МП-оценки для многомерной линейной регрессии можно получить, применяя алгоритм из раздела 8.2.1 и проводя затем свертку по независимым переменным в получаемой дополненной ковариационной матрице. Точнее, если
зависимые, а
независимые переменные, то сначала дополненная ковариационная матрица объединенного множества переменных
оценивается с помощью многомерного нормального ЕМ-алгоритма, а затем проводится свертка по
Получаемая матрица содержит МП-оценки матрицы
коэффициентов регрессии
на X и ковариационной матрицы
остатков от регрессии
на X при заданном
Пример 8.5. Пропуски в нескольких зависимых переменных. Теперь мы проиллюстрируем регрессионный анализ с несколькими зависимыми переменными и несколькими предикторами при наличии пропусков (преимущественно в зависимых переменных) на данных о сроках проявления признаков развития на первом году жизни детей [см. Reinisch, Rosenblum, Rubin and Schulzinger (1985)]. В выборке из 4653 здоровых детей содержались данные о датах проявления десяти
признаков развития (например, первая улыбка) и о 9 сопеременных, связанных с развитием ребенка. Пол был зарегистрирован для всех детей, 9 сопеременных — почти для всех детей, но в данных о признаках развития были существенные пробелы, поскольку они регистрировались по дневникам матерей.
МП-оценки средних, дисперсий и корреляций между всеми переменными были получены с помощью ЕМ-алгоритма из раздела 8.2. Затем сверткой матрицы МП-оценок по полу была построена регрессия 10 признаков развития на пол, чтобы получить оценки средних возрастов проявления признака у мальчиков и девочек и оценки различий для этих возрастов между мальчиками и девочками. Стандартные ошибки параметров были вычислены подстановкой МП-оценок параметров в обычные выражения стандартных ошибок для полных данных, взятых с числом наблюдений, равным числу записей о проявлении признаков развития. Другими словами, ОМП средних, дисперсий и ковариаций были введены в стандартную программу регрессионного анализа полных данных при
и было проведено только одно изменение результатов — пересчет стандартных ошибок и статистик критериев на действительное число присутствующих значений зависимой переменной. Эта процедура согласуется с предложением в [Beale and Little (1975)], так как пол присутствует всегда. Результаты даны в табл. 8.2.
Таблица 8.2. (см. скан) Различие между мальчиками и девочками
срокам проявления признаков развития
В правых столбцах табл. 8.2 приведены также результаты анализа с учетом 9 сопеременных. Оценки были получены сверткой матрицы МП-оценок средних, дисперсий и ковариаций по полу и этим 9 сопеременным. Стандартные ошибки вычислялись в соответствии с числом присутствующих значений для каждой зависимой переменной, поскольку сопеременные наблюдались практически полностью.
Последним этапом обработки был регрессионный анализ разностей выходных переменных (т. е. промежутков времени между проявлением признаков развития), взятых в качестве зависимых переменных. Снова использовались при вычислении стандартных ошибок методы регрессии для полных данных, и проводился лишь пересчет на объем выборки зависимой переменной, равнявшийся числу детей с присутствием обоих признаков, составляющих данную переменную. Эти объемы составляли от 1262 для разности между «самостоятельно ходит» и «самостоятельно стоит» до 3524 для разности между «стоит с поддержкой» и «самостоятельно сидит».