6.6. ФАКТОРИЗАЦИЯ ДЛЯ НЕМОНОТОННЫХ СТРУКТУР СПЕЦИАЛЬНОГО ВИДА
Немонотонные структуры неполных данных, для которых можно факторизовать правдоподобие, рассмотрены в [Anderson (1957)], где каждый фактор был правдоподобием для полных нормальных данных, и в общей форме — в [Rubin (1974)]. Типичный случай изображен на рис. 6.2, взятом с изменениями из [Rubin (1974)]. Переменные размещены в трех блоках
таких, что:
1)
наблюдается больше
т. е. для любого объекта, в котором
наблюдается по крайней мере частично,
наблюдается полностью;
2)
никогда не наблюдаются вместе, т. е. для любого объекта, в котором
наблюдается по крайней мере частично,
полностью отсутствует, и наоборот;
3) строки
условно независимы, набор параметров распределения один и тот же.
Если опустить
а взять скалярные
то структура рис. 6.2 сведется к двумерным монотонным данным. При условда ОС логарифм правдоподобия распадается на два слагаемых: первое соответствует маргинальному распределению
с параметром
и строится по всем объектам, второе — условному распределению У! при фиксированном
с параметром
и строится по объектам с полностью наблюдаемым
Доказательство этого результата, включающего факторизацию для монотонных данных, приводится в [Rubin (1974), § 2].
Параметры
часто раздельны, поскольку
можно перепараметризовать через
(обозначения не требуют пояснений) и параметры
раздельны во многих моделях. Важный аспект этого примера в том, что
не обеспечивают полную перепараметризацию параметров совместного распределения
так как параметры условной зависимости между
при фиксированном
(например, частная корреляция) отсутствуют. Эти параметры не входят в правдоподобие и не поддаются оцениванию по таким данным.
Рубин [Rubin (1974)] показал, как, повторно проводя редукцию данных структуры на рис. 6.2, факторизовать правдоподобие настолько полно, насколько это возможно. Хотя в общем случае не все получаемые факторы можно анализировать, независимо применяя методы для полных данных, мы проиллюстрируем основные иден на двух примерах, которые сводятся к задачам для полных данных.
Пример 6.9. Нормальное трехмерное распределение. Лорд [Lord (1965)] и Андерсон [Anderson (1957)] рассматривают трехмерную нормальную выборку со структурой, как на рис. 6.2, где
одномерные, полных наблюдений нет, по
есть
наблюдений, по
наблюдений,
В предположении, что данные ОС, правдоподобие факторизуется на три компоненты:
наблюдений из маргинального нормального распределения
с параметрами
наблюдений из условного распределения У, при заданном
со свободным членом
коэффициентом регрессии
и дисперсией
наблюдений из условного распределения
при заданном
со свободным членом
коэффициентом
и дисперсией
Эти три компоненты содержат 8 раздельных параметров, в то время как исходное совместное распределение
включало 9 параметров, а именно 3 средних, 3 дисперсии и 3 ковариации.
Рис. 6.2. Структура данных, при которой
наблюдается больше, чем
совместно не наблюдаются
Параметр, который пропал после перепараметризации, — это частный (условный) коэффициент корреляции между
при заданном
информация о котором отсутствует в данных. Данные рассматриваемой структуры встречаются нередко. С такой структурой, когда У, многомерны, сталкиваются при решении
проблемы файлового подбора (file matching), возникающей при объединении больших правительственных баз данных. Например, пусть мы имеем один файл, представляющий случайную выборку записей Internal Revenue Service, IRS (с удаленными идентификаторами объектов), и другой файл, представляющий случайную выборку записей Social Security Administration, SSA (также с удаленными идентификаторами). Файл
содержит подробную информацию о доходе
и общие данные
тогда как файл SSA содержит подробную информацию о местах работы
и такую же общую информацию
Объединенный файл можно считать выборкой, в которой
присутствует для всех объектов, а
вместе не наблюдаются. Для обозначения подобной ситуации взят термин «файловый подбор», так как часто пытаются заполнить отсутствующие значения
подбирая и связывая в файле объекты по значению
с заменой пропусков значениями для связанных объектов. Такие задачи обсуждаются в [Rubin (1986)].
Пример. 6.10. Данные об образовании. В задачах проверки уровня образования типа описанных в [Rubin and Thayer (1978)] обычна ситуация, когда нужно оценить несколько разных тестов по различным случайным выборкам из одной популяции. Пусть, например,
представляет
стандартных тестов, проведенных с объектами всех выборок. Допустим, что новый тест У, проведен в первой выборке с
объектами, новый тест
во второй выборке с
объектами и так далее до
причем в выборках нет общих объектов. Вследствие случайности выбора отсутствующие значения У ОПС. На рис. 6.3 изображена ситуация, когда
являющаяся небольшим обобщением структуры из примера 6.9.
В строгом смысле коэффициенты частной корреляции между различными
при заданном X нельзя оценить, поскольку в данных нет информации об их значении. Простые коэффициенты корреляции между
часто более интересны при проверке уровня образования. Хотя МП-оценки этих коэффициентов не единственны, в данных содержится информация об их значении.
Непосредственные алгебраические вычисления показывают, что корреляция между
зависит от частной корреляции между
но не от частных корреляций между другими парами переменных. При увеличении частной корреляции между
увеличивается простая корреляция этой пары, более того, эта зависимость линейна. Значит, оценив корреляцию при двух различных значениях частной корреляции (например,
и 1), можно оценивать корреляцию при любом значении частной корреляции с
Рис. 6.3. (см. скан) Структура данных при трех новых тестах (1— значение присутствует, 0 - отсутствует)
помощью линейной интерполяции (или экстраполяции, в зависимости от выбранных значений). На рис. 6.4. изображен график оценки коэффициента корреляции как функции частной корреляции для данных
Службы проверки уровня образования (Education Tfesting Service) со структурой, как на рис. 6.3 при
и двумерном X [см. Rubin and Thayer (1978)].
Как и при монотонных нормальных данных, SWEEP-оператор очень полезен при записи и в
Рис. 6.4. Простые корреляции как функции частных корреляций [Rubin and Thayer (1978)].
вычислениях для этого рисунка. Вычисления можно описать так.
Шаг 1. Найдите МП-оценки параметров маргинального распределения
и Это просто выборочные средние и ковариационная матрица для всех
наблюдений,
и Этот шаг дает
и
Шаг 2. Найдите МП-оценки
коэффициентов регрессии и остаточной дисперсии для регрессии
на
Их можно получить, проводя свертку по переменным X дополненной ковариационной матрицы
, вычисленной по
наблюдениям, в которых присутствуют и
и
На этом шаге получаем
.
Шаг 3. Найдите МП-оценки
и
коэффициентов регрессии и остаточной дисперсии для регрессии
на
Их можно получить, проводя свертку по переменным
дополненной ковариационной матрицы
, вычисленной по
наблюдениям, в которых присутствуют
На этом шаге находим
и
Шаг 4. Найдите МП-оценки
коэффициентов регрессии и остаточной дисперсии для регрессии
на
Их можно получить, проводя свертку по переменным X дополненной ковариационной матрицы
и X, вычисленной по
наблюдениям, в которых присутствуют и
Этот шаг дает
и
Шаг 5. Приравняйте нулю все коэффициенты частной корреляции, не поддающиеся оценке. Найдите (единственную) МП-оценку вектора средних
и ковариационной матрицы
всех переменных следующим образом:
где нулевые индексы в левой части (6.23) обозначают оценки, условные по нулевой частной корреляции. Шаг 5 позволяет получить
,
Шаг 6. Приравняйте единице все коэффициенты частной корреляции, не поддающиеся оцениванию. Найдите соответствующие МП-оценки:
Эти оценки можно получить, замещая нижнюю правую
-подматрицу в правой стороне (6.23) на
Получаем те же значения и
но оценки остальных параметров другие. В частности, оценки корреляций между переменными
равны 0,999, 0,996, 0,990. На шаге 5 соответствующие оценки равнялись 0,50, 0,54 и 0,52.
Проводя линейную интерполяцию между значениями корреляций на 5-м и 6-м шагах, получаем рис. 6.4. В [Rubin and Thayer
-рассмотрены и другие параметры, например коэффициент множественной корреляции. В общем случае они не линейны по (неоцениваемым) частным корреляциям, но также легко вычисляются.
ЛИТЕРАТУРА
(см. скан)
(см. скан)
ЗАДАЧИ
(см. скан)