Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.4. МЕТОД ОДНОВРЕМЕННОЙ МАКСИМИЗАЦИИ ПО ПАРАМЕТРАМ И ПРОПУЩЕННЫМ ЗНАЧЕНИЯМ

5.4.1. Описание метода

В литературе часто рассматривается другой подход к обработке неполных данных, при котором пропущенные значения рассматриваются как параметры и проводится одновременная максимизация правдоподобия для полных данных по параметрам и пропущенным значениям. Точнее, пусть

интерпретируется как функция от при фиксированном и оценку в получают, максимизируя по и по Если пропущенные данные не ОС или и не раздельны, то в надо было бы оценивать, максимизируя

Несмотря на пригодность для некоторых задач, этот подход неприемлем для анализа неполных данных в общем случае.

В частности, Литтл и Рубин [Little and Rubin (1983)] показали, что он не обладает оптимальными свойствами, присущими МП-оцениванию, за исключением тривиальной асимптотики, когда доля пропусков с увеличением объема выборки стремится к нулю.

5.4.2. Некоторые сведения о методе

Классический пример рассматриваемого подхода — обработка отсутствующих значений при дисперсионном анализе, где отсутствующие выходные переменные интерпретируются как параметры и оцениваются вместе с параметрами модели, чтобы в процессе анализа можно было использовать эффективные с вычислительной точки зрения методы (см. гл. 2). Сравнительно недавно этот подход предлагался в [DeGroot and Goel (1980)] как один из возможных способов анализа смешанной двумерной нормальной выборки, где отсутствующими данными являются индексы, по которым связываются в пары значения двух переменных, причем все парные комбинации предполагаются равновероятными. Пресс и Скотт [Press and Scott (1976)] описывают байесовский анализ неполной многомерной нормальной выборки, который эквивалентен максимизации в (5.17) по (в, Vmis). Бокс и его коллеги [Box, Draper and Hunter (1970)], а также Бард [Bard (1974)] предлагали этот же подход в более общей постановке: вектор средних многомерного нормального распределения подчинялся уравнению регрессии.

Формально истинным правдоподобием от в, основанным на наблюденных данных при выполнении условия ОС является определенное в (5.10). Функция не является правдоподобием, поскольку в ее аргументы входят случайные величины имеющие согласно модели некоторое распределение, и их, следовательно, нельзя рассматривать как фиксированные параметры. С этой точки зрения метод максимизации по в и по не является методом максимального правдоподобия.

Рассматривая в и как параметры, сталкиваются с такой серьезной проблемой, как увеличение числа параметров с ростом числа наблюдений. Максимизация обеспечивает оптимальные свойства, присущие МП-оценкам, лишь когда доля пропусков стремится к нулю с ростом объема выборки. Параметр в, напротив, не зависит от объема данных, и поэтому, грубо говоря, имеют место обычные асимптотики при максимизации если количество информации увеличивается с объемом выборки. Указанный недостаток интерпретации как параметров хорошо иллюстрируется в простых примерах, приведенных в следующем разделе.

5.4.3. Примеры

Пример 5.16. Одномерная нормальная выборка с пропусками. Допустим, что состоит из реализаций нормальной случайной величины со средним и дисперсией представляет наблюденных значений, представляет отсутствующих значений, для которых верно ОС. Параметр предполагается раздельным с параметрами механизма пропусков. Тогда

откуда следует, что Значит, идентично правдоподобию для выборки объема без пропусков из нормального распределения. Согласно примеру 5.7 максимизация по ведет к ОМП

С другой стороны,

Это выражение надо максимизировать по в и по Максимизируя второй фактор в (5.21) по получаем решение:

где максимизирующее значение Из примера 5.1 следует, что решениями для и будут:

Подставляя (5.22) в (5.23) и сравнивая результат с (5.20), находим

Таким образом, мы получили МП-оценку среднего, но оценкой дисперсии стала ОМП, умноженная на долю присутствующих

значений. Если доля пропусков существенна (например, ), то оценка дисперсии сильно смещена, и при это смещение сохраняется, если только не выполняется асимптотика Более естественные асимптотики сохранили бы фиксированное значение при увеличении объема выборки.

Пример 5.17. Допустим, мы добавили в предыдущий пример множество значений сопеременной X, присутствующих во всех наблюдениях. Предположим, что значение У в наблюдении при значении сопеременной распределено нормально со средним и дисперсией Обозначим Для того чтобы получать оценки максимального правдоподобия максимизирующие можно применить метод наименьших квадратов к комплектным наблюдениям. Оценки получаемые при максимизации совпадают с ОМП, однако, как и в примере 5.16, оценкой дисперсии становится МП-оценка, умноженная на долю присутствующих значений.

Пример 5.18. Экспоненциальная выборка с цензурированными значениями. В примерах 5.16 и 5.17 оценивание с помощью максимизации по крайней мере приводило к разумным оценкам параметров положения, хотя оценки параметров масштаба требовали поправок. Тем не менее можно привести примеры, когда сильно смещены и оценки параметров положения. Рассмотрим, как в примере 5.14, цензурированную выборку из экспоненциального распределения со средним в, где представляет присутствующих значений, находящихся левее точки цензурирования представляет отсутствующих (цензурированных) значений, превышающих с. ОМП в — это Максимизация в (5.18) по в и по (положим равным нулю) приводит к тому, что цензурированные значения У оцениваются величиной с, а оценкой в является Итак, в этом случае оценка среднего несостоятельна, если только доля пропусков не стремится к нулю при увеличении объема выборки.

Как показано в [Press and Scott (1976); Little and Rubin (1983)], смещенные оценки параметра положения могут получаться при максимизации и в задачах, связанных с нормальным распределением.

ЛИТЕРАТУРА

(см. скан)

ЗАДАЧИ

(см. скан)

(см. скан)

1
Оглавление
email@scask.ru