Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

6.2. ДВУМЕРНЫЕ НОРМАЛЬНЫЕ ДАННЫЕ С ПРОПУСКАМИ В ОДНОЙ ПЕРЕМЕННОЙ: МП-ОЦЕНИВАНИЕ

Впервые факторизация правдоподобия была предложена Андерсоном [см. Anderson (1957)] для нормальных данных, вид которых описан в примере 5.15.

Пример 6.1. Двумерная выборка с пропусками в одной переменной (продолжение примера 5.15). Логарифм правдоподобия для двумерной нормальной выборки с полными двумерными наблюдениями одномерными наблюдениями определен в (5.16). ОМП можно найти, максимизируя это выражение по и Однако уравнения максимального правдоподобия не имеют явного решения. Андерсон разложил совместное распределение на маргинальное распределение и условное распределение при заданном

где, согласно свойствам двумерного нормального распределения, рассмотренным в Примере нормальное распределение со средним и дисперсией нормальное распределение со средним

и дисперсией Параметр

является взаимнооднозначной функцией исходного параметра

совместного распределения В частности, и присутствуют при обоих способах параметризации, а другие компоненты определяются следующими функциями от компонент в:

Аналогично компоненты в, отличные от и можно выразить через функции компонент

Плотность данных факторизуется следующим образом:

Первый фактор в скобках в (6.6) — плотность выборки из независимых наблюдений из нормального распределения со средним и дисперсией Второй фактор — плотность для наблюдений из условного нормального распределения со средним и дисперсией Далее, если параметрическое пространство в обычное и априорно никак не ограничено, то раздельны, так как значение не дает никакой информации Следовательно, МП-оценку можно получить, независимо максимизируя правдоподобия, соответствующие этим двум компонентам.

Максимизация первого фактора дает

и

т. е. выборочные среднее и дисперсию наблюдений

Максимизация второго фактора проводится с использованием стандартных результатов для регрессии (см. пример 5.9) и дает

где для

Теперь, используя свойства 5.1, можно получить ОМП других параметров. В частности,

из выражения (6.5) или

из (6.7) и (6.8). Из (6.5)

или из (6.7) и (6.8)

Наконец, для корреляции из (6.5) следует

так что из (6.7) и (6.8) имеем

Первые члены в правой стороне (6.3), (6.10) и (6.11) — ОМП и q по выборке, из которой удалены неполных наблюдений. Значит, вторые слагаемые представляют поправки, основанные на дополнительной информации, содержащейся в неполных наблюдениях.

Пример 6.2. Численная иллюстрация результатов из примера 6.1. В табл. 6.1 в первых наблюдениях зарегистрирован сбор яблок с дерева в сотнях плодов и процент червивых яблок, умноженный на В этих наблюдениях просматривается отрицательная зависимость между урожаем и процентом червивых яблок. Допустим, что наша цель — оценить среднее причем для некоторых деревьев с малым сбором, занесенных в таблицу под номерами от 13 до 18, значение неизвестно. Выборочное среднее, заниженная оценка процента червивых яблок, поскольку следует ожидать более высокого процента червивых плодов у последних шести деревьев, так как эти деревья в целом меньше (т. е. данные, видимо, ОС, но скорее всего, не ОПС). МП-оценка равна в то время как оценка по полным наблюдениям Проведенные вычисления — всего лишь численная иллюстрация. При серьезном анализе этих данных следует рассмотреть такие вопросы, как, например, преобразование и (логарифмирование, извлечение квадратного корня), чтобы предположение о нормальности больше соответствовало данным.

Таблица 6. 1. (см. скан) Данные об урожае яблок и доля червивых плодов 0,2)

ОМП (6.9) среднего представляет особый интерес. Ее можно записать в виде

где

Следовательно, это вид регрессионной оценки, обычно используемой в выборочных обследованиях [см., например, Cochran (1977)], в которой вместо пропущенных фактически подставляются значения предсказанные линейной регрессией на вычисленной по полным наблюдениям.

Categories

1
Оглавление
email@scask.ru