Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

6.2. ДВУМЕРНЫЕ НОРМАЛЬНЫЕ ДАННЫЕ С ПРОПУСКАМИ В ОДНОЙ ПЕРЕМЕННОЙ: МП-ОЦЕНИВАНИЕ

Впервые факторизация правдоподобия была предложена Андерсоном [см. Anderson (1957)] для нормальных данных, вид которых описан в примере 5.15.

Пример 6.1. Двумерная выборка с пропусками в одной переменной (продолжение примера 5.15). Логарифм правдоподобия для двумерной нормальной выборки с полными двумерными наблюдениями одномерными наблюдениями определен в (5.16). ОМП можно найти, максимизируя это выражение по и Однако уравнения максимального правдоподобия не имеют явного решения. Андерсон разложил совместное распределение на маргинальное распределение и условное распределение при заданном

где, согласно свойствам двумерного нормального распределения, рассмотренным в Примере нормальное распределение со средним и дисперсией нормальное распределение со средним

и дисперсией Параметр

является взаимнооднозначной функцией исходного параметра

совместного распределения В частности, и присутствуют при обоих способах параметризации, а другие компоненты определяются следующими функциями от компонент в:

Аналогично компоненты в, отличные от и можно выразить через функции компонент

Плотность данных факторизуется следующим образом:

Первый фактор в скобках в (6.6) — плотность выборки из независимых наблюдений из нормального распределения со средним и дисперсией Второй фактор — плотность для наблюдений из условного нормального распределения со средним и дисперсией Далее, если параметрическое пространство в обычное и априорно никак не ограничено, то раздельны, так как значение не дает никакой информации Следовательно, МП-оценку можно получить, независимо максимизируя правдоподобия, соответствующие этим двум компонентам.

Максимизация первого фактора дает

и

т. е. выборочные среднее и дисперсию наблюдений

Максимизация второго фактора проводится с использованием стандартных результатов для регрессии (см. пример 5.9) и дает

где для

Теперь, используя свойства 5.1, можно получить ОМП других параметров. В частности,

из выражения (6.5) или

из (6.7) и (6.8). Из (6.5)

или из (6.7) и (6.8)

Наконец, для корреляции из (6.5) следует

так что из (6.7) и (6.8) имеем

Первые члены в правой стороне (6.3), (6.10) и (6.11) — ОМП и q по выборке, из которой удалены неполных наблюдений. Значит, вторые слагаемые представляют поправки, основанные на дополнительной информации, содержащейся в неполных наблюдениях.

Пример 6.2. Численная иллюстрация результатов из примера 6.1. В табл. 6.1 в первых наблюдениях зарегистрирован сбор яблок с дерева в сотнях плодов и процент червивых яблок, умноженный на В этих наблюдениях просматривается отрицательная зависимость между урожаем и процентом червивых яблок. Допустим, что наша цель — оценить среднее причем для некоторых деревьев с малым сбором, занесенных в таблицу под номерами от 13 до 18, значение неизвестно. Выборочное среднее, заниженная оценка процента червивых яблок, поскольку следует ожидать более высокого процента червивых плодов у последних шести деревьев, так как эти деревья в целом меньше (т. е. данные, видимо, ОС, но скорее всего, не ОПС). МП-оценка равна в то время как оценка по полным наблюдениям Проведенные вычисления — всего лишь численная иллюстрация. При серьезном анализе этих данных следует рассмотреть такие вопросы, как, например, преобразование и (логарифмирование, извлечение квадратного корня), чтобы предположение о нормальности больше соответствовало данным.

Таблица 6. 1. (см. скан) Данные об урожае яблок и доля червивых плодов 0,2)

ОМП (6.9) среднего представляет особый интерес. Ее можно записать в виде

где

Следовательно, это вид регрессионной оценки, обычно используемой в выборочных обследованиях [см., например, Cochran (1977)], в которой вместо пропущенных фактически подставляются значения предсказанные линейной регрессией на вычисленной по полным наблюдениям.

1
Оглавление
email@scask.ru