Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
10.5. АЛГОРИТМ РОБАСТНОГО МП-ОЦЕНИВАНИЯ10.5.1. ВведениеВ примере 10.3 моделью данных была смесь нормальных распределений с различными средними и равными дисперсиями. Другая модель, особенно полезная в робастном оценивании, — смесь нормальных распределений с равными средними и различными дисперсиями. Рассмотрим выборку подверженную загрязнению, и пусть уобозначает ненаблюдаемую бернуллиевскую случайную величину, так что соответствует «правильной» реализации, а означает, что загрязняющая реализация. Мы предполагаем, что при условии распределен нормально а при нормально где X считается известным. Например, если принято, что загрязнение в 10 раз увеличивает дисперсию, то Результат — загрязненная нормальная модель. МП-оценка среднего занижает веса резко выделяющихся наблюдений, как мы увидим в следующем разделе. Модели такого типа могут быть оценены с помощью ЕМ-алгоритма, в котором рассматриваются как пропущенные данные. Мы представим общую модель смеси для робастного оценивания, которая включает загрязненную нормальную модель как частный случай, а также включает модели, где маргинальное распределение -распределение. В разделе 10.5.2 рассматривается одномерный случай, описанный в [Dempster, Laird and Rubin (1977, 1980)]. Случай многомерной описанный в [Rubin (1983)], рассмотрен в разделе 10.5.3. Раздел 10.5.4 обобщает анализ на многомерную х, при наличии пропусков [Little (1986)]. 10.5.2. Устойчивое оценивание для одномерной выборкиПусть случайная выборка из такой популяции, что
где ненаблюдаемые н.о.р положительные случайные величины с известной плотностью Целью является вычисление МП-оценки параметра с помощью ЕМ-алгоритма, считая значения пропущенными данными. Если бы присутствовали и то МП-оценки получались бы методом взвешенных наименьших квадратов:
где достаточные статистики полных данных, определенные в разделе 7.6. Значит, при «пропусках» итерация ЕМ-алгоритма выглядит следующим образом. Шаг Взять в качестве оценок их условные ожидания при заданных X и текущих оценках Поскольку линейны по шаг сводится к вычислению оценок весов
Шаг Вычислить новые оценки по (10.12) и (10.13) с замененными их оценками на шаге т. е. с замененными на из (10.14). Итак, здесь ЕМ-алгоритм — это разновидность метода наименьших взвешенных квадратов. Конкретный вид оценок весов (10.14) зависит от предполагаемого распределения В [Demster, Laird and Rubin (1977,1980)] обсуждаются две модели, в которых получаются простые веса. Пример 10.4. Одномерная модель нормального распределения с загрязнением. Допустим, что сосредоточена в двух значениях и X, так что
где Тогда маргинальное распределение смесь т. е. мы имеем загрязненную нормальную модель, описанную в разделе 10.5.1, с вероятностью загрязнения Применяя теорему Байеса, получаем
где
Веса для ЕМ-алгоритма получаются при подстановке текущих оценок в (10.17) и использовании (10.16). Обратите внимание, что значения далекие от среднего, имеют большое значение и (при уменьшенный вес на шаге Следовательно, алгоритм ведет к устойчивым оценкам в которых выделяющиеся наблюдения имеют низкий вес. Пример 10.5. МП-оценивание для выборки из -распределения. Вторая модель, рассмотренная в [Dempster, Laird and Rubin (1977, 1980)], задает где имеет гамма-распределение:
Здесь обозначает гамма-функцию. При этом маргинальное распределение есть -распределение Стьюдента со средним параметром масштаба степенями свободы. Таким образом, модель приводит к МП-оцениванию по выборке из -распределения с степенями свободы, известно. Введем где определено в (10.17). Можно легко показать, что при заданном имеет гамма-распределение (10.18), в котором а заменено на Отсюда
Как и в предыдущем примере, веса находят, подставляя текущие оценки параметров в (10.17) и вычисляя (10.19) по найденному значению В (10.19) занижается вес выделяющихся наблюдений со степенью, связанной обратной зависимостью с Последний параметр можно фиксировать на каком-либо подходящем значении (например, 4). Можно также повторно проводить вычисления при различных значениях из целочисленных значений и выбирать то, которое максимизирует логарифм правдоподобия. Совместное оценивание можно также осуществлять за счет некоторого усложнения шага Непосредственным и важным обобщением моделей из примеров 10.4 и 10.5 является моделирование среднего линейной комбинацией предикторов X, дающее алгоритм наименьших взвешенных квадратов для линейной регрессии с ошибками, имеющими загрязненное нормальное или -распределение [Rubin (1983)]. В [Pettitt (1985)] описано МП-оценивание для загрязненной нормальной и -модели, когда значения X группированы и округлены. 10.5.3. Устойчивое оценивание средних и ковариационной матрицы по полным даннымРубин [Rubin (1983)] обобщил модель из раздела 10.5.2 на многомерный случай и применил ее для вывода МП-оценок для многомерных выборок из загрязненного нормального или из -распределения. Пусть вектор значений переменной Допустим, что имеет -мерное нормальное распределение
где ненаблюдаемые положительные случайные скалярные величины с известной плотностью МП-оценки можно найти, если применить ЕМ-алгоритм, считая пропущенными данными. Если бы наблюдались, МП-оценки можно было бы найти по многомерным аналогам (10.12) и (10.13):
где достаточные статистики полных данных. Значит, при отсутствии итерация ЕМ-алгоритма выглядит следующим образом. Шаг Взять в качестве оценок их условные ожидания при заданных X и текущих оценках параметров. Так как и линейны по шаг снова сводится к вычислению оценок весов Шаг Вычислить по (10.21) и (10.22) новые оценки заменив их оценками, полученными на шаге Если распределены по (10.15), маргинальное распределение смесь значит мы получим -мерную нормальную модель с загрязнением. Веса находят следующими обобщениями (10.16) и (10.17):
где теперь квадрат расстояния для объекта:
Модель приписывает низкие веса объектам с большим значением Если, с другой стороны, имеет гамма-распределение, как в (10.18), то маргинальное распределение это многомерное -распределение со средним параметром масштаба степенями свободы. Веса при этом определяются следующим обобщением (10.19):
где по-прежнему равно (10.24). Рубин [Rubin (1983)] рассматривает также обобщение этих моделей для многомерной регрессии. 10.5.4. Устойчивое оценивание среднего и ковариационной матрицы по данным с пропускамиЛиттл [Little (1986)] обобщил эти алгоритмы для ситуаций, когда некоторые значения X отсутствуют. Пусть обозначает множество переменных, наблюденных объекта, множество отсутствующих переменных. Обозначим и Допустим, что 1) распределены согласно (10.20) и 2) отсутствующие данные ОС. МП-оценки и можно найти, применяя ЕМ-алгоритм, в котором отсутствующими данными считаются Шаг такой же, как и при полных X, и описан в предыдущем разделе. На шаге оценивают достаточные статистики полных данных с помощью их условных ожиданий при заданных и текущей оценке параметра Получаем
где компонента равна:
где так как условное среднее х,у при заданных не зависит от Наконец, элемент равен:
где поправки равны нулю, если присутствуют и остаточной ковариации при заданных умноженной на если и х,у, и отсутствуют. Величины находят сверткой текущей оценки так, чтобы являлись предикторными переменными. Вычисления такие же, как и для «нормального» ЕМ-алгоритма (см. раздел 8.2.1). Единственной модификацией, нужной для данного алгоритма, является взвешивание с помощью весов сумм и сумм квадратов и перекрестных произведений, которые затем используются на шаге Веса для загрязненной нормальной и для -модели вычисляются, как и для случая полных данных, по уравнениям (10.23) и (10.25) соответственно, лишь со следующими небольшими изменениями: 1) К заменяют на число наблюдаемых объекта переменных, и 2) квадрат расстояния (10.24) вычисляют только по наблюдаемым объекта переменным. Обе многомерный модели — с загрязненным нормальным и с -распределением — приписывают малые веса объектам с большим расстоянием Распределение весов, однако, как показывает следующий пример, у этих двух моделей различно. Пример 10.6. Распределение весов при многомерных моделях с загрязненным нормальным и с -распределением. Рассмотрим рис. 10.2, где показано распределение весов для а) многомерного -распределения с многомерного -распределения с и в) загрязненного нормального распределения при в случае искусственных данных из многомерного распределения с переменными, наблюдениями, в которых 72 из 320 значений случайно удалены. Обратите внимание, что веса для -распределений при разбросаны шире, чем при а занижение весов в загрязненной нормальной модели проявляется преимущественно на нескольких выделяющихся наблюдениях. Рис. 10.2. (см. скан) Распределение весов для устойчивых МП-оценок, вычисляемых по данным из многомерного -распределения (веса отнормироваиы на единицу) Литтл [Little (1986)] показал в имитационных экспериментах, что оценки для этих моделей могут быть оценками средних, коэффициентов регрессии и корреляций, которые защищены от выбросов, когда данные ненормальны, а потеря эффективности при справедливости нормального распределения невелика. В статье представлена также графическая процедура для оценивания нормальности. 10.5.5. Обобщение моделиОдно из ограничений, наложенных на описание модели, требует равенства масштабного множителя нужного для моделирования хвостов тяжелее нормального, для всех переменных из множества данных. Может оказаться полезным допустить различие масштабных множителей для разных переменных, например, чтобы отразить различие загрязнения переменных. В частности, для устойчивого оценивания регрессии с пропусками в предикторах лучше всего может подойти модель с масштабным множителем только для зависимой переменной. К сожалению, если обобщить модель до различных масштабных множителей у различных переменных, утрачивается простота шага ЕМ-алгоритма для общей структуры пропусков. Несколько исключений, о которых следует сказать, основаны на том факте, что модели можно легко обобщить для работы с набором полностью наблюдаемых сопеременных так, что выражается через многомерную нормальную линейную регрессию на со средним и ковариационной матрицей условно по неизвестному масштабному множителю. Допустим, что данные можно представить в вид» множества с монотонной структурой пропусков, в котором при К блоках переменных наблюдается у всех объектов, у которых присутствует Тогда совместное распределение можно выразить произведением распределений:
как обсуждалось в гл. 6. Тогда условное распределение для этой факторизации можно описывать как многомерное нормальное распределение со средним и ковариационной матрицей где теперь масштабный множитель может принимать различные значения в зависимости от Параметры каждой компоненты правдоподобия оцениваются в рамках рассмотренного обобщения многомерной регрессионной модели. После этого с помощью преобразования, подобного преобразованию, обсуждавшемуся в гл. 6, получают МП-оценки других параметров совместного распределения ЛИТЕРАТУРА(см. скан) ЗАДАЧИ(см. скан) (см. скан)
|
1 |
Оглавление
|