Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

10.2. ОБЩАЯ МОДЕЛЬ ПОЛОЖЕНИЯ

10.2.1. Модель и оценки для полных данных

Допустим, что гипотетические полные данные представляют собой случайную выборку объема по К непрерывным переменным категориальным переменным Категориальная переменная имеет уровней, так что категориальные переменные задают -факторную таблицу сопряженности с ячейками. Обозначим через вектор непрерывных переменных, а через —вектор категориальных переменных объекта. По построим -вектор равный если объект относится к ячейке таблицы сопряженности, где — вектор элементом, равным 1, и остальными элементами, равными нулю.

Олкин и Тэйт [Olkin and Tate (1961)] определяют общую модель положения для распределения в терминах маргинального распределения и условного распределения при заданном

в. с вероятностями ячеек

2) при заданном

К-мерное нормальное распределение со средним ковариационной матрицей Обозначим вектор вероятностей в ячейках и матрицу средних в ячейках. Модель содержит параметров

Следует упомянуть следующие свойства модели: 1) ковариационная матрица предполагается одинаковой во всех ячейках таблицы сопряженности; 2) если какая-то бинарная переменная, скажем со значениями и 1 выбрана в качестве зависимой переменной, то получится модель логистической регрессии. Это значит, что условное распределение при постоянных значениях других переменных — бернуллиевское с где линейна по остальным переменным; 3) если в качестве зависимой выбрана какая-то непрерывная переменная, то получается нормальная регрессионная модель, т.е. условное распределение при фиксации значений других переменных нормально со средним, являющимся линейной комбинацией других переменных и константы.

Свойства 2 и 3 означают, что МП-оценки для данной модели логистической регрессии с пропусками и для данной модели линейной регрессии с пропусками в непрерывных и категориальных предикторах можно найти, вычисляя МП-оценки и преобразуя их к виду, дающему параметры соответствующего условного распределения. Преобразования легко провести с помощью оператора свертки, как это делается в разделе 10.2.3.

Логарифм правдоподобия для этой модели равен:

где компонента след матрицы,

Максимизация (10.1) приводит к для полных данных

которые являются просто наблюденными относительными частотами в ячейках, средними в ячейках и объединенной ковариационной матрицей X внутри ячеек соответственно.

10.2.2. МП-оценивание при пропусках

Теперь допустим, что некоторые значения в X и в отсутствуют. Пусть вектор присутствующих непрерывных переменных объекта, вектор пропущенных непрерывных переменных, множество ячеек, в которых может находиться объект при присутствующем наборе категориальных переменных. Рассмотрим ЕМ-алгоритм для МП-оценивания по данным

Плотность (10.1) относится к регулярному экспоненциальному семейству с достаточными статистиками полных данных являющимися соответственно суммой квадратов и взаимных произведений в X, суммами X в ячейках и частотами в ячейках. Следовательно, мы можем применить упрощенную форму ЕМ-алгоритма из раздела 7.6. На итерации на шаге вычисляют ожидаемые значения достаточных статистик при заданных и текущих оценках параметров Для каждого объекта вычисляют:

Шаг Е:

Шаг Е подробно рассмотрен в разделе 10.2.3. На шаге вычисляют МП-оценки (10.2), где достаточные статистики полных данных заменены на их оценки на шаге Е.

Шаг М:

где диагональная матрица с ненулевыми элементами После этого снова проводят вычисления на шаге по (10.3)-(10.5) с новыми оценками параметров, и циклы продолжаются, пока процедура не сойдется.

Таблица 10.1. (см. скан) Данные для примера 10.1

Пример 10.1. Данные для исследования групп риска. В [Little and Schluchter(1985)] анализируются данные исследовательского проекта St. Louis Risk Research Project, приведенные в табл. 10.1. Одна из целей исследования состояла в том, чтобы оценить влияние психических расстройств родителей на различные стороны развития их детей. В предварительном исследовании были собраны данные семьях с двумя детьми. Семьи классифицировались по группе риска родителей по следующим категориям:

1) - контрольная группа нормальных семей из местного населения;

2) - группа умеренного риска, где один из родителей болен вторичной шизофренией или страдает другим психиатрическим заболеванием или где один из родителей имеет непсихиатрическое хроническое заболевание;

3) - группа высокого риска, где один из родителей болен шизофренией или страдает сильными психическими расстройствами.

В табл. 10.1 приводятся также данные по двум другим категориальным переменным: число симптомов у первого, второго ребенка (1 — мало, 2 — много). Значит, всего есть категориальные переменные, образующие таблицу сопряженности ячейками. Есть также непрерывные переменные и где стандартизованные коэффициенты индекса развития навыков чтения и речи ребенка в семье, Переменная наблюдается всегда, но остальные переменные имеют пропуски в самых разных сочетаниях.

Анализ структур пропусков показывает, что все параметры общей модели положения поддаются оцениванию, несмотря на множество пробелов в матрице данных. Например, хотя не присутствует в полностью классифицированной таблице при есть пять других семей с известным значением которые могли оказаться в этой ячейке. Эти наблюдения содержат информацию, по которой можно оценить среднее в этой ячейке.

В табл. 10.2 (модель А) показаны МП-оценки, вычисленные по ЕМ-алгоритму для модели без ограничений. Соответствующий максимум логарифма правдоподобия равен 872,73. Было найдено несколько локальных максимумов правдоподобия, возможно, в связи с относительно высокой долей пропусков в категориальных переменных и и требовалось до 50 итераций в зависимости от начальных значений, чтобы логарифм правдоподобия сходился к максимуму с точностью до двух десятичных знаков. Между средними в некоторых ячейках, соответствующими различным максимумам правдоподобия, были обнаружены существенные отличия. Подробности указаны в [Little and Schluchter (1985)]. Эти обстоятельства показывают, что выводы надо делать аккуратно, так как данных недостаточно для того, чтобы обеспечить соответствие с предположением об асимптотической нормальности.

Таблица 10.2. (см. скан) МП-оценки по данным табл. 10.1

10.2.3. Вычисления на шаге Е

Опишем теперь более подробно, как по уравнениям (10.3)-(10.5) вычисляются величины Все параметры в нижеследующих выражениях равны текущей оценке параметра При вычислении находят для каждого объекта компоненту этого вектора будем обозначать Таким образом, для условная апостериорная вероятность, что объект относится к ячейке при заданных наблюденных непрерывных переменных т. е. информация о том, что объект относится к одной из ячеек из Эта вероятность положительна, если причем она имеет вид

где

и среднее и ковариационная матрица в ячейке непрерывных переменных присутствующих объекта.

Теперь обозначим непрерывные переменные для объекта через Если пропущен, обозначим через прогноз значения по регрессии в ячейке на при Элемент в строке и столбце для получается при умножении х,у или его оценки на условную апостериорную вероятность, что объект относится к ячейке:

Обозначим для отсутствующих через условную ковариацию и при заданных и условии Тогда элемент для равен:

Вычисления удобно проводить с помощью оператора свертки, описанного в разделе 6.5. Рассмотрим матрицу

где диагональная матрица диагональным элементом, равным и где

текущие оценки разделенные в соответствии с присутствующими и отсутствующими переменными объекта. Проводя свертку по элементам соответствующим присутствующим X, получаем

где коэффициенты регрессии пропущенного содержит остаточные дисперсии и ковариации для дает коэффициенты для в линейной дискриминантной функции (10.8), а диагональный элемент равен сумме второго и третьего членов в правой стороне (10.8). Таким образом, вместе с дают линейную дискриминантную функцию следовательно, как и в (10.7). Значительный выигрыш в вычислениях можно получить, группируя объекты с одинаковой структурой пропусков в X, чтобы избежать ненужной повторной свертки.

1
Оглавление
email@scask.ru