Главная > Статистический анализ данных с пропусками
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

1.7. МНОГОМЕРНЫЕ ДАННЫЕ С ПРОПУСКАМИ. ОБЩИЙ СЛУЧАЙ

Структуры пропусков, описанные в разделах 1.5 и 1.6, одномерны в том смысле, что только в одной переменной есть пропуски. Теперь обсудим многомерные структуры пропусков.

Многие методы многомерного статистического анализа, включая метод наименьших квадратов для поиска регрессии, факторный анализ, дискриминантный анализ, основаны на редукции данных к вектору выборочных средних и выборочной ковариационной матрице. Поэтому важен вопрос оценивания этих величин по неполным данным. В ранее опубликованных работах, частично обсуждаемых в гл. 3, предлагалось решение для частных случаев. Более систематический подход, которому посвящена часть II настоящей книги, основан на функции правдоподобия. Он обсуждается в гл. 5 и применяется во многих ситуациях, рассмотренных в последующих главах.

Пример 1.7. Оценивание среднего и ковариационной матрицы по данным с монотонной структурой. Предположим, данные можно расположить в монотонную структуру. Простейшим подходом будет анализ только комплектных объектов. Этот метод, однако, приводит к большой потере данных. К тому же во многих случаях, включая данные табл. 1.2, комплектные объекты не являются случайным подмножеством исходной выборки, т. е. предположение ОПС не выполняется, и результаты будут смещены. Более разумно предположить, что распределение данных — многомерное нормальное, и оценивать среднее и ковариационную матрицу методом максимального правдоподобия. В гл. 6 мы покажем, что для монотонных данных эта задача не так сложна, как можно думать, поскольку оценивание упрощается при факторизации совместного распределения, как в (1.1), что позволяет найти оценки максимального правдоподобия по последовательности регрессионных задач.

Пример 1.8. Оценивание среднего и ковариационной матрицы для общей структуры пропусков. Во многих наборах данных с пропусками удобная монотонная структура или ее близкая аппроксимация, какая была возможна для данных табл. 1.2, отсутствует. Разработаны методы для оценивания среднего и ковариационной матрицы, применимые для любой структуры пропусков. Как и в предыдущем примере, эти методы часто основаны на методе максимального правдоподобия в условиях многомерной нормальности. Оценивание проводится итеративно.

Подход, основанный на ЕМ-алгоритме (expectation-maximization), развитый в гл. 7, представляет собой общий подход к поиску оценок максимального правдоподобия по неполным данным. Для многомерного нормального случая он описан в гл. 8. В этой ситуации он особенно нагляден, поскольку тесно связан с итеративным вариантом метода заполнения пропусков значениями, полученными по регрессии. Таким образом, даже в этой сложной задаче можно установить связь между эффективными теоретически обоснованными методами и более традиционными прагматическими подходами с заполнением пропусков подходящими значениями. В гл. 8 представлены также малоизвестные способы применения ЕМ-алгоритма в таких областях, как компонентный дисперсионный анализ, факторный анализ, временные ряды. Эти задачи рассмотрены как задачи анализа неполных данных из многомерного распределения со средним и ковариационной матрицей определенного вида.

Пример 1.9. Оценивание при наличии категориальных признаков. Редукция данных к среднему и ковариационной матрице для категориальных признаков в общем случае неприемлема. Данные можно расположить в частично классифицированной таблице сопряженности, как в примере 1.1. Методы анализа таких данных обсуждаются в гл. 9.

В гл. 10 рассматриваются многомерные данные, когда некоторые признаки непрерывные, а остальные — категориальные. Проблема, описываемая обычно по-иному, — оценивание конечных смесей распределений, также рассматривается как задача анализа данных с пропусками.

Пример 1.10. Оценивание, когда предположение ОС о пропусках может не выполняться. По существу, во всех работах по анализу многомерных данных с пропусками предполагается, что данные ОС, а во многих из них — что данные к тому же и ПС. В гл. 11 в явном виде рассматривается случай, когда предположение ОС неверно. Последняя глава посвящена подходу к обработке пропусков при выборочных обследованиях, основанному на применении функции правдоподобия. В ней обсуждаются ситуации, когда это предположение выполняется и когда оно не выполняется.

ЛИТЕРАТУРА

(см. скан)

ЗАДАЧИ

(см. скан)

(см. скан)

Categories

1
Оглавление
email@scask.ru