Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

Глава 9. АНАЛИЗ ЧАСТИЧНО КЛАССИФИЦИРОВАННЫХ ТАБЛИЦ СОПРЯЖЕННОСТИ БЕЗ УЧЕТА МЕХАНИЗМА ПОРОЖДЕНИЯ ПРОПУСКОВ

9.1. ВВЕДЕНИЕ

Эта глава посвящена анализу неполных данных для категориальных переменных. Хотя категории могут быть образованы путем разбиения интервальной шкалы, упорядоченность категорий переменной такого вида или другой порядковой переменной здесь не учитывается. Методы обработки категориальных данных с учетом упорядоченности категорий, разработанные недавно [(см., например, [Goodman (1979); McCullagh (1980)]), можно обобщить на случай неполных данных с помощью теории правдоподобия, описанной в гл. 6 и 7.

Прямоугольную матрицу данных, состоящую из наблюдений по V категориальным переменным можно преобразовать в мерную таблицу сопряженности с ячейками, определяемыми совокупностью категорий переменных. Элементами этой таблицы являются целые числа где число наблюдений в ячейке с Если матрица данных содержит пропуски, то некоторые из наблюдений в описанной таблице сопряженности классифицированы частично. Полностью классифицированные наблюдения образуют мерную таблицу частот а частично классифицированные — дополнительные маргинальные подтаблицы, определяемые подмножеством наблюдаемых переменных из множества Например, первые восемь строк табл. 1.16 представляют полные наблюдения в пятимерной таблице сопряженности с переменными: пол, возрастные группы и наличие ожирения в три различных момента времени. Остальные восемнадцать строк содержат данные для шести частично классифицированных таблиц с отсутствием одной или двух переменных о наличии ожирения. Мы будем обсуждать МП-оценивание по данным такого вида.

В следующем разделе факторизация правдоподобия, аналогичная факторизации, описанной для нормального случая в гл. 6, применяется к неполным категориальным данным со специальной структурой частного. В разделе 9.3 обсуждается МП-оценивание для общих структур с помощью ЕМ-алгоритма. В разделе 9.4 рассматривается МП-оценивание по частично классифицированным данным, когда вероятности классификации определяются логлинейной моделью. Обсуждение моделей с неигнорируемыми пропусками отложено до гл. 11.

Более общий вид неполные данные будут иметь, когда категория определенного признака, например неизвестна, но зато известно, что наблюдению соответствует одно из подмножеств значений . Если У, отсутствует полностью, то состоит из всех возможных значений Если отсутствует, но записано значение в менее подробной кодировке то будет соответствующим подмножеством значений . Пример таких данных, где возможна и точная, и грубая классификация, приведены в разделе 9.2.

Проблемы данных с пропусками, обсуждаемые здесь, нельзя ни в коем случае смешивать с задачей о структурных нулях, где определенные ячейки содержат нулевые частоты, поскольку в модели принимается, что вероятности появления наблюдений в этих ячейках равны нулю. Например, если год рождения, а год первого брака и браки до 10 лет запрещены, то клетки, в которых структурные нули совместного распределения Отсутствие данных в ячейках (нулевые частоты) не рассматривается здесь как пропуски. Обсуждение проблемы структурных нулей см. в [Bishop, Fienberg and Holland (1975), гл. 5].

1
Оглавление
email@scask.ru