Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

Часть I. АНАЛИЗ ДАННЫХ С ПРОПУСКАМИ: ОБЗОР

Глава I. ВВЕДЕНИЕ

Большинство прикладных статистических методов предназначено для анализа прямоугольных таблиц данных. Строкам таблицы данных соответствуют объекты, называемые также наблюдениями, случаями и т. д. в зависимости от контекста, столбцы представляют переменные (признаки), измеряемые для каждого объекта. Элементами таблицы являются действительные числа — значения непрерывных (например, возраст или размер дохода) или дискретных переменных. Дискретные (категориальные) признаки могут быть упорядоченными (например, образование) или неупорядоченными (раса, пол). Настоящая книга посвящена анализу данных в тех случаях, когда в таблице часть значений переменных отсутствует. Например, часть респондентов (опрашиваемых), участвующих в обследовании семей, может отказаться сообщить размер дохода. В промышленном эксперименте некоторые результаты могут отсутствовать вследствие поломок оборудования, не связанных с экспериментальным процессом. При опросе общественного мнения часть опрашиваемых, возможно, не окажет предпочтения одному кандидату перед другими. В первых двух примерах естественно рассматривать ненаблюдаемые значения как утерянные («пропущенные»). Таким пропускам соответствуют истинные значения, которые были бы получены при более совершенных методах обследования или более высоком качестве оборудования. Однако в третьем примере менее правдоподобно, что за отсутствием ответа кроется предпочтение определенному кандидату, поэтому рассматривать отсутствующие значения как пропуски менее естественно. Скорее, отсутствие ответа — это дополнительная точка выборочного пространства измеряемой переменной, которая определяет часть популяции (генеральной совокупности), не имеющую предпочтений.

В большинстве пакетов программ по статистическому анализу допускается выделение отсутствующих элементов в таблице данных с помощью определенного кода (кодов). Для выделения отсутствующих элементов различною вида могут потребоваться несколько кодов, например «не знаю», «отказ отвечать», «недопустимый

ответ». В статистических пакетах объекты, имеющие код пропуска хотя бы по одной из анализируемых переменных, обычно исключаются. Такая стратегия в общем случае неприемлема, поскольку обычно интересны выводы относительно всей исследуемой популяции, а не той ее части, для которой получены значения всех анализируемых переменных. Нашей целью является описание методов, приемлемых в более общем случае. Некоторые из них уже вошли в состав пакетов (например, программа BMDPAM, Dixon, 1983), а многие другие, скорее всего, будут включены в ближайшее время.

Пример 1.1. Отсутствие значений бинарной переменной, измеряемой трижды в различные моменты времени. Вулсон и Кларк [см. Woolson and Clarke, 1984] анализируют данные долговременного исследования факторов риска для сердечных заболеваний у школьников. В табл. 1.1а представлены структуры пропусков в таблице данных. Значения пяти переменных (пол, возраст и наличие ожирения в каждом из трех обследований — в 1977, 1979 и 1981 гг.) были зарегистрированы у 4856 школьников: пол и возраст полностью, а данные по ожирению не полностью. Структура пропусков имела шесть вариантов. Поскольку возраст был разбит на пять категорий, а переменная ожирения бинарна, данные можно представить как целые числа в таблице сопряженности (см. табл. 1.16). В табл. 1.16 пропуск переменной ожирения рассматривается как ее третье значение. О означает ожирение, отсутствие ожирения, пропуск значения. Структура например, означает пропуск при первом обследовании, ожирение — при втором, отсутствие ожирения — при третьем. Остальные структуры определяются аналогично.

Таблица 1.1а. (см. скан) Структуры пропусков в данных при обследовании детей (1 — присутствие значения, пропуск)

(см. скан)

Вулсон и Кларк исследуют эти данные, оценивая для каждого столбца табл. 1.16 полиномиальное распределение по значениям данных об ожирении. Таким образом, явно выделена часть популяции, для которой характерно наличие пропуска. По нашему мнению, в приведенном примере естественно рассматривать отсутствие значения как пропуск некоторого истинного значения переменной ожирения. Поэтому следует оценивать совместное распределение трех бинарных переменных по данным с пропусками. Соответствующие методы обработки таких неполных категориальных данных описаны в гл. 9. В этих методах довольно прямолинейно модифицируются существующие алгоритмы анализа категориальных данных, реализованные в настоящее время в пакетах статистических программ.

1
Оглавление
email@scask.ru