Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
Часть I. АНАЛИЗ ДАННЫХ С ПРОПУСКАМИ: ОБЗОРГлава I. ВВЕДЕНИЕБольшинство прикладных статистических методов предназначено для анализа прямоугольных таблиц данных. Строкам таблицы данных соответствуют объекты, называемые также наблюдениями, случаями и т. д. в зависимости от контекста, столбцы представляют переменные (признаки), измеряемые для каждого объекта. Элементами таблицы являются действительные числа — значения непрерывных (например, возраст или размер дохода) или дискретных переменных. Дискретные (категориальные) признаки могут быть упорядоченными (например, образование) или неупорядоченными (раса, пол). Настоящая книга посвящена анализу данных в тех случаях, когда в таблице часть значений переменных отсутствует. Например, часть респондентов (опрашиваемых), участвующих в обследовании семей, может отказаться сообщить размер дохода. В промышленном эксперименте некоторые результаты могут отсутствовать вследствие поломок оборудования, не связанных с экспериментальным процессом. При опросе общественного мнения часть опрашиваемых, возможно, не окажет предпочтения одному кандидату перед другими. В первых двух примерах естественно рассматривать ненаблюдаемые значения как утерянные («пропущенные»). Таким пропускам соответствуют истинные значения, которые были бы получены при более совершенных методах обследования или более высоком качестве оборудования. Однако в третьем примере менее правдоподобно, что за отсутствием ответа кроется предпочтение определенному кандидату, поэтому рассматривать отсутствующие значения как пропуски менее естественно. Скорее, отсутствие ответа — это дополнительная точка выборочного пространства измеряемой переменной, которая определяет часть популяции (генеральной совокупности), не имеющую предпочтений. В большинстве пакетов программ по статистическому анализу допускается выделение отсутствующих элементов в таблице данных с помощью определенного кода (кодов). Для выделения отсутствующих элементов различною вида могут потребоваться несколько кодов, например «не знаю», «отказ отвечать», «недопустимый ответ». В статистических пакетах объекты, имеющие код пропуска хотя бы по одной из анализируемых переменных, обычно исключаются. Такая стратегия в общем случае неприемлема, поскольку обычно интересны выводы относительно всей исследуемой популяции, а не той ее части, для которой получены значения всех анализируемых переменных. Нашей целью является описание методов, приемлемых в более общем случае. Некоторые из них уже вошли в состав пакетов (например, программа BMDPAM, Dixon, 1983), а многие другие, скорее всего, будут включены в ближайшее время. Пример 1.1. Отсутствие значений бинарной переменной, измеряемой трижды в различные моменты времени. Вулсон и Кларк [см. Woolson and Clarke, 1984] анализируют данные долговременного исследования факторов риска для сердечных заболеваний у школьников. В табл. 1.1а представлены структуры пропусков в таблице данных. Значения пяти переменных (пол, возраст и наличие ожирения в каждом из трех обследований — в 1977, 1979 и 1981 гг.) были зарегистрированы у 4856 школьников: пол и возраст полностью, а данные по ожирению не полностью. Структура пропусков имела шесть вариантов. Поскольку возраст был разбит на пять категорий, а переменная ожирения бинарна, данные можно представить как целые числа в таблице сопряженности (см. табл. 1.16). В табл. 1.16 пропуск переменной ожирения рассматривается как ее третье значение. О означает ожирение, Таблица 1.1а. (см. скан) Структуры пропусков в данных при обследовании детей (1 — присутствие значения, (см. скан) Вулсон и Кларк исследуют эти данные, оценивая для каждого столбца табл. 1.16 полиномиальное распределение по
|
1 |
Оглавление
|