Главная > Статистический анализ данных с пропусками
Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ

С проблемой обработки пропусков в данных приходится сталкиваться в самых разнообразных приложениях статистического анализа. Многие исследователи стремятся как можно быстрее избавиться от пропусков с тем, чтобы впоследствии провести обработку «полных» данных стандартными средствами, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии. Самыми распространенными приемами анализа данных с пропусками являются исключение некомплектных наблюдений (т. е. содержащих пропуски хотя бы одной из переменных) и традиционные методы заполнения пропусков — средневыборочными по присутствующим значениям, с помощью регрессии или главных компонент. Эти методы в общем случае имеют малую эффективность, ведут, как правило, к смещенности и несостоятельности, к нарушению уровней значимости критериев и другим искажениям статистических выводов, не обладают устойчивостью к распределению пропусков. Эти свойства можно отнести и к так называемым парным методам вычисления ковариационной матрицы и вектора средних.

Достаточно низкий уровень культуры обработки пропусков находит свое отражение в современном состоянии статистического программного обеспечения. Подавляющее большинство отечественных и зарубежных статистических программных средств, в которых предусмотрена возможность наличия пропусков в данных, содержит лишь перечисленные выше простые методы или их модификации.

Вниманию читателя предлагается первая работа по статистическому анализу данных с пропусками, выходящая на русском языке. Несмотря на несомненную актуальность, в нашей стране этой проблеме уделялось очень мало внимания, в то время как за рубежом она изучалась активно и с нарастающим интересом на протяжении последних 30 лет.

Книга известных американских специалистов Р. Дж. А. Литтла и Д. Б. Рубина «Статистический анализ данных с пропусками» подытоживает эти многолетние исследования по многим направлениям. Она знакомит с историей зарубежных исследований по проблеме

пропусков, позволяет понять, почему применяемые средства обработки неполных данных приводят, как правило, к искаженным статистическим выводам, помогает освоить современные методы, не обладающие этими недостатками. В книге содержится систематическое описание ЕМ-алгоритма — одного из самых популярных за рубежом в настоящее время вычислительных статистических методов. Авторы рассматривают и SWEEP-оператор для матричных операций, характерных для многомерного статистического анализа.

Основной предмет статистического исследования в книге Р. Дж. А. Литтла и Д. Б. Рубина — выборка многомерных наблюдений с пропусками. Удобно представлять -мерное наблюдение с пропусками в виде пары где X — исходный -мерный вектор значений переменных, -мерный вектор пропусков, координаты которого имеют значения «пропуск» либо «нет пропуска», отвечая присутствию или отсутствию соответствующей переменной. Случайный вектор имеет распределение Проблема заключается в построении по данным с пропусками статистических выводов относительно распределения вектора

В книге охвачен широкий круг вопросов, касающихся распределения в том числе оценивания средних и ковариационной матрицы многомерного нормального распределения, дисперсионного, регрессионного и факторного анализа, анализа таблиц сопряженности и логлинейной модели, временных рядов, устойчивого оценивания, анализа данных при неслучайных пропусках и т. п. Несколько обособленно излагается теория выборочных обследований при наличии пропусков.

Подход, систематически используемый авторами, состоит в построении модели совместного распределения значений вектора X и пропусков (т. е. распределения и развитии алгоритмов оценивания параметров распределения на основе метода максимального правдоподобия. Наибольшее внимание уделено поиску методов анализа в таких условиях, когда требуются минимальные априорные сведения о распределении пропусков, т. е. когда распределение пропусков можно игнорировать. Для параметрических постановок, характерных для книги Р. Дж. А. Литтла и Д. Б. Рубина, таким условием является независимость пропусков от значения переменных, отсутствующих в наблюдении (условие ОС, см. гл. 5). В задаче оценивания условию ОС соответствует обобщение метода максимального правдоподобия на случай данных с игнорируемыми пропусками (в дополнении к переводу это обобщение называется методом максимального маргинального правдоподобия).

К настоящему времени достаточно хорошо разработаны методы анализа данных с пропусками только для параметрических моделей, причем лишь для задачи оценивания неизвестных параметров. Это отразилось в содержании книги: по сути, основная часть ее

посвяшена построению ЕМ-алгоритма для вычисления оценок максимального маргинального правдоподобия в различных моделях. В дополнении к переводу сделана попытка частично восполнить эти пробелы. В частности, предлагаются непараметрические критерии для проверки гипотез однородности двух и нескольких выборок и независимости случайных величин при наличии пропусков; рассмотрена также задача дискриминантного анализа неполных данных.

Условия на распределение пропусков, требуемые при непараметрических постановках, намного слабее, чем при соответствующих параметрических. Иными словами, непараметрические методы, построенные для неполных данных, оказываются устойчивыми к распределению пропусков или, точнее, к зависимости пропусков от значений переменных в наблюдении. Так, например, слабыми являются условия, обеспечивающие применимость упомянутых критериев однородности и независимости. Можно привести и другие примеры подобной устойчивости, относящиеся к задачам непараметрического оценивания, классификации и т. д. В свою очередь, метод исключения некомплектных наблюдений, методы заполнения пропусков, парные методы требуют выполнения довольно жесткого условия независимости пропусков от значениявсех переменных (условия ОПС, см. гл. 5 книги).

В дополнении к переводу содержится также теоретическое подкрепление описанных в книге методов оценивания, обсуждается проверка гипотез относительно распределения пропусков и другие вопросы. Для читателя представит интерес текст программы, в которой реализован ЕМ-алгоритм для многомерного нормального распределения.

Современный статистический анализ опирается в большой степени на применение компьютеров. Книга Р. Дж. А. Литтла и Д. Б. Рубина может служить хорошим практическим руководством для специалистов, разрабатывающих статистическое программное обеспечение. Она будет также полезна исследователям — прикладникам и математикам, связанным с проблемой обработки данных с пропусками.

А. М. Никифоров

ПРЕДИСЛОВИЕ

В начале 70-х годов начался расцвет исследований по статистическому анализу данных с пропусками, последовавший за успехами в развитии компьютерной техники, которая сделала доступными вычисления, очень трудоемкие ранее. Цель этой книги — описать современные методы обработки данных с пропусками и представить теорию анализа неполных данных, основанную на понятии правдоподобия, которая систематизирует эти методы и служит фундаментом для дальнейших разработок. В части I книги обсуждаются предложенные ранее подходы к проблемам, касающимся данных с пропусками, в трех важных областях статистики: дисперсионном анализе планируемых экспериментов, выборочных обследованиях и многомерном анализе. Хотя эти методы и представляют некоторый интерес, они носят частный характер и предложены практическими исследователями, неглубоко изучавшими их теоретические свойства. В части II представлен систематический подход к анализу данных с пропусками, при котором выводы основываются на правдоподобии, вычисляемом с помощью формальных статистических моделей данных и механизма порождения пропусков. Применение этого подхода рассматривается в различных областях, включая регрессионный и факторный анализ, таблицы сопряженности, временные ряды и выборочные обследования. Многие из старых методов из части I книги можно вывести как частный случай (или как аппроксимацию) подхода, основанного на правдоподобии.

Книга предназначена для прикладных статистиков, поэтому изложение в ней основано преимущественно на примерах, а не на точных формулировках условий регулярности и доказательствах теорем. Тем не менее читатель должен быть знаком с принципами построения выводов по правдоподобию, коротко рассмотренными в гл. 5. Книга требует также понимания стандартных моделей при анализе полных данных — нормальной линейной модели, полиномиальных моделей для категориальных данных и свойств общеупотребительных

статистических распределений, особенно многомерного нормального распределения. При чтении некоторых глав необходимо знакомство с такими областями активной статистической деятельности, как планирование экспериментов в дисперсионном анализе выборочные обследования (гл. 4 и 12), логлинейные модели В отдельных примерах затрагиваются и другие разделы статистики, например факторный анализ и временные ряды Обсуждение этих примеров не требует обращения к каким-либо источникам или специальных знаний, но такие знания, конечно, будут способствовать более глубокому пониманию основных статистических идей. Нам удалось охватить три четверти материала, представленного в книге, в -часовом курсе для выпускников-статистиков.

Несмотря на последние достижения в анализе данных с пропусками, в опубликованных работах есть определенные недостатки, которые нашли свое отражение и в книге. В частности, значительная часть книги посвящена точечному оцениванию параметров и приближенных стандартных ошибок, а основой для интервального оценивания и проверки гипотез служила асимптотическая теория больших выборок. Критерии и интервальные оценки для малых выборок развиты очень слабо, хотя в разделе 6.3.2 представлено байесовское решение одной конкретной задачи. Далее, методы основаны на довольно стандартных статистических моделях, таких, как многомерная нормальная и полиномиальная модели. Пока выполнена очень небольшая работа по критериям справедливости этих моделей при неполных данных или по устойчивости оценок для этих моделей. Надеемся, что наше систематическое описание методов для данных с пропусками стимулирует работу в этой области. Мы рассчитываем также, что книга даст толчок к разработке программного обеспечения анализа данных с пропусками для широкого пользователя. Сейчас эта область практику недоступна.

Многим мы благодарны за помощь при работе над этой книгой. Национальный научный фонд (NSF) и Национальный институт здоровья (NIMH) оказали нам поддержку в некоторых направлениях исследований. Марк Шлухтер провел необходимые для раздела 8.5 вычисления, Лейза Уелд и . Рагхунатан внимательно прочитали окончательный вариант рукописи и высказали свои предложения, а студенты-биоматематики из группы Калифорнийского университета и студенты-статистики из группы Гарвардского университета сделали полезные замечания. Наконец, мы благодарим Джуди Сизен за то, что она напечатала множество черновых вариантов нашей книги, и Би Шуб — за искреннюю поддержку.

В заключение нам хотелось бы добавить, что многие статистические задачи удобно рассматривать как задачи анализа данных с пропусками, даже когда совокупность данных полностью зарегистрирована, и, более того, что изучение и построение методов анализа данных с пропусками может служить прекрасной путеводной нитью при изучении статистики в целом. Мы надеемся, что читатели согласятся с нами и сочтут книгу полезной.

Лос-Анджелес, Калифорния, Кембридж, Р. Дж. А. Литтл,

Массачусетс, январь, 1987 Д. Б. Рубин

Categories

1
Оглавление
email@scask.ru