1.2. ОБЗОР МЕТОДОВ ОБРАБОТКИ ДАННЫХ С ПРОПУСКАМИ
Работы по анализу данных с пропусками появились сравнительно недавно. Среди обзоров назовем следующие: [Afifi and Elashoff (1966); Hartley and Hocking (1971); Orchard and Woodbury (1972); Dempster, Laird and Rubin (1977); Little (1982)]. Предложенные методы можно грубо разделить на четыре (пересекающиеся) группы.
1. Метод исключения некомплектных объектов. При отсутствии у некоторых объектов значений каких-либо переменных простым приемом, упомянутым в разделе 1.1, является удаление таких некомплектных объектов из анализа и обработка данных без пропусков [см., например, Nie, Hill, Jenkins, Steinbrenner and Bent (1975)]. Этот подход обсуждается в гл. 3. Он легко реализуется и может быть удовлетворительным при малом числе пропусков. Однако иногда он приводит к серьезным смещениям и обычно не очень эффективен.
2. Методы с заполнением. Пропуски заполняются и полученные «полные» данные обрабатываются обычными методами. Как правило, используются следующие процедуры: заполнение с (пристрастным) подбором, когда подставляются значения переменных других объектов выборки, заполнение средними, когда подставляются средние присутствующих значений, и заполнение с помощью регрессии, когда пропущенные значения оцениваются с помощью регрессии на присутствующие для анализируемого объекта переменные. Применение методов заполнения в планировании экспериментов, многомерном анализе и выборочных обследованиях описано в гл. 2, 3 и 4. Чтобы получить корректные выводы, в стандартные методы анализа следует ввести модификации, позволяющие отличать заполненные пропуски от реальных данных. Эти модификации относительно просты в обобщении с многократным заполнением каждого пропуска (см. гл. 12).
3. Методы взвешивания. Рандомизированные выводы по данным выборочных обследований с пропусками обычно построены на весах плана, обратно пропорциональных вероятности выбора. Путь у. — значение переменной объекта популяции. Тогда среднее популяции часто оценивают величиной
где суммы берутся по извлеченным объектам, вероятность извлечения объекта, вес плана элемента. Методы взвешивания изменяют веса, чтобы учесть отсутствие значений. Оценка (1) заменяется оценкой
где суммы берутся по извлеченным объектам, в которых нет пропусков, а оценка вероятности присутствия значения для объекта (обычно доля объектов выборки с присутствующим значением). Взвешивание связано с заполнением средними. Например, если веса плана постоянны в подгруппах выборки, то заполнение пропусков в каждой подгруппе средними подгруппы и взвешивание присутствующих значений с помощью их доли в каждой подгруппе ведут к одинаковым оценкам среднего популяции, хотя оценки выборочной дисперсии различны, если только не используются поправки на заполнение средними. Методы взвешивания описаны в гл. 4.
4. Методы, основанные на моделировании. Широкий класс методов основывается на построении модели порождения пропусков. Выводы получают с помощью функции правдоподобия, построенной при условии справедливости этой модели, с оцениванием параметров методами типа максимального правдоподобия. Преимущества такого подхода состоят в том, что он гибок, позволяет отказаться от методов, разработанных для частных случаев (предположения модели, на которых основаны наши методы, можно рассмотреть и оценить), и оценивать в приближении большой выборки дисперсии оценок с помощью матрицы вторых производных функций правдоподобия для неполных данных. Описание методов, основанных на моделировании, — основная цель этой книги. Они обсуждаются в гл. 5—12, составляющих часть II настоящей книги.