1.4. МЕХАНИЗМЫ ПОРОЖДЕНИЯ ПРОПУСКОВ
Знание (или незнание) механизма, приводящего к отсутствию значений, является ключевым при выборе метода анализа и интерпретации результатов. Иногда этот механизм управляется статистиком. Например, мы можем считать, что выборочному обследованию пропуски присущи, так как значения части переменных в обследовании (переменных плана) присутствуют у всех объектов популяции, а исследуемые переменные «пропущены» у объектов, не включенных в выборку. Здесь механизм порождения пропусков — процесс извлечения выборки. Если объекты извлекаются из популяции случайно, то механизм управляется исследователем (при успешной реализации плана) и его можно назвать «игнорируемым». Если правило извлечения выборки не соблюдается или для некоторых объектов выборки значения отсутствуют, то механизм порождения пропусков не столь ясен. В этом случае анализ зависит от предположений о механизме образования пропусков, которые следует явно оговаривать.
Метод двойного выбора (double sampling) в теории выборочных обследований — еще один пример, когда структура пропусков подконтрольна исследователю. Извлекается большая выборка, и определенные базовые характеристики регистрируются. Затем из этой выборки случайно извлекается подвыборка, для которой измеряются дополнительные переменные. Получаемые данные образуют монотонную структуру. Методы регрессии, используемые для анализа таких данных, можно рассматривать как методы обработки данных с пропусками, хотя обычно эти методы рассматривают с другой точки зрения.
Цензурирование — пример ситуации, когда механизм порождения пропусков может быть неуправляемым, но известным статистику. Данными является время наступления события (смерть животного в эксперименте, рождение ребенка, перегорание лампочки). Для некоторых объектов выборки время события цензурировано, поскольку событие не успело наступить до окончания эксперимента. Если известна точка (время) цензурирования, то мы имеем частичную информацию о том, что время наступления ненаблюденного события больше времени цензурирования. Такую информацию надо учитывать при анализе, чтобы избежать смещений.
Многие методы обработки механизм порождения пропусков явно не включают. Подразумевается, что этот механизм игнорируется. Однако механизм пропусков можно вводить в статистическую модель, включая в нее распределение индикаторов присутствия, равных 1 для присутствующего значения признака и для пропуска. В общем случае механизмом пропусков нельзя пренебречь. Например, отказ от ответа в обследовании доходов может быть связан с тайными доходами, что нельзя игнорировать. Эти идеи развиты в гл. 5, где излагается теория правдоподобия при наличии пропусков. Гл. 11 посвящена неигнорируемым механизмам порождения пропусков.