популяции. В частности, при отсутствии пропусков суммарное значение
переменной У можно оценивать величиной
называемой оценкой Хорвица-Томпсона [Horvitz and Thompson (1952)]. Среднее популяции
можно оценить величиной
где
вес, приписываемый
объекту. Так как
то
и оценка суммарного значения по Хорвицу-Томпсону несмещенная при повторном выборе. Величина
несмещенная оценка среднего У для многих выборочных планов, а для некоторых планов приближенно несмещенная. Конечно,
можно вычислить только при отсутствии пропусков, когда
присутствует обязательно, т. е.
Оценки весовых групп обобщают этот подход на случай пропусков, присваивая объектам с присутствием ответа вес, обратный вероятности выбора и присутствия ответа.
Пример 4.2. Оценка весовых групп при пренебрежимых пропусках. Допустим, что мы можем разделить популяцию на
групп, внутри которых наличие ответа не зависит от
Определим переменную группы С, которая принимает значение
для всех объектов из
группы. Предположим, что распределение наличия ответа равно:
где
число объектов в
группе,
число объектов, дающих ответ при включении в выборку. Пусть
доля ответов в
группе. Если бы значение
было известно, то оценки среднего и суммы по Хорвицу-Томпсону получились бы при присвоении
ответившему объекту из группы
веса
На практике
неизвестно, но может быть заменено оценкой
4.4.2. Выбор весовых групп
Весовые группы можно формировать по переменным плана обследования
или по переменным У из выборки, зарегистрированным как для ответивших, так и для неответивших. Взвешивание применяется в первую очередь для обработки пропусков объектов, когда отсутствуют все изучаемые переменные. В этих случаях для формирования групп доступны только переменные плана
Точной теории формирования групп в настоящее время нет, но можно предложить некоторые общие рекомендации. Группы следует выбирать так, чтобы 1) выполнялось предположение (4.8) о распределении ответов и 2) минимизировалась при (4.8) среднеквадратичная ошибка оценки типа
В выборках, полученных при равновероятном плане, дисперсия (4.12) превосходит с большой вероятностью компоненту смещения среднеквадратичной ошибки в (4.11). Дисперсия (4.12) минимизируется при таком выборе групп, когда, во-первых, они однородны по отношению к У, так что мала
во-вторых, отсутствуют группы с малым объемом выборки отвечающих
Ключевым моментом (4.8) является независимость
от
внутри группы:
Теория степени вкладов (propensity scores) [см. Rosenbaum and Rubin (1983), (1985)], обсуждаемая в контексте пропусков в обследованиях [см. Little (1986)], предписывает выбирать С так, чтобы приближенно выполнялось (4.13). Пусть X — множество переменных, присутствующих как для ответивших, так и для неответивших. Допустим,
так что (4.13) выполняется, если в качестве С выбрано
Однако в общем случае нельзя сформировать отдельную группу для каждого значения X, поскольку тогда в группах, где есть неответившие, может совсем не оказаться ответивших или их будет мало, что приведет к сильному увеличению дисперсии. Определим вклад Ответа
объекта как
и пусть
Можно показать, что если положительно для всех
и выполняется (4.14), то
так что расслоение по степени вкладов обеспечивает выполнение (4.13).
На практике
надо оценивать по выборочным данным. Естественна следующая процедура: 1) оценить
с помощью логистической или пробит-регрессии индикатора ответа
на
сформировать сгруппированную переменную, огрубляя оценку
до пяти или шести значений; 3) приравнять С этой переменной, чтобы внутри
группы все ответившие и неответившие имели бы одно и то же значение этой сгруппированной переменной.
4.4.3. Другие процедуры взвешивания
Некоторые варианты оценки (4.10) заслуживают внимания. Кессел и его коллеги [Cassel, Sarndal and Wretman (1983)] определяют веса для отсутствия ответа, обратные оценкам степени вклада
объектов с присутствием значений. В предположении справедливости модели этот метод позволяет устранить смещение из-за отсутствия ответов, но он может давать оценки с чрезвычайно большой дисперсией, так как респонденты с очень низкими вкладами получают довольно большие веса при отсутствии ответов, что может оказать существенное влияние на оценки средних и сумм. Кроме того, взвешивание непосредственно с помощью
может оказаться более чувствительным к точности определения модели регрессии на
чем расслоение, при котором
используется только в процессе формирования групп для взвешивания.
Иногда доля популяции
в каждой
группе известна либо извне, либо в связи с тем, что группы формируются при расслоении по переменным
в плане обследования. В этом случае альтернативой
является среднее пострасслоения:
При условии ОС, т. е. при (4.13),
несмещенная оценка У с дисперсией 2
Оценку (4.16) можно получить, подставляя вместо
выборочные дисперсии по ответившим в
группе
. В большинстве случаев
лучше
кроме ситуаций, когда объемы выборок ответивших
и дисперсия У между группами малы. Более подробно эти проблемы обсуждаются в [Little (1986)].
Интересный вариант
получается, когда группы задаются по совместным уровням двух классифицирующих факторов
уровнями соответственно. Допустим, что в группе с
извлечены
из
объектов популяции. Значение переменной
зарегистрировано
из
объектов, включенных в выборку в
группе. Оценки пострасслоения и весовых групп принимают вид
и
где
среднее по ответившим в
группе. Комбинированную оценку можно получить, допуская, что частоты
в популяции неизвестны, но маргинальные частоты для
известны для всех
как при публикации данных переписи (например,
— пол,
раса, тогда имеются маргинальные распределения по полу и расе, но не совместное распределение в таблице пол
раса).
Метод выравнивания (raking) для групповых частот
состоит в вычислении оценок
для
которые удовлетворяют «маргинальным» ограничениям
и которые отличаются от наблюдаемых частот
на факторы строк и столбцов, т. е. могут быть выражены в виде
для определенных постоянных строк
и столбцов
. В таблице
маргинальные частоты равны известным величинам
а взаимодействие между факторами такое же, как в таблице с частотами
Выравненные групповые частоты
можно вычислять с помощью итеративной процедуры пропорционального подбора, в которой текущие оценки умножаются на фактор строки или столбца, чтобы маргинальные частоты были равны соответственно
Таким образом, на первом шаге вычисляются оценки
удовлетворяющие ограничению на маргинальные частоты по строкам
Затем находят оценки
согласующиеся с маргинальными частотами по столбцам, затем —
и т. д., пока процесс не сойдется. Сходимость и статистические свойства этой процедуры обсуждаются в [Ireland and Kullback (1968)], где показано, в частности, что выравненные оценки
пропорций групп — оптимальные, асимптотические нормальные оценки в предположении полиномиального распределения для частот в группах
и они асимптотически эквивалентны оценкам максимального правдоподобия (МП-оценкам) для полиномиальной модели (вычислять МП-оценки труднее).
Сглаживание объемов выборок
дает сглаженную оценку
дисперсия которой, видимо, будет обладать свойствами, средними между свойствами
Отметим, что эта оценка не определена, если
и тогда требуется другая оценка. Такие оценки в рамках модельного подхода к отсутствию ответов при обследованиях обсуждаются в гл. 12.