Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.6. ОЦЕНИВАНИЕ ВЫБОРОЧНОЙ ДИСПЕРСИИ ПРИ НАЛИЧИИ ПРОПУСКОВ

До сих пор в основном обсуждался вывод оценок параметров популяции при наличии пропусков. В этом разделе мы рассмотрим с квазирандомизационной позиции построение оценок выборочной дисперсии, которые включают дополнительный член для учета пропусков.

Важно подчеркнуть, что для многих приложений вопрос смещения из-за пропусков часто более важен, чем оценка дисперсии. Можно сказать, что получить правильную оценку выборочной дисперсии хуже, чем вовсе не получить ее, если смещение оценки параметра велико и превосходит среднеквадратическую ошибку. Оценки

Персии, описанные здесь, по существу, основаны на предположении, что сделан ввод поправок на наличие пропусков, устранивших смещения, порождаемые ими.

К настоящему времени формулы для дисперсии, учитывающие пропуски, выведены только для простой случайной выборки (без расслоения или с расслоением). В разделе 4.4 приведены примеры, в которых применяются формулы для взвешенных оценок. В разделе 4.5 обсуждались добавочные члены дисперсии для процедур с подбором, когда выбор подставляемых значений осуществляется по простой вероятностной схеме. В этой области многое требует дальнейшего развития, хотя сомнительно, что можно получить явные оценки для обследований, проводимых сложными последовательными методами с подбором типа метода из примера 4.3, если только не принимать чрезмерно упрощающих предположений.

Вычисление состоятельных оценок дисперсии для сложных выборочных планов, часто применяемых на практике, — непростая задача даже при полных данных. Вследствие этого были развиты приближенные методы, применимые к широкому кругу выборочных планов. Простота этих методов обусловлена тем, что вычисления сводятся к расчету величин для множества единиц выбора, называемых конечными кластерами (КК, ultimate clusters). КК - самая большая единица выбора, извлекаемая из популяции. Например, в первый этап планирования построения выборки домовладельцев может входить выбор районов из переписного перечня. Выборка может быть составлена из «самопредставляющих» районов, включаемых в выборку с вероятностью 1, и из «несамопред-ставляющих» районов, извлекаемых из популяции. Тогда конечными кластерами являются «несамопредставляющие» районы и единицы выбора, формирующие первый этап извлечения «самопредставляющих» районов.

Оценивание дисперсии, проводимое по оценкам для КК, основано на следующей лемме.

Лемма. Пусть случайные величины, которые 1) некоррелированы и 2) имеют общее среднее Пусть

Тогда 1) в — несмещенная оценка несмещенная оценка дисперсии в.

Доказательство. что доказывает 1). Чтобы доказать 2), заметим, что

Отсюда

Но

поскольку оценки некоррелированы. Значит, (4.22) равно нулю, что доказывает 2).

Эту лемму можно непосредственно применять к линейным оценкам в выборочных планах со случайным извлечением конечных кластеров с возвращением. Заслуживающая особого внимания ситуация приведена в следующем примере.

Пример 4.4. Стандартные ошибки, вычисленные по выборкам кластеров. Пусть популяция состоит из К конечных кластеров и пусть выборочный план задает извлечение к кластеров простым случайным выбором с возвращением. Пусть — сумма для переменной кластере. Допустим, что мы оцениваем сумму в популяции

по Хорвицу—Томпсону:

где суммирование ведется по выбранным несмещенная оценка вероятность выбора Тогда 1) и все несмещенные оценки и 2) оценки

некоррелированы для данного метода выбора. Отсюда по лемме

несмещенная оценка дисперсии

Допустим, что в этом примере есть пропуски и мы выводим оценки сумм в КК с помощью одного из методов обработки пропусков, обсуждавшихся выше. Тогда мы по-прежнему можем использовать (4.23) для оценки дисперсии, если 1) оценки не смещены по распределению т. е. процедуры заполнения или взвешивания не приводят к смещениям за счет пропусков, и 2) поправки на заполнение или взвешивание выбираются внутри каждого КК независимо, так что оценки остаются некоррелированными. Таким образом, чтобы можно было применять лемму, весовые группы не должны расчленяться конечными кластерами. Это требование может приводить к недопустимо малым весовым группам, особенно если число КК велико. Значит, построение правильной оценки дисперсии может войти в противоречие с необходимостью обеспечивать достаточно малое смещение, по крайней мере при использовании методов, обсуждавшихся до сих пор. Это противоречие в некотором смысле аналогично проблеме, возникающей при построении выборочного плана, когда систематический выбор может быть самой эффективной формой расслоения, но при этом невозможно вычислять правильные оценки дисперсий без дополнительных модельных предположений.

На практике редко происходит выбор КК с возвращением. Когда извлечение проводится простым случайным выбором без возвращения, оценки КК отрицательно коррелированы и оценки вида (4.23), основанные на лемме, завышают дисперсию. Можно попытаться устранить завышение, вводя поправку на конечность популяции однако в результате это приводит к занижению. Для несмещенной оценки требуется информация о втором и последующих этапах извлечения выборки. Таким образом, нужно, чтобы при построении простых оценок дисперсии, основанных на КК, доля извлеченных КК была мала, что даст возможность

пренебрегать смещением, обусловленным выбором без возвращения. В практических исследованиях такая ситуация встречается часто.

Большинство выборочных планов включает расслоение при выборе КК. Снова предполагая, что доля извлеченных КК в каждом слое мала, получим, что с помощью оценок по конечным кластерам можно вывести верные оценки дисперсий линейных статистик. Допустим, что всего имеется слоев. Пусть несмещенная оценка суммы для конечного кластера в слое

Можно оценивать величиной

где суммирование ведется по слоям и объектам, включенным в выборку из слоя вероятность выбора в слое оценка суммы в слое. Оценкой дисперсии является

В частности, при выборе двух КК из каждого слоя (этот план особенно популярен) оценкой дисперсии является

Условия, при которых можно получить эти оценки по заполненным данным, такие же, как и для случайного выбора: подстановки надо выполнять независимо в каждом КК.

В рамках обсуждавшихся выше задач рассматривались также нелинейные оценки с предварительной линеаризацией с помощью разложения в ряд Тейлора или с применением других приближенных методов, таких, как «складной нож», бутстреп или сбалансированное повторное воспроизведение. В [Cochran (1977); Wolter (1985)] можно найти сведения об этих методах и соответствующие библиографические ссылки.

ЛИТЕРАТУРА

(см. скан)

(см. скан)

ЗАДАЧИ

(см. скан)

(см. скан)

(см. скан)

(см. скан)

1
Оглавление
email@scask.ru