Главная > Выборочный метод
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.5.2. ОЦЕНИВАНИЕ УСЛОВНЫХ СРЕДНИХ

Если результативный признак [X] коррелирует с факторным признаком то это означает, что среднее значение исследуемого результативного признака зависит от факторного признака. Это среднее значение называется условным и обозначается символом . Обозначая его таким образом, мы показываем, что среднее значение рассматривается как функция факторного признака. Так, например, средние расходы на некоторый товар у интересующей нас категории лиц зависят от величины их доходов; среднее есть функция дохода. Если бы мы вычисляли средние расходы на этот товар у лиц с некоторым определенным доходом методами, рассмотренными в 5.3, то нужно было бы исследовать расходы только у лиц, имеющих интересующий нас доход. Практически это означает, что пришлось бы ограничиться опросом только лиц (или домохозяйств)

с доходами, лежащими в определенном интервале. Так как результативный признак зависит от уровня дохода, то ширину этого интервала следует по возможности уменьшить. Но, с другой стороны, сильное сужение интервала приводит к уменьшению количества лежащих в нем единиц и, следовательно, к снижению точности оценивания. Недостатки такого способа очевидны.

Если зависимость между признаками линейна, то значение линейной функции регрессии при определенном значении равно условному среднему.

Однако линейная регрессия

    (5.5.5)

может быть построена, если только определены численные значения признаков у всех N единиц совокупности.

Условные средние оцениваются с помощью эмпирической функции регрессии

    (5.5.6)

построенной по парам значений признаков единиц выборки с помощью метода наименьших квадратов. Коэффициент регрессии можно определить по формуле (5.5.4), а свободный член — по формуле (5.5.3). Они представляют собой оценки истинных величин А и В. Распределение случайных величин а и b можно найти при определенных предпосылках. На рис. 22 представлены линии регрессии для совокупности и выборки.

Поскольку параметры эмпирической функции регрессии — случайные величины, то значение, этой функции — тоже случайная величина. Стандартная ошибка оценки условного среднего может быть оценена с помощью формулы

    

Равенство (5.5.7) дает меру точности оценивания условного среднего с помощью линейной регрессии. здесь — любое значение факторного признака, рассматриваемого как независимая переменная.

Формула (5.5.7) была впервые предложена Уоркингом и Хотеллингом в 1929 г. Это интересная формула, s здесь —

среднее квадратичное отклонение отдельных значений от линии регрессии:

— значение функции регрессии в точке целесообразно рассчитывать по формуле

    (5.5.8)

так как среднее квадратичное отклонение признака в выборке и коэффициент корреляции , как правило, обязательно вычисляются при проведении обследования.

Формула (5.5.7) определяет стандартную ошибку как функцию значения независимого признака. В то время как знаменатель второй дроби при заданном объеме выборки есть постоянная величина, числитель зависит от выбора точки Легко видеть, что имеет минимум при и этот минимум равен:

    (5.5.9)

тем больше, чем сильнее отличается от у.

При достаточно больших с помощью формулы (5.5.7) и квантилей нормального распределения можно построить доверительную зону для линии регрессии при уровне доверительной вероятности (например, для 95%-ного уровня доверительной вероятности

    (5.5.10)

Как (5.5.6), так и доверительные границы являются функциями. Ширина доверительной зоны (см. рис. 23) зависит от трех величин:

от среднего квадратичного отклонения s отдельных значений от линии регрессии, а именно она прямо пропорциональна ;

от объема выборки , а именно она уменьшается с увеличением объема выборки, так как в (5.5.7) увеличивается знаменатель как первой, так и второй дроби (значение суммы растет с увеличением количества слагаемых);

от расстояния между текущим значением и средним у, она обладает минимумом при . При малых объемах выборки (например, ) квантили: нормального распределения следует заменить квантилями распределения Стьюдента.

Формула (5.5.7) показывает что при вычислении оценки и ее стандартной ошибки для определенного значения факторного признака учитываются все наблюдаемые значения этого признака, а не только те, которые лежат достаточно близко от рассматриваемого значения.

Рис. 23

Так, для оценивания средних расходов лиц или домохозяйств с определенным уровнем дохода необходимы результаты обследования всех лиц или домохозяйств, чьи доходы могут весьма сильно различаться.

При построении доверительной зоны можно выделить пять этапов:

определение точек соответствующих единицам выборки (см. рис. 23, а);

построение эмпирической функции регрессии (5.5.6), являющейся функцией оценки условного среднего X (У (рис. 23, б);

определение среднего квадратичного отклонения ,s (5.5.8) признака [X] единиц выборки от эмпирической функции регрессии (рис. 23, в);

определение стандартной ошибки по формуле (5.5.7);

определение доверительной зоны по формуле (5.5.10) (рис. 23, г).

Если объем выборки достаточно велик, то знаменатель в формуле (5.4.14) можно заменить на . Тогда

    (5.5.11)

Если ввести нормированную переменную

то (5.5.7) принимает следующий вид:

или

    (5.5.13)

Далее приведены значения множителя для некоторых

При отклонении от среднего значения на ширина доверительной зоны увеличивается в 1,41 раза.

Формула (5.5.13) очень удобна для применения; она нагляднее, чём формула (5.5.7).

В заключение следует отметить, что обсуждавшийся здесь способ оценивания, включая расчет стандартных ошибок и доверительных границ, приводит к правильным результатам тогда и только тогда, когда зависимость между факторным и результативным признаками линейна. Существуют статистические методы проверки такой гипотезы [31]. Как правило,

картина рассеяния точек (рис. 23, а) или содержательный анализ соответствующих явлений уже позволяет принять или отклонить такое предположение.

1
Оглавление
email@scask.ru