2.6. ПОСТРОЕНИЕ РЕГРЕССИОННОЙ ПРЯМОЙ ПО СГРУППИРОВАННЫМ ДАННЫМ

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

2.6. ПОСТРОЕНИЕ РЕГРЕССИОННОЙ ПРЯМОЙ ПО СГРУППИРОВАННЫМ ДАННЫМ

При большом числе наблюдений рекомендуется производить группировку данных по одной или нескольким переменным. Чаще всего при исследовании зависимостей применяется комбинированная группировка. Подсчитывая число попаданий отдельных значений в принятую систему интервалов группировок для зависимой и объясняющей переменных, получаем так называемую корреляционную таблицу (см. табл. 4).

Корреляционная таблица систематизирует результаты наблюдений над элементами статистической совокупности по двум сопряженным

Таблица 4. Общая форма корреляционной таблицы (см. скан)

признакам-переменным. В интервал включаются данные, которые больше нижней границы интервала или равны ей и меньше верхней границы. Для исследования зависимостей желательно использовать равные по ширине интервалы группировок. Неравные интервалы могут привести к искажению регрессии и ошибочным выводам. Практика показывает, что наиболее целесообразно при большом объеме изучаемой совокупности образовывать 9—10 интервалов, достаточно заполненных частотами. При небольших объемах совокупности не имеет смысла производить группировку данных. В этом случае метод наименьших квадратов применяется непосредственно к результатам наблюдений.

Каждый столбец и каждая строка корреляционной таблицы (за исключением итоговых) представляют собой условное распределение частот. Частоты в отдельных клетках таблицы связаны с определенными условиями, а именно частота в клетке показывает, у скольких единиц совокупности значение признака х попадает в интервал, а значение признака у — в интервал. Поэтому ее называют условной частотой. Частоты полученные путем суммирования условных частот по строкам, вместе с интервалами переменной у образуют безусловное распределение частот переменной у. Аналогично частоты полученные путем суммирования условных частот по столбцам, вместе с интервалами переменной х образуют безусловное распределение частот переменной х. Эти распределения называются также граничными распределениями или распределениями составляющих переменных. Корреляционную таблицу называют еще таблицей сопряженной вариации двух переменных»

По корреляционной таблице можно найти оценки параметров регрессии и тем самым решить задачу отыскания регрессионной прямой. Конечно, результаты, полученные по несгруппированному ряду наблюдений, являются более точными. Но потеря точности есть своего рода уступка за упрощение в расчетах. Принцип вычисления остается тем же. Отличие состоит в том, что при сгруппированном материале исходят из середин интервалов и соответствующих частот. При замене интервального ряда дискретным частоты условно относятся к серединам интервалов.

Для корреляционной таблицы имеют место следующие соотношения:

Средние x и у вычисляются как средние взвешенные по серединам интервалов:

Путем замены в (2.22) и (2.23) отдельных значений серединами интервалов, взвешенных по соответствующим частотам, получим формулы для вычисления оценок параметров по сгруппированным данным:

Пример

Пусть исследуется зависимость объема производства от основных фондов по сгруппированному статистическому материалу, собранному на 52 предприятиях. По исходным данным, представленным в табл. 1 и 2 в разделе 2.5, уже была произведена оценка функции регрессии. Для сравнения процедуры расчета и сопоставления полученных результатов воспользуемся теми же данными, построив по ним корреляционную таблицу (см. табл. 5).

Таблица 5. Зависимость объема производства от основных фондов по данным 52 предприятий за квартал (см. скан)

В верхнем и боковом заголовке корреляционной таблицы (сказуемом и подлежащем таблицы) указаны интервалы группировки по х и у. Внутренние клетки таблицы содержат условные частоты — количество предприятий, оказавшихся в соответствующих интервалах по Подведены горизонтальные и вертикальные итоги частот и указан общий итог — 52. При «чтении» корреляционной таблицы производится предварительный анализ характера зависимости. Так, мы видим, что условные распределения предприятий по объему производства закономерно изменяют свое положение, а именно ряды распределения во внутренних столбцах таблицы закономерно смещаются сверху вниз при рассмотрении таблицы слева направо в сторону больших значений х. Таким образом, по корреляционной таблице мы обнаруживаем прямую зависимость между исследуемыми переменными, т. е. рост стоимости основных фондов сопровождается увеличением объема производства. По степени заполненности клеток таблицы условными частотами можно судить о тесноте связи. Если клетки заполнены только вокруг диагонали таблицы, то имеется относительно тесная связь между переменными. Если условные частоты содержатся почти во всех Клетках таблицы, то это свидетельствует о большом рассеянии значений переменных и, следовательно, зависимость между ними проявляется очень слабо. Таким образом, чтение корреляционной таблицы аналогично рассмотрению диаграммы рассеяния. Для вычислений параметров регрессии снова составим рабочую таблицу (см. табл. 6).

По формулам (2.38) и (2.39) вычислим средние:

(кликните для просмотра скана)

В разделе 2.5 по тем же исходным данным, но несгруппированным в интервалы, мы получили такие числовые значения: Сравнивая их с результатами, полученными по сгруппированным данным, замечаем, что различие между ними несущественное. Причина отклонения оценок, вычисленных по сгруппированному материалу, от оценок, полученных непосредственно по исходным данным, кроется в переходе при расчетах к серединам интервалов и условно принятому равномерному распределению частот по ширине этих интервалов. Но неточности в результатах за счет группировки вполне искупаются упрощением процедуры вычисления.

<< Предыдущий параграф

Следующий параграф >>

Оглавление