Главная > Методы корреляционного и регрессионного анализа
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

1.5. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ, ВЫБОРКА, СРЕДНЕЕ, ВЫБОРОЧНАЯ ДИСПЕРСИЯ, КОВАРИАЦИЯ. СВОЙСТВА ОЦЕНОК

Перед тем как непосредственно перейти к корреляционному и регрессионному анализу, рассмотрим некоторые основные статистические понятия (см. также [18]).

Объектом статистического изучения служит совокупность единиц, обладающих некоторыми общими свойствами. Исследователь должен четко определить объект наблюдения, а также признаки, носителем которых он является. Так, при переписи населения единицы совокупности — это люди, при изучении рабочей силы — тоже люди, при изучении поголовья скота — отдельные животные и т. д. Недостаточно точное определение единицы наблюдения неизбежно влечет за собой погрешности, искажающие результаты анализа. Исследованию может подвергаться несколько признаков единицы совокупности. Так, при изучении рабочей силы представляет интерес не только общая характеристика численности работников, но и их состав по полу, возрасту, профессии, стажу работы, уровню образования и т. д. При изучении поголовья скота интересуются его породой, возрастом и т. д. Пол, возраст, профессия, стаж работы, уровень образования являются признаками рабочей силы. Размер предприятия и форма собственности — признаки предприятия. Корреляция и регрессия могут существовать как на основе признаков, так и на основе единиц.

Признак может быть выражен в различных формах. Так, например, пол — мужской, женский; возраст рабочего выражается годами; стаж работы — тоже годами; оплата труда — повременная, сдельная. Изменчивость величины признака у единиц, входящих в состав совокупности, называется вариацией. Если вариация признака выражается количественно, то говорят об отдельном значении признака или просто о значении признака (варианте). Отдельное значение признака отражает уровень явления. Например, месячная заработная плата 680, 685, 710 марок более низкая, чем заработная плата 830, 860, 890 марок.

Вся подлежащая изучению совокупность однородных единиц называется генеральной совокупностью. Число единиц в генеральной

совокупности называется ее объемом. «Генеральная совокупность (популяция) состоит из всех мыслимых наблюдений над явлением, рассматриваемым под определенным углом зрения» [130]. Другими словами, генеральная совокупность есть множество всех возможных реализаций случайной переменной. Понятие случайной переменной было введено в разделе 1.2. Генеральная совокупность может состоять из конечного и бесконечного множества единиц. При изучении распределения населения по роду занятий имеют дело с конечно большой генеральной совокупностью. При определении среднего возраста лиц женского пола среди населения страны рассматривают также конечно большую генеральную совокупность из лиц женского пола. Хотя обе эти совокупности конечно большие, объем их различен.

Множество всех возможных подбрасываний монеты, а также множество всех возможных вытягиваний шара из урны по схеме возвра щенных шаров (с возвращением вытянутых шаров в урну) образуют бесконечную генеральную совокупность. Предметом изучения в промышленной статистике может служить множество, образованное значениями показателей объема продукции, произведенной всеми промышленными предприятиями за определенный отчетный период; в статистике торговли — множество значений дневного оборота всех торговых предприятий страны за год. При изучении качества продукции рассматривается совокупность значений процента допущенного брака за смену на предприятиях какой-либо отрасли промышленности в течение года. Из приведенных примеров видно, что совокупность может состоять не только из множества индивидов и предметов, но и из всех возможных наблюдений над явлением, рассматриваемым под определенным углом зрения.

В зависимости от степени полноты охвата наблюдением изучаемой совокупности различают сплошное и выборочное наблюдение. При сплошном наблюдении обследованию подвергают все без исключения единицы генеральной совокупности.

Если обследованию подлежит только часть или несколько частей статистической совокупности, то такое наблюдение называют выбо» рочным. Часть элементов совокупности, отобранных по какому-либо заранее сформулированному правилу, образуют выборку. Задача исследования состоит в правильной организации и проведении выборов ного наблюдения, которое позволяло бы сделать достаточно достоверные выводы о характере изучаемой генеральной совокупности. В таких случаях говорят о репрезентативности выборки.

Переход от сплошного наблюдения к выборочному вызывается различными причинами. Не всегда имеется возможность обследовать каждую единицу изучаемой совокупности, так как обычно это связано с большими затратами труда и времени (например, при наблюдении естественного роста лесонасаждений в масштабах страны), а иногда и с порчей или уничтожением продукции (например, при исследовании

продолжительности горения электрических лампочек, при определении предела прочности посредством разрыва металлических изделий, при определении калорийности топлива и т. д.). Выборочный метод обеспечивает быстроту проведения наблюдений, позволяет лучше и целенаправленнее организовать наблюдение, исключает или доводит до минимума ошибки регистрации, приводит к экономии средств и времени, энергии и сил участников наблюдения.

Отбор единиц в выборку может производиться либо направленно, либо случайно. При случайном отборе все единицы генеральной совокупности имеют одинаковую вероятность быть отобранными. Выборка, организованная по принципу, при котором ни одна единица не обладает преимуществом попасть в отбираемую совокупность по сравнению с другими единицами, называется случайной. Дальше речь пойдет только о случайных выборках. Поэтому для простоты слово «случайная» будет опускаться.

По результатам выборочных наблюдений вычисляются статистические характеристики, например средние, показатели рассеяния и т. д., которые еще будут обсуждаться. По величине этих характеристик делают вывод о соответствующих параметрах генеральной совокупности. В этой связи возникают две статистические проблемы: оценивание параметров генеральной совокупности и проверка гипотез относительно оценок этих параметров. При проверке статистических гипотез используются критерии значимости, однозначно устанавливающие условия, при которых гипотезу либо следует отвергнуть, либо считать непротиворечащей данным наблюдений. Выборочные характеристики представляют собой случайные величины. В этом можно убедиться, отобрав из одной и той же генеральной совокупности несколько выборок. Вычисленные по их результатам характеристики будут варьировать случайным образом от одной выборки к другой около среднего уровня, соответствующего характеристике генеральной совокупности. Так, средние различных выборок случайно рассеиваются вокруг среднего генеральной совокупности; выборочные коэффициенты корреляции — вокруг коэффициента корреляции генеральной совокупности и т. д. Каждая выборочная характеристика (статистика), определяемая как некоторая функция выборочных значений, имеет соответствующий закон распределения. Выборочные распределения статистик, наряду с необходимыми для этого понятиями теории вероятностей, будут рассмотрены в следующем разделе.

Статистические совокупности состоят обычно из большого числа единиц и поэтому трудно обозримы. Для получения информации о поведении изучаемого признака, для сравнения совокупностей удобнее пользоваться некоторыми обобщающими характеристиками, выражающими в сжатой форме наиболее существенные особенности распределения совокупности. Для характеристики уровней признака, свойственных единицам совокупности, используют различные виды средних, чаще всего среднее арифметическое. Если отдельные значения,

принадлежащие совокупности, обозначить через то среднее х вычисляется следующим образом:

где 2 (читается: сигма) — знак суммирования, символизирующий правило вычисления. Этот знак означает, что все величины, стоящие за ним, суммируются; — число отдельных значений. Среднее, вычисляемое по списку результатов отдельных наблюдений, называется простым. Ему соответствует формула (1.1). Если по наблюдениям построен вариационный ряд, т. е. значения варьирующего признака приведены с указанием соответствующих им численностей, то вычисляют взвешенное среднее. Обозначим через отдельные значения вариационного ряда, а частоты, показывающие, сколько раз встречаются данные значения в ряде наблюдения, выразим через Тогда формула, по которой вычисляется взвешенное среднее, имеет вид

Можно убедиться, что По существу, простое среднее — лишь частный случай взвешенного среднего, когда частоты равны единице.

Среднее обладает рядом математических свойств, из которых мы обсудим одно. Сумма отклонений отдельных значений от их среднего всегда равна нулю:

Это свойство легко доказывается:

Среднее характеризует всю совокупность. Оно обобщает индивидуальные особенности единиц совокупности, в нем уравниваются отдельные значения признака. С другими свойствами среднего и способом его вычисления по сгруппированному ряду можно познакомиться в учебниках по статистике.

При сравнении нескольких совокупностей их средние по величине могут совпасть, хотя отдельные значения в различных совокупностях могут существенно отличаться друг от друга как по величине, так и по структуре. Отдельные значения (варианты) могут быть тесно сгруппированы

вокруг своего среднего, либо, наоборот, сильно удалены от него. Среднее не отражает вариацию, т. е. изменчивость признака. Для характеристики степени рассеяния отдельных значений вокруг среднего используются различные меры. Мы ограничимся рассмотрением тех мер рассеяния, которые будут применяться далее.

Простейшим показателем вариации является вариационный размах V, равный разности между наибольшим и наименьшим значениями признака, т. е.

Вариационный размах легко вычисляется, но является весьма приближенным показателем, так как он почти не зависит от степени изменчивости вариантов. Кроме того, крайние значения, которые используются для его вычисления, как правило, ненадежны. Если мы хотим при характеристике степени рассеяния (вариабельности) учитывать все значения признака, то можно воспользоваться средним линейным отклонением Если обозначить отклонение отдельного значения от среднего через то

Если варианты указаны с частотами, то вычисляют взвешенное среднее линейное отклонение:

В корреляционном и регрессионном анализе в качестве меры вариабельности отдельных значений часто используется дисперсия или стандартное отклонение Различают простую дисперсию,

и взвешенную,

В (1.8) и (1.9) знаменатель есть числом степеней свободы. Под Числом степеней свободы понимают количество вариантов совокупности функционально не связанных друг с другом. До вычисления среднего

него мы располагаем вариантами, не зависящими друг от друга. Согласно определяющему свойству среднего сумма наблюдений должна остаться неизменной, если каждое из них заменить средним, т. е. После вычисления среднего для соблюдения этого условия мы имеем в своем распоряжении только отдельных значений, не зависящих друг от друга. Аналогичные рассуждения можно привести для суммы отклонений всех отдельных значений от среднего. Поэтому число степеней свободы для дисперсии равно

Для выборок большого объема в знаменателе вместо можно использовать Возникающая из-за этого погрешность в оценке незначительна и ею можно пренебречь.

Арифметическое значение корня квадратного из дисперсии называется стандартным отклонением:

После соответствующих преобразований и использования (1.1) формула (1.8) принимает вид

Вычисление дисперсии целесообразнее производить не по (1.8), а по (1.11). Как уже было упомянуто, для совокупности большого объема вместо в знаменателе можно использовать

где — среднее квадратов отдельных значений — квадрат среднего. Аналогично можно преобразовать формулу (1.9).

Важную роль в корреляционном и регрессионном анализе играет понятие ковариации. Если у единиц одной и той же совокупности рассматривают два признака с точки зрения их взаимосвязи и вариабельности, то вычисляют меру — ковариацию, обозначаемую или, по аналогии со стандартным отклонением, по следующей формуле:

где — отдельные значения признаков х и у (реализации случайных переменных X и Y), Формулу (1.13) можно после соответствующих

преобразований представить также в виде

Для совокупностей большого объема снова вместо в знаменателе можно использовать

или

Ковариация может быть положительной, отрицательной или равной нулю. Если большим (малым) значениям признака х соответствуют большие (малые) значения признака у, то . В этом случае мы имеем дело с положительной (прямой) корреляцией. Если же, напротив, большим (малым) значениям признака х соответствуют малые (большие) значения признака у, то . В этом случае говорят об отрицательной (обратной) корреляции. При между признаками и у корреляция отсутствует. Таким образом, в ходе наших рассуждений мы выяснили связь ковариации с корреляцией.

В задачи корреляционного и регрессионного анализа входят выбор функции регрессии, оценка ее параметров, оценка коэффициента корреляции и т. д. Как известно из математической статистики, оценки должны обладать определенными свойствами. Мы рассмотрим самые важные из них, а именно несмещенность и состоятельность.

Пусть из одной и той же генеральной совокупности повторно извлекаются выборки объема и по каждой выборке вычисляется оценка какого-либо параметра этой совокупности. Если среднее всех оценок равно параметру генеральной совокупности, то оценку называют несмещенной. Можно дать следующее определение этого свойства: если I — параметр генеральной совокупности, — оценки этого параметра, полученные по результатам выборок, то оценку называют несмещенной при — обозначение математического ожидания, о котором речь пойдет в следующем разделе.

Оценка называется состоятельной или асимптотически состоятельной, если с увеличением объема выборки оценка сходится по вероятности к оцениваемому параметру, т. е. Другими словами, вероятность того, что оценка с увеличением объема выборки стремится к параметру приближается к единице.

Для каждой функции выборок, являющейся оценкой параметра, следует доказывать свойства несмещенности и состоятельности. Характер изложения в данной книге не позволяет приводить эти доказательства. Поэтому далее будет лишь указываться, являются ли рассматриваемые оценки несмещенными и состоятельными.

Categories

1
Оглавление
email@scask.ru