5.4.2. Генеральная совокупность и выборка из нее.
Итак, закономерности, которым подчиняется исследуемая случайная величина, физически полностью обусловливаются реальным комплексом условий ее наблюдения (или эксперимента), а математически задаются соответствующим вероятностным пространством
или, что то же, соответствующим законом распределения вероятностей. Однако при проведении статистических исследований несколько более удобной оказывается другая терминология, связанная с понятием генеральной совокупности.
Генеральной совокупностью называют совокупность всех мыслимых наблюдений (или всех мысленно возможных объектов интересующего нас типа, с которых «снимаются» наблюдения), которые могли бы быть произведены при данном реальном комплексе условий. Поскольку в определении речь идет о всех мысленно возможных наблюдениях (или объектах), то понятие генеральной совокупности есть понятие условно-математическое, абстрактное и его не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли с точки зрения регистрации значений характеризующих их технико-экономических показателей, мы можем рассматривать обследованную совокупность лишь как представителя гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках того же самого реального комплекса условий
В практической работе удобнее выбор связывать с объектами наблюдения, чем с характеристиками этих объектов. Мы отбираем для изучения машины, геологические пробы, людей, но не значения характеристик машин, проб, людей. С другой стороны, в математической теории объекты и совокупность их характеристик не различаются и двойственность введенного определения исчезает.
Как видим, математическое понятие «генеральная совокупность» физически полностью обусловливается, так же как и понятия «вероятностное пространство», «случайная величина» и «закон распределения вероятностей», соответствующим реальным комплексом условий, а потому все эти четыре математических понятия можно считать в определенном смысле синонимами. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений.
Из определения следует, что непрерывные генеральные совокупности (состоящие из наблюдений признаков непрерывной природы) всегда бесконечны. Дискретные же генеральные совокупности могут быть как бесконечными, так и конечными. Скажем, если анализируется партия из N изделий на сортность (см. пример в п. 4.1.3), когда каждое изделие может быть отнесено к одному из четырех сортов, исследуемой случайной величиной
является номер сорта случайно извлеченного из партии изделия, а множество возможных значений случайной величины состоит соответственно из четырех точек (1, 2, 3 и 4) то, очевидно, генеральная совокупность будет конечной (всего N мыслимых наблюдений).
Понятие бесконечной генеральной совокупности есть математическая абстракция, как и представление о том, что измерение случайной величины можно повторить бесконечное число раз. Приближенно бесконечную генеральную совокупность можно истолковывать как предельный случай конечной, когда число объектов, порождаемых данным реальным комплексом условий, неограниченно возрастает. Так, если в только что приведенном примере вместо партий изделий рассматривать непрерывное массовое производство тех же изделий, то мы и придем к понятию бесконечной генеральной совокупности. Практически же такое видоизменение равносильно требованию
Выборка из данной генеральной совокупности — это результаты ограниченного ряда наблюдений
случайной величины
. Выборку можно рассматривать как некий эмпирический аналог генеральной совокупности, то, с чем мы чаще всего на практике имеем дело, поскольку обследование всей генеральной совокупности бывает либо слишком трудоемко (в случае больших N), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).
Число
наблюдений, образующих выборку, называют объемом выборки.
Если объем выборки
велик
и при этом мы имеем дело с одномерной непрерывной величиной (или с одномерной дискретной, число возможных значений которой достаточно велико, скажем больше 10), то часто удобнее, с точки зрения упрощения дальнейшей статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным. Этот переход осуществляется обычно следующим образом:
а) отмечаются наименьшее
и наибольшее
значения в выборке;
б) весь обследованный диапазон
разбивается на определенное число 5 равных интервалов группирования; при этом количество интервалов s не должно быть меньше 8—10 и больше 20—25: выбор количества интервалов существенно зависит от объема выборки
для примерной ориентации в выборе 5 можно пользоваться приближенной формулой
которую следует воспринимать скорее как оценку снизу для s (особенно при больших
в) отмечаются крайние точки каждого из интервалов
в порядке возрастания, а также их середины
г) подсчитываются числа выборочных данных, попавших в каждый из интервалов:
(очевидно,
); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо условливаются относить их только к какому-либо одному из них, например к левому.
В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые видоизменения (например, в некоторых случаях целесообразно отказаться от требования равной длины интервалов группирования).
Во всех дальнейших рассуждениях, использующих выборочные данные, будем исходить из только что описанной системы обозначений.
Напомним, что сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности (т.е. по выборке) выносить суждения о ее свойствах в целом.
Один из важнейших вопросов, от успешного решения которого зависит достоверность получаемых в результате статистической обработки данных выводов, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления ею интересующих нас свойств анализируемой генеральной совокупности. В практической работе одна и та же группа объектов, взятых для изучения, может рассматриваться как выборка из разных генеральных совокупностей. Так, группу семей, наудачу отобранных из кооперативных домов одной из жилищноэксплуатационных контор (ЖЭК) одного из районов города для подробного социологического обследования, можно рассматривать и как выборку из генеральной совокупности семей (с кооперативной формой жилья) данной ЖЭК, и как выборку из генеральной совокупности семей данного района, и как выборку из генеральной совокупности всех семей города, и, наконец, как выборку из генеральной совокупности всех семей города, проживающих в кооперативных домах. Содержательная интерпретация результатов апробации существенно зависит от того, представителем какой генеральной совокупности мы рассматриваем отобранную группу семей, для какой генеральной совокупности эту выборку можно считать представительной (репрезентативной). Ответ на этот вопрос зависит от многих факторов. В приведенном выше примере, в частности, от наличия или отсутствия специального (быть может, скрытого) фактора, определяющего принадлежность семьи к данной ЖЭК или району в целом (таким фактором может быть, например, среднедушевой доход семьи, географическое расположение района в городе, «возраст» района и т. п.).