10.3. Изучение эмпирических распределений
Данные в том виде, как они получены при наблюдении, обычно труднообозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследования вид. В частности, сначала желательно получить представление о распределении случайных величин, входящих в данные.
10.3.1. Гистограмма.
В случае когда число возможных значений случайной величины не велико, представление о ее распределении дает набор частот появления каждого из значений.
В общем случае значения случайных величин или признаков, полученных при наблюдении, группируют, объединяют в разряды и подсчитывают, сколько раз встретились значения в каждом разряде. В результате вместо многочисленных отдельных записей получается вполне обозримая статистическая таблица. Подробнее о технике перехода к группированным данным см. § 5.4.
Для того чтобы представить распределение более наглядно, принято в прямоугольной системе координат строить специальный чертеж, называемый гистограммой распределения. Для этого горизонтальная ось разбивается на равные отрезки, соответствующие разрядам, и на каждом из отрезков, как на основании, строится прямоугольник с высотой, пропорциональной частоте данного разряда. Полученная таким образом прямоугольная гистограмма зависит от выбора длины разрядов. Чтобы уменьшить эту зависимость, прямоугольные гистограммы сглаживают. Один из приемов сглаживания заключается в том, что прямыми линиями соединяют середины соседних площадок гистограммы.
Пример 10.1. В табл. 10.1 приведены значения а — логарифма заработной платы (в условных единицах) рабочих-сдельщиков. Известно, что эта величина имеет приближенно нормальное распределение. Для иллюстрации влияния на форму гистограммы длины интервалов группирования на рис. 10.1 показаны прямоугольные гистограммы с шагом Как видно из рисунка, гистограмма с большим шагом (пунктирная линия) более гладкая. Тот же эффект хорошо виден и на рис. 10.2, где приведены сглаженные гистограммы.
Иногда группированные данные используются для подсчета моментов случайной величины вместо истинных значений наблюдений.
Таблица 10.1
При этом если все разряды имеют одну и ту же длину, а их положение выбрано случайным образом по отношению к данным, то в среднем среднее значение выборки, подсчитанное по группированным данным, не меняется, а дисперсия увеличивается на [22, 60]. Чтобы компенсировать этот эффект, из подсчитанного по группированным данным значения дисперсии вычитают величину (поправка Шеппарда). В частности, при влияние группировки на оценку а порядка и им можно пренебречь.
Пример 10.2. В табл. 10.2 для данных, приведенных в табл. 10.1, подсчитаны оценки среднего и дисперсии по группированным (рис. 10.1) и негруппированным (табл. 10.1) данным.
Как видно из данных табл. 10.2, средние значения действительно изменяются в нашем случае мало, дисперсия же растет, но в значительной степени компенсируется поправкой Шеппарда.
Рис. 10.1. Прямоугольные гистограммы распределения величины для двух интервалов группирования (по оси ординат — число наблюдений, по оси абсцисс — и)
Рис. 10.2. Гистограмма рис. 10.1 после сглаживания