Главная > Прикладная статистика: Основы моделирования и первичная обработка данных
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

10.3. Изучение эмпирических распределений

Данные в том виде, как они получены при наблюдении, обычно труднообозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследования вид. В частности, сначала желательно получить представление о распределении случайных величин, входящих в данные.

10.3.1. Гистограмма.

В случае когда число возможных значений случайной величины не велико, представление о ее распределении дает набор частот появления каждого из значений.

В общем случае значения случайных величин или признаков, полученных при наблюдении, группируют, объединяют в разряды и подсчитывают, сколько раз встретились значения в каждом разряде. В результате вместо многочисленных отдельных записей получается вполне обозримая статистическая таблица. Подробнее о технике перехода к группированным данным см. § 5.4.

Для того чтобы представить распределение более наглядно, принято в прямоугольной системе координат строить специальный чертеж, называемый гистограммой распределения. Для этого горизонтальная ось разбивается на равные отрезки, соответствующие разрядам, и на каждом из отрезков, как на основании, строится прямоугольник с высотой, пропорциональной частоте данного разряда. Полученная таким образом прямоугольная гистограмма зависит от выбора длины разрядов. Чтобы уменьшить эту зависимость, прямоугольные гистограммы сглаживают. Один из приемов сглаживания заключается в том, что прямыми линиями соединяют середины соседних площадок гистограммы.

Пример 10.1. В табл. 10.1 приведены значения а — логарифма заработной платы (в условных единицах) рабочих-сдельщиков. Известно, что эта величина имеет приближенно нормальное распределение. Для иллюстрации влияния на форму гистограммы длины интервалов группирования на рис. 10.1 показаны прямоугольные гистограммы с шагом Как видно из рисунка, гистограмма с большим шагом (пунктирная линия) более гладкая. Тот же эффект хорошо виден и на рис. 10.2, где приведены сглаженные гистограммы.

Иногда группированные данные используются для подсчета моментов случайной величины вместо истинных значений наблюдений.

Таблица 10.1

При этом если все разряды имеют одну и ту же длину, а их положение выбрано случайным образом по отношению к данным, то в среднем среднее значение выборки, подсчитанное по группированным данным, не меняется, а дисперсия увеличивается на [22, 60]. Чтобы компенсировать этот эффект, из подсчитанного по группированным данным значения дисперсии вычитают величину (поправка Шеппарда). В частности, при влияние группировки на оценку а порядка и им можно пренебречь.

Пример 10.2. В табл. 10.2 для данных, приведенных в табл. 10.1, подсчитаны оценки среднего и дисперсии по группированным (рис. 10.1) и негруппированным (табл. 10.1) данным.

Как видно из данных табл. 10.2, средние значения действительно изменяются в нашем случае мало, дисперсия же растет, но в значительной степени компенсируется поправкой Шеппарда.

Рис. 10.1. Прямоугольные гистограммы распределения величины для двух интервалов группирования (по оси ординат — число наблюдений, по оси абсцисс — и)

Рис. 10.2. Гистограмма рис. 10.1 после сглаживания

Таблица 10.2

Categories

1
Оглавление
email@scask.ru