10.3. Изучение эмпирических распределений
Данные в том виде, как они получены при наблюдении, обычно труднообозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследования вид. В частности, сначала желательно получить представление о распределении случайных величин, входящих в данные.
10.3.1. Гистограмма.
В случае когда число возможных значений случайной величины не велико, представление о ее распределении дает набор частот появления каждого из значений.
В общем случае значения случайных величин или признаков, полученных при наблюдении, группируют, объединяют в разряды и подсчитывают, сколько раз встретились значения в каждом разряде. В результате вместо многочисленных отдельных записей получается вполне обозримая статистическая таблица. Подробнее о технике перехода к группированным данным см. § 5.4.
Для того чтобы представить распределение более наглядно, принято в прямоугольной системе координат строить специальный чертеж, называемый гистограммой распределения. Для этого горизонтальная ось разбивается на равные отрезки, соответствующие разрядам, и на каждом из отрезков, как на основании, строится прямоугольник с высотой, пропорциональной частоте данного разряда. Полученная таким образом прямоугольная гистограмма зависит от выбора длины разрядов. Чтобы уменьшить эту зависимость, прямоугольные гистограммы сглаживают. Один из приемов сглаживания заключается в том, что прямыми линиями соединяют середины соседних площадок гистограммы.
Пример 10.1. В табл. 10.1 приведены значения а — логарифма заработной платы (в условных единицах) рабочих-сдельщиков. Известно, что эта величина имеет приближенно нормальное распределение. Для иллюстрации влияния на форму гистограммы длины интервалов группирования на рис. 10.1 показаны прямоугольные гистограммы с шагом Как видно из рисунка, гистограмма с большим шагом (пунктирная линия) более гладкая. Тот же эффект хорошо виден и на рис. 10.2, где приведены сглаженные гистограммы.
Иногда группированные данные используются для подсчета моментов случайной величины вместо истинных значений
Таблица 10.1
наблюдений. При этом если все разряды имеют одну и ту же длину, а их положение выбрано случайным образом по отношению к данным, то в среднем среднее значение выборки, подсчитанное по группированным данным, не меняется, а дисперсия увеличивается на [22, 60]. Чтобы компенсировать этот эффект, из подсчитанного по группированным данным значения дисперсии вычитают величину (поправка Шеппарда). В частности, при влияние группировки на оценку а порядка 1 % и им можно пренебречь.
Пример 10.2. В табл. 10.2 для данных, приведенных в табл. 10.1, подсчитаны оценки среднего и дисперсии по группированным (рис. 10.1) и негруппированным (табл. 10.1) данным.
Как видно из данных табл. 10.2, средние значения действительно изменяются в нашем случае мало, дисперсия же растет, но в значительной степени компенсируется поправкой Шеппарда.
Рис. 10.1. Прямоугольные гистограммы распределения величины для двух интервалов группирования (по оси ординат — число наблюдений, по оси абсцисс — u)
Рис. 10.2. Гистограмма рис. 10.1 после сглаживания
Таблица 10.2
10.3.2. Непараметрические оценки плотности.
Наряду с гистограммами для оценки плотности используются также оценки вида
где b — малый параметр, — функция, удовлетворяющая следующим условиям: Часто в качестве берут плотность нормального закона с параметрами (0,1). Основное достоинство этих оценок по сравнению с гистограммами заключается в том, что они не зависят от выбора положения разрядов. По этой причине они легко обобщаются на многомерный случай. Правда, выбор параметра b так же, как длины разряда, остается произвольным.
Рис. 10.3. Непараметрические оценки плотности распределения и для трех значений
Чтобы дать представление о том, как работают эти оценки, на рис. 10.3 для данных табл. 10.1 построены для трех значений b непараметрические оценки плотности типа (10.5). Сравните этот рисунок с прямоугольниками и сглаженными гистограммами рис. 10.1 и 10.2.
10.3.3. Оценки функции распределения.
Пусть даны наблюдений извлеченных из генеральной совокупности с функцией распределения Тогда за оценку принимают
где суммирование проводится по всем Из центральной предельной теоремы (см. § 7.3) следует, что для каждого t и произвольного
Близкую оценку можно получить и путем интегрирования от до t непараметрической оценки плотности (10.5).
В тех случаях, когда требуется проверить гипотезу, что случайная величина имеет функцию распределения принадлежащую семейству вида , где — известная непрерывная функция распределения, можно рекомендовать при построении F использовать специальную шкалу, откладывая по оси ординат вместо величину , где — функция, обратная к
Рис. 10.4. Функция распределения и на нормальной вероятностной бумаге
В этом случае в координатах график превращается в прямую линию, по положению которой легко оцениваются параметры и а (см. п. 10.4.3). Наибольшее распространение в практической работе получила нормальная вероятностная бумага с где — стандартная функция нормального распределения. На рис. 10.4 на нее нанесена эмпирическая функция распределения данных из табл. 10.1. Визуальное согласие с прямой линией для удовлетворительное, т. е. распределение и можно считать приближенно нормальным.
10.3.4. Преобразование переменных.
Практически все методы многомерного анализа в той или иной степени опираются на предположение о нормальном характере (гауссовости) распределения входящих в модели случайных величин. Поэтому в случае негауссовских распределений возникает желание подобрать такое преобразование переменных, чтобы после него распределения стали бы приближенно нормальными. Из геометрических соображений видно, что любое непрерывное распределение путем монотонного непрерывного преобразования случайной величины может
быть превращено в нормальное. Первоначально в практической работе использовались преобразования вида . В известной монографии Хальда [85] приведен ряд хорошо подобранных примеров, иллюстрирующих пользу таких преобразований.
Дж. Бокс и Д. Кокс [101] рекомендуют использовать следующие одно- и двухпараметрические семейства преобразований:
Следует специальное внимание обратить на связь — плотности распределения у и — плотности распределения (см. § 7.4):
В случае однопараметрического семейства (10.7)
в случае двухпараметрического семейства (10.8)
(10.10)
Подходящие значения параметров можно искать графически, как рекомендовано в [85], или с помощью метода максимума правдоподобия, рассматривая в качестве параметра (параметров) распределения и записывая функцию правдоподобия для исходных переменных.
10.3.5. Таблицы сопряженности.
Многомерные выборочные распределения, особенно распределения случайных величин, измеренных в номинальных и порядковых шкалах, часто представляют в виде прямоугольных таблиц с двух-, трех- или многосторонней классификацией. В клетке, соответствующей
градации первой классификации, второй, классификации, указывается число объектов, имеющих одновременно соответствующие градации каждого признака. Такие таблицы называют таблицами сопряженности (англ. — contingency tables). Им посвящена обширная статистическая литература. Традиционная техника работы с таблицами сопряженности изложена в [22, 41, 48], а современное изложение предмета, включающее так называемые логарифмически линейные модели, — в [93, 97, 116, 131].