14.2. КРИТЕРИИ, ОСНОВАННЫЕ НА ЭМПИРИЧЕСКОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ
Как введение в раздел, посвященный свободным от распределения критериям, рассмотрим базовую для проблемы в целом задачу: можно ли считать, что данная случайная выборка наблюдений
взята из полностью определенного непрерывного распределения? Эта задача адекватности модели уже встречалась в гл. 7, где был предложен критерий согласия
Рассмотрение этого критерия служит введением к разделам, посвященным методам, свободным от распределения.
Основными понятиями этого раздела являются: 1) порядковые статистики выборки и 2) эмпирическая функция распределения.
Определение 14.2.7. Вариационный ряд. Расположив значения выборки
в порядке возрастания их величины, обозначим самое меньшее через
второе по величине — через
и самое большое — через
Множество
где
называют вариационным рядом, или множеством порядковых статистик выборки. Если бы соответствующие случайные величины были дискретны, то мы должны были бы принять во внимание возможность совпадения наблюдений, что несколько усложнило бы теорию порядковых статистик. Для непрерывных случайных величин возможность совпадения наблюдений можно игнорировать при условии, что наблюдения регистрируются с достаточной точностью [см. II, раздел 15.1.].
Некоторые функции от порядковых статистик известны: это процентили (включая нижнюю квартиль, медиану и верхнюю квартиль) и размах. Они определяются следующим образом.
Размах. Размах — это просто
Медиана. Если число наблюдений нечетно, скажем
то медиана — это
т. е. срединное наблюдение, когда наблюдения расположены в порядке возрастания их величины. Если число наблюдений четно, скажем
то обычно в качестве медианы берут
Квартили, процентили. Нижняя квартиль, медиана и верхняя квартиль вводятся для того, чтобы обеспечить разбиение порядковых статистик на 4 подмножества равного размера. Строго говоря, это возможно в том случае, когда объем выборки имеет вид
тогда нижняя квартиль — это
медиана —
верхняя квартиль
Децили (доли, кратные десятой) и процентили (процентные точки) определяются аналогично.
Определение 14.2.2. Эмпирическая функция распределения. Эмпирическая функция распределения, или функция эмпирического распределения
определяется следующим образом:
Рис. 14.2.1. Эмпирическая функция распределения
для примера 14.2.1
Другими словами,
— ступенчатая функция со скачками
в каждом из значений
Пример 14.2.1. Эмпирическая функция распределения. Предположим, что случайная выборка объема
из непрерывного распределения состоит из наблюдений 2,1, —0,6, 0,2, 3,0 —1,0 1,3. Вариационный ряд в этом случае — упорядоченное (по возрастанию) множество —1,0, —0,6, 0,2, 1,3, 2,1, 3,0. Эмпирическая функция распределения начинается с 0 и возрастает скачками по 1/6 в точках —1,0, —0,6, 0,2, 1,3, 2,1, 3,0, как показано на рис. 14.2.1.
Если мы получим другую случайную выборку объема 6 из того же непрерывного распределения, значения наблюдений будут отличаться, и, следовательно, эмпирическая функция распределения
будет другой. Именно природу этого отличия
от теоретической функции распределения
случайной величины X мы исследуем с позиций проверки согласия (адекватности модели).