14.6. ДВУВЫБОРОЧНЫЕ КРИТЕРИИ
Предположим, что — случайная выборка из совокупности с непрерывной функцией распределения — независимая случайная выборка из совокупности с непрерывной функцией распределения
Объединенный вариационный ряд этих двух выборок — просто совокупность всех наблюдений, расставленных в порядке возрастания их величины, без учета принадлежности к выборке.
Пример 14.6.1. Объединенный вариационный ряд двух выборок. Предположим, мы наблюдаем случайную выборку объема 7 из совокупности I:
и вторую независимую случайную выборку объема 5 из совокупности II:
Результат можно представить с помощью диаграммы, как на рис. 14.6.1. Объединенный вариационный ряд и ранги наблюдений показаны ниже:
Рис. 14.6.1. Наблюдения в примере 14.6.1
Три критерия, которые мы опишем в этом разделе, позволяют решить вопрос о том, имеют ли две совокупности одно и то же распределение с центром в одной и той же точке. Следовательно, они являются критериями проверки гипотезы
против
Эти критерии особенно мощные против альтернатив сдвига. В нормальном параметрическом случае их аналогом является двувыборочный -критерий [см. раздел 5.8.4].
14.6.1. ДВУВЫБОРОЧНЫЙ МЕДИАННЫЙ КРИТЕРИЙ
Первый критерий основан на медиане объединенной совокупности и может рассматриваться как обобщение критерия знаков [см. раздел 14.4.1] на случай двух независимых выборок. Пусть обозначает число элементов выборки из совокупности I, которые превосходят медиану объединенной выборки.
Пример 14.6.2. Двувыборочный медианный критерий. Медиана объединенной совокупности из примера 14.6.1. равна:
Мы можем разбить наблюдения на следующие категории:
В более общем случае, когда четно, мы получим классификацию вида
В случаях, когда нечетно, одно из наблюдений будет совпадать с выборочной медианой. Принято игнорировать то наблюдение, которое попадает точно на медиану, и уменьшать либо на 1. Затем можно составить такую же таблицу, как выше. Далее мы продолжаем изложение так, как если бы это уже было сделано.
Если две совокупности имеют одну и ту же медиану, мы можем ожидать, что наблюдения из каждой совокупности равномерно рассеяны в объединенном вариационном ряде. В медианном критерии в качестве статистики используется случайная величина которая является числом наблюдений в выборке из совокупности I, превосходящих медиану объединенной выборки. При выполнении величина М, должна иметь распределение с центром в точке . В результате простых комбинаторных рассуждений получим
т. е. М, имеет гипергеометрическое распределение [см. II, раздел 5.3] при выполнении Значения далекие от заставят нас отвергнуть в пользу Поэтому в качестве критической области мы возьмем
где к выбрано так, чтобы размер критерия не превышал а.
Другой способ состоит в вычислении достигаемого уровня значимости, т. е. вероятности получить результат такой же, как мы получили, или еще более далекий от центра, а именно
или
Это пример точного критерия Фишера для табл. 2x2 [см. раздел 5.4.2].
Если объемы выборок велики, можно применять метод [см. раздел 7.2.1] для проверки гипотезы . Этот приближенный критерий используется при если при этом ожидаемое число наблюдений в каждой клетке не слишком мало, например не менее 5 [ср. с критерием Кокрена из раздела 7.5.1].
Пример 14.6.3 (продолжение примера 14.6.2). Вычислим достигаемый уровень значимости для выборки, приведенной в примере 14.6.1. Множество значений, столь же или более далеких от центра, чем наблюдаемое, в табличной форме имеет вид:
Достигаемый уровень значимости равен
Это высокая вероятность. Данные следует считать согласующимися с гипотезой согласно которой распределения двух совокупностей одинаковы. Кроме того, мы можем видеть из приведенных выше вероятностей, что критическая область для критерия на 5%-ном уровне значимости равна:
Поскольку наше наблюдение не попадает в критическую область на уровне 5%, и мы делаем то же заключение, что и выше.