11.2.7. Обработка совпадений.
При применении ранговых критериев предполагается, что наблюдаемые случайные величины имеют непрерывные распределения. Однако на практике мы всегда имеем дело с дискретным рядом возможных значений случайной величины либо в силу ее природы (дискретная величина), либо вследствие округления или группирования наблюдаемых значений. Это приводит к тому, что в ряду наблюдений имеются группы наблюдений с совпадающими значениями. Рассмотрим некоторые методы, помогающие применять ранговые критерии и в случае наличия совпадений.
Если все совпавшие наблюдения в группе принадлежат одной выборке, то никакой проблемы нет — в качестве рангов можно взять номера из этой группы совпадений в произвольном порядке. В случае же попадания в группу совпадений элементов из обеих выборок наиболее употребительны следующие подходы [23].
Метод случайного ранга — совпавшим наблюдениям случайным образом (равновероятно) присваиваются номера (ранги), принадлежащие группе. В этом случае вся теория о распределении статистики критерия при нулевой гипотезе сохраняется, можно пользоваться обычными таблицами и предельными распределениями. Однако мощность критерия будет меньше, чем при применении метода средней метки.
Метод средней метки состоит в том, что всем наблюдениям из первой (второй) выборки, попавшим в группу совпадений, присваивается среднее значение метки для наблюдений из этой группы. В этом случае предельное распределение статистики критерия остается нормальным. Математическое ожидание статистики будет прежним, а дисперсия уменьшается. Соответственно для статистик критериев Вилкоксона, нормальных меток и Ван дер Вардена имеем
следующие формулы для вычисления диспепсий с учетом совпадений:
(11.46)
где g — число групп, на которое разбиваются наблюдения; — число совпавших наблюдений в группе
— средние метки по группе соответственно для критерия нормальных меток и Ван дер Вардена.
Полученные значения дисперсий и нужно использовать при применении соответствующих ранговых критериев. С учетом (11.46) статистика критерия Крускала — Уоллиса (11.36) в случае совпадений модифицируется следующим образом:
Для критериев симметрии рассмотрим только случай, когда порождающее распределение непрерывно в точке гипотетического центра симметрии т. е. вероятность получить наблюдение с значением равна 0. Тогда имеем следующие формулы для дисперсий:
(1148,)