Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
5. УСЛОВНЫЕ ПЕРЕСТАНОВОЧНЫЕ КРИТЕРИИ ОДНОРОДНОСТИ МНОГОМЕРНЫХ ВЫБОРОК ПРИ НЕСЛУЧАЙНЫХ ПРОПУСКАХВ этом разделе будут сформулированы критерии и результаты для двухвыборочной задачи, а затем описаны их аналоги для нескольких выборок и провеедно обсуждение методов вычисления. 5.1. ОПИСАНИЕ КРИТЕРИЕВРассмотрим задачу проверки однородности двух многомерных выборок с пропусками с нулевой гипотезой
и общей альтернативой
Нас будут интересовать критерии со статистиками типа Смирнова и омега-квадрат. В одномерном случае эти критерии свободны от распределения в классе непрерывных функций распределения (ФР). Для их прямых многомерных обобщений это свойство утрачивается вследствие зависимости между элементами случайного вектора. Естественным и простым выходом является построение критериев, условных по объединенной выборке (для ранговых критериев — условных по матрице рангов объединенной выборки). Этот подход был предложен еще в начале 60-х годов: в [David, Fix (I960)] и [Sen, Chatterjee (1964)] «было указано, что классический принцип перестановок Фишера... в приложении к ранговым критериям для многомерных задач ведет к процедурам, которые свободны от распределения и которые, по крайней мере теоретически, могут быть протабулированы» [Bickel (1969), с. 1]. Применяя этот принцип к многомерному обобщению двухвыборочного критерия Смирнова, П. Бикел [Bickel (1969)] доказал, что такой условный критерий состоятелен и свободен от распределения. Оказывается, можно предложить такие обобщения условных критериев Смирнова и омега-квадрат на случай многомерных наблюдений с пропусками, что они будут состоятельными и свободными от распределения при очень слабых ограничениях на распределение пропусков. Пусть
две независимые выборки -мерных наблюдений с пропусками. Построим для этих выборок маргинальные эмпирические функции распределения (ЭФР) для всех наблюденных структур пропусков (напомним, что структурой пропусков в -мерном наблюдении называется -мерный вектор с координатами «пропуск» или «нет пропуска», а -мерной эмпирической функцией распределения выборки называется
к где угол в с вершиной функция распределения с массой 1 в точке функция Хевисайда). Пусть обозначает число наблюдений с структурой пропусков в 1-й выборке, число наблюдений структурой пропусков во 2-й выборке, (подмножества структур пропусков в выборках могут не совпадать, структуры в одном подмножестве пронумерованы независимо от другого подмножества). Таким образом, мы получим два множества
где -мерная построенная по наблюдениям с структурой пропусков из первой выборки, размерность соответствующего подпространства во второй выборке, в качестве аргумента по-прежнему обозначает подмножество переменных исходного -мерного случайного вектора присутствующих согласно структуре пропусков Далее индексы в обозначениях опущены. Критерий типа Смирнова основан на статистике
Заметим, что если число наблюденных структур пропусков в первой (второй) выборке больше единицы, то соответствующая сумма в (10) уже не является функцией распределения. Далее, если не выполняется условие ОПС, то эти суммы не являются в общем случае состоятельными оценками соответствующих линейных комбинаций маргинальных функций распределения исходной или Верхняя грань в (10) берется по Статистика сравнивается с критическим значением где объединенная выборка наблюдений с пропусками: Точнее,
где критическая функция, а величины, зависящие от и обеспечивающие нужный уровень значимости а. Значения определяются единственным образом для любого Уточнять способ их выбора мы не будем, поскольку на практике обычно оперируют фактически достигаемым уровнем значимости, способ вычисления которого обсуждается ниже. Распределение статистики при нулевой гипотезе определяется на множестве перестановок, условном по объединенной выборке
где I — индикатор события, значение статистики (10) для возможного способа выбора (без возвращения) наблюдений из в выборку объема Теорема 5. Пусть распределение пропусков в выборках одинаково:
где вероятность наблюдения выборки со структурой при значении а в остальном произвольно. Тогда условный критерий (10), (11) уровня состоятелен против альтернативы причем найдутся такие что Здесь через обозначены подпространства соответствующие присутствующим и отсутствующим переменным при структуре Дополнительное условие, конкретизирующее альтернативу в формулировке теоремы, означает, упрощенно говоря, что критерий обнаруживает любое различие между распределениями на множестве, вероятность наблюдения из которого больше нуля (т.е. различие, не «маскируемое» пропусками). Наблюдения с различным числом присутствующих значений имеют в (10) одинаковый вес. Более общий вид статистики (10):
и при выборе где число присутствующих переменных в структуре (и аналогичном выборе эта ситуация изменится. При этом коэффициенты, соответствующие «пустым» наблюдениям с будут равны нулю, т.е. различие выборок по таким наблюдениям уже не будет приниматься в расчет. Вообще говоря, выбор коэффициентов довольно произволен. При способах выбора, обсуждавшихся выше, учитывается различие выборок по распределению структур пропусков. Можно отказаться от этого: значения или также обеспечивают справедливость теоремы 5. Статистика Смирнова для многомерных допускает и другие обобщения при пропусках, например
где максимум берется по множеству структур присутствующих в (в (15) принято, что индексы в обозначениях относятся к одной и той же структуре пропусков что допускается или При выборе или формулировка теоремы 5 для статистики (15) сохраняется дословно. Статистикой типа омега-квадрат в обсуждаемой постановке будет:
где некоторая весовая функция (не обязательно Возможны, конечно, и другие способы обобщения статистик типа Смирнова и омега-квадрат. Так, супремум в (10), (14), (15) берется по Это эквивалентно поиску максимума на множестве точек из которых координаты принимают значения переменной, имеющиеся в объединенной выборке во всех возможных сочетаниях, т. е. где значение переменной объекта объединенной выборки, если оно присутствует, и если отсутствует. В случае двух выборок объемов при отсутствии пропусков и совпадений число элементов множества составит Таким образом, объем вычислений увеличивается экспоненциально с ростом размерности наблюдений, по крайней мере, для простого перебора по множеству Другой путь прямого обобщения статистик типа Смирнова — брать максимум модуля в выражениях (10), (14), (15), только в выборочных точках, т. е. на множестве где означает то же, что и выше. Обозначим статистики, полученные таким способом, через Очевидно, Заметим, что критерии, основанные на втором способе обобщения статистики Смирнова, также состоятельны. Относительно сравнения двух подходов по мощности соответствующих критериев и другим свойствам пока ничего нельзя сказать. В случае статистик типа омега-квадрат можно по-разному выбирать функцию в (16) в согласии с этими двумя подходами. В первом интеграл (16) обратится в сумму подынтегральной функции по множеству во втором — в сумму по множеству V (второй вариант соответствует формальному прочтению для многомерного случая статистики Лемана-Розенблатта с , где объединенной выборки [Большее, Смирнов (1983), с. 86]). В многовыборочном случае это обилие вариантов множится на несколько способов построения статистик для к выборок (см. например, [Гаек, Шидак (1971), с. 133—136]). Один из наиболее известных способов (см. [Черномордик (1980)] и ссылки там) можно обобщить на случай данных с пропусками следующим образом:
где число структур пропусков в выборке, -мерная построенная по наблюдениям с структурой в выборке, некоторые положительные коэффициенты, например, объем выборки. Распределение статистики (17) определяется аналогично (12). Обобщение (12) и условия (13) очевидно. Переформулировка для многовыборочного случая теоремы 5 и следующих за ней предложений также не составит труда для читателя. Из (12) следует, что условные критерии типа (14) — (17) как перестановочные критерии свободны от распределения, поскольку при заданной объединенной выборке и при нулевой гипотезе распределение статистики одно и то же в семействе всех распределений на т. е.
не зависит от Это свойство, конечно, верно для обоих подходов к многомерному обобщению критериев типа Смирнова и омега-квадрат. Заметим также, что в предлагаемых критериях не требуется непрерывности так что совпадения в наблюдениях в выборке по одной или более переменным не требуют модификаций процедур. Это обстоятельство — естественное следствие построения критериев как условных по (объединенной) выборке [см. Кокс, Хинкли (1978), гл 6].
|
1 |
Оглавление
|