10.2. МНОЖЕСТВЕННЫЕ КРИТЕРИИ И СРАВНЕНИЯ
10.2.1. ВВЕДЕНИЕ
Представленные примеры исследования экспериментальных данных методом наименьших квадратов показали, что при этом обычно приходится проверять некоторые гипотезы и строить доверительные границы. Мы можем провести различие между двумя типами задач статистического вывода, а именно:
а) указание на то, какие еще эксперименты следует выполнить,
б) как строятся границы по имеющимся данным.
Таким образом, если мы располагаем данными, расклассифицированными по группам факторами, критерии дисперсионного анализа, основанные на
-распределении, применяются для установления наличия различных эффектов, ради чего и планировался этот эксперимент. Следовательно, формулировка соответствующих гипотез и их проверка согласуются с собранными данными. Например, если в полной двусторонней перекрестной классификации сравниваются четыре лекарства (скажем, А,
для каждого из трех режимов питания (диет), то мы, конечно, должны проверять те гипотезы, которые связаны с приведенным ранее дисперсионным анализом, т. е.:
1) нет взаимодействия между лекарствами и диетами,
2) нет различия между лекарствами,
3) нет различия между диетами.
Еще нас могут заинтересовать доверительные интервалы для средних эффектов каждого лекарства и каждой диеты. Все это надо отнести к задаче типа а). Сверх того мы могли бы сформулировать и другие вопросы, подсказанные результатами. Так, если критерий указывает на различия между лекарствами (предположим, что они соответствуют строкам), отбрасывая гипотезу
мы можем выяснить далее, какие именно (если они есть) лекарства имеют одинаковые эффекты, а какие — разные. Пусть, например, из итогов по строке видно, что лекарства А, В и D дают примерно одинаковые результаты, в то время как лекарство С действует несколько лучше. Мы можем спросить: дают ли А, В и D одинаковые эффекты? И если да, то действительно ли С лучше, чем все они? Для ответа на первый вопрос мы могли бы рассмотреть гипотезу
что предполагает обычную процедуру переоценивания при условии Н, чтобы найти
Не столь важно, что это утомительно (то же можно сказать и о других задачах типа
важнее другое, номинальный уровень значимости, при котором проверяется Н (скажем, 5%), не совпадает с истинным уровнем значимости. А это может ввести в заблуждение. Почему это происходит? Главным образом, потому, что Н выдвигается на основе результатов, и проверка, следовательно, обусловлена данными наблюдений. Если бы гипотеза Н проверялась все время (в гипотетических повторных экспериментах), то уровень значимости был бы равен 5%, т. е. в длинном ряду проверок ошибочно отвергнутые гипотезы Н составили бы около 5%. В действительности мы можем проверить гипотезу Н лишь однажды, когда: 1) либо
-критерий отвергнет гипотезу Н, 2) либо он покажет, что не видно противоречий с этой гипотезой. Мы, например, совершенно не должны беспокоиться, если А, В и
дают сильно различающиеся результаты, но может случиться, что гипотеза Н на самом деле верна и явно приемлема, но
вероятности ее отбрасывания все-таки остаются. В результате фактическая доля отбрасываний гипотезы Н, когда она верна, сводится к неизвестному числу, меньшему, чем 5%, и это число зависит от субъективных решений экспериментатора при проверке гипотезы Н. В случае, относящемся ко второму вопросу, доверительный интервал для
удается построить. Но и здесь номинальный уровень значимости достигается лишь приближенно, если такой интервал строится независимо от конкретных результатов эксперимента, а не просто подгоняется к ситуации.
Следовательно, необходим такой метод, который допускает подобные проверки и построения доверительных интервалов, подходящих для анализа получаемых данных с общим уровнем значимости или доверия. Один из таких методов обсуждается в разделе 10.2.3.