§ 8.5. Рандомизация и смешанные решения
В задачах решения часто является довольно полезным (и безусловно реалистическим) допущение о том, что статистик может выбирать решение из с помощью той или иной вспомогательной процедуры рандомизации, например подбрасывания монеты. Другими словами, статистик может принимать смешанное или ранд -мизованное решение заключающееся в том, что сначала он приписывает вероятности элементам некоторой последовательности решений из а затем выбирает одно из решений согласно этим вероятностям. Если ущерб отвечающий смешанному решению существует при то, согласно предположению о средней полезности, его значение равно
Для каждого распределения параметра и всякого смешанного решения риск в случае его существования может быть определен той же формулой (4) § 8.1.
В задачах, где пространство решений содержит несчетное число элементов, рандомизованное решение можно определить более общим образом при помощи произвольного вероятностного распределения на некоторой -алгебре подмножеств множества
Пусть обозначает множество всех смешанных решений данной задачи. В отличие от смешанных решений, решения из называются чистыми. Всякое чистое решение можно рассматривать как рандомизованное посредством тривиальной рандомизации, при которой чистое решение выбирается с вероятностью 1. При таком соглашении а Вводя смешанные решения, мы заменяем, таким образом, пространство решений более широким пространством Однако, как мы сейчас увидим, это расширение пространства решений никак не позволяет уменьшить риск статистика, так что нет особой нужды рассматривать решения, не входящие в исходное пространство
Для всякого распределения параметра статистику следует выбирать, если это возможно, решение минимизирующее риск Согласно формуле (1), функция потерь для всякого смешанного решения является смесью (взвешенным средним) функций потерь, отвечающих чистым решениям Поэтому если риск смешанного решения существует, то его значение равно смеси рисков чистых решений Отсюда следует, что
Из соотношения (2) видно, что никакому смешанному решению из не отвечает риск, меньший, чем минимальное значение получаемое при чистых решениях из Далее, соотношение (2) верно безотносительно к конечности или бесконечности байесовского риска и независимо от того, достигается ли это значение на каком-нибудь элементе или нет. Если байесовский риск конечен и достигается при некотором смешанном решении из то из предыдущих замечаний следует, что это же значение достигается и при некотором чистом решении из
Эти рассуждения подтверждают интуитивное представление о том, что статистику не следует принимать важные решения с помощью подбрасывания монеты. Если два или более чистых решений обладают одинаковым байесовским риском, то, вводя добавочную рандомизацию, мы можем выбрать одно из этих решений. Однако поскольку здесь приемлемо любое из этих байесовских решений, метод рандомизации по существу излишен. Во всех других ситуациях использование рандомизации может привести к тому, что окончательное решение окажется не байесовским.
Тем не менее рандомизация играет чрезвычайно важную роль в статистике. Понятия случайного выбора и случайного распределения различных методов обработки по объектам эксперимента являются основными при выполнении эффективных экспериментов. Эти замечания на самом деле не противоречат предыдущим, согласно которым статистику не следует пользоваться рандомизованными решениями, и вот почему.
Утверждение о том, что статистику не следует использовать рандомизованные решения, справедливо в специальных задачах решения с фиксированными пространством доходов и функцией потерь. Утверждение о полезности рандомизации как статистического приема предполагает возможность того, что результаты эксперимента со случайной выборкой могут значительно отличаться от результатов эксперимента с выборкой, осуществляемой неслучайным образом. Независимо от метода получения выборки, статистик должен строить вероятностную модель, отвечающую
эксперименту, для того чтобы дать формальное обоснование дальнейшего статистического анализа.
Для случайных выборок эта модель относительно проста. Следовательно, у проводящих эксперимент статистиков вряд ли возникнут значительные расхождения во мнениях о пригодности данной модели для данного эксперимента и использовании модели в дальнейшем статистическом анализе, так что чисто субъективные аспекты удается отделить от тех, по которым есть общее согласие. По этой причине анализ данных по большой случайной выборке на основе такой общепризнанной модели обычно приводит к резкому уменьшению различий в отдельных взглядах.
С другой стороны, при неслучайном выборе вероятностная модель статистика обычно оказывается в высшей степени субъективной. Поэтому субъективен и весь последующий анализ, и статистику трудно убедить других в справедливости его результатов. Далее, если исходные представления статистика были ошибочными, то его заблуждения могут еще усугубиться при использовании неправильной субъективной модели. Как пишет Нейман (1967), «без рандомизации нет гарантии того, что в экспериментальных данных нет необъективности, которую не обнаружит ни один критерий значимости».
После небольшого отступления, посвященного выпуклым множествам, мы продолжим обсуждение некоторых специальных задач решения. Хотя, как мы убедились, статистик и может в таких задачах ограничиться пространством чистых решений однако в § 8.7 будет показано, что рассмотрение пространства всех смешанных решений более глубоко вскрывает структуру оптимальных чистых решений.