5.6. МИНИМАКСНОЕ ПРАВИЛО РЕШЕНИЯ ПРИ НАЛИЧИИ АПРИОРНОЙ НЕОПРЕДЕЛЕННОСТИ ОТНОСИТЕЛЬНО ДАННЫХ НАБЛЮДЕНИЯ х. НЕОДНОЗНАЧНОСТЬ
Минимаксный подход может быть использован для нахождения наилучших правил принятия решения и в тех случаях, когда отсутствует полное статистическое описание данных наблюдения х, т. е. неизвестна (полностью или частично) функция правдоподобия
Помимо отыскания минимаксного правила решения, которое гарантирует определенный уровень фиска, но само по себе может быть и не особенно интересно из-за слишком большой величины этого уровня, при использовании минимаксного подхода можно получить существенную дополнительную информацию о структуре всех возможных «хороших» правил решения, риск которых не превосходит или незначительно превосходит
минимаксный риск для всех допустимых при данной априорной неопределенности и заметно меньше минимаксного риска для большинства
Практически эта информация может оказаться более ценной, чем знание собственно минимаксного правила решения.
В этой связи особенный интерес представляет вопрос о возможной неоднозначности минимаксного решения, о которой шла речь в § 4.3, и о наличии среди минимаксных правил решения таких, для которых при всех кроме некоторых, риск меньше минимаксного риска
Рассмотрим для иллюстрации пример задачи
двухальтернативного решения. Чтобы не осложнять рассуждения деталями, связанными с несущественным влиянием на результат функции потерь и априорных вероятностей состояний 2, положим
Пусть решение
должно приниматься на основании данных наблюдения
где — последовательность нормальных случайных величин с плотностью вероятности
где
корреляционная матрица
совокупность неизвестных параметров с произвольными значениями;
нэкоторая известная матрица порядка
характеризующая способ смешивания неизвестных параметров а с х. В частности, представление (5.6.2) соответствует, например, задаче обнаружения сигнала
представляющего суперпозицию известных функций времени с неизвестными коэффициентами и наблюдаемого в смеси с коррелированным шумом по результатам наблюдения этой смеси в дискретные моменты времени. Можно привести и другие довольно многочисленные примеры практических задач, математическая формулировка которых сводится к (5.6.2).
Из выражений (5.6.2) следует, что значение функции правдоподобия для
известно, а для
зависит от I неизвестных параметров
Введем решающую функцию
- вероятность принять решение
при данном х (для нерандомизированного правила решения
при
при
где
некоторое множество значений
и запишем величину среднего риска для этой решающей функции при фиксированном значении
Величина минимаксного риска находится без труда. Поскольку при
имеет место равенство
то ясно, что при
никакое правило решения (решающая функция
не может дагь риска меньше
Действительно, при
риск
при какой угодно
Следовательно, минимаксный риск не может быть меньше
Легко показать, что на самом деле минимаксный риск равен
поскольку можно выбрать такую решающую функцию
для которой при всех а риск
будет равен
В качестве такой
можно взять
Частные случаи
соответствуют правилам, когда всегда принимается решение
соответственно.
Таким образом, мы показали, что
и нашли целое бесконечное множество правил решения
два нерандомизированных
для любого из которых обеспечивается минимакс. Все эти решения, конечно, обеспечивают гарантированный минимаксный уровень риска, но их нельзя считать «хорошими», так как они дают ту же величину риска при всех значениях и. Сама эта величина такова, что она вообще не требует использования данных наблюдения х, это и проявляется в независимости
от х. Если с таким уровнем риска еще можно примириться при
в окрестности этой точки, поскольку при
состояния
из-за равенства
становятся неразличимыми по результатам наблюдения, то очень трудно согласиться с таким свойством решения при
Попробуем отыскать другие минимаксные правила решения для задачи (5.6.4), которые в какой-то степени соответствовали бы интуитивным представлениям о возможности получения значительно меньшей, чем
величины риска при заметно отличающихся от нуля значениях а. Прежде всего в соответствии с рекомендациями гл. 4 произведем преобразование данных наблюдения х, выделив достаточную статистику для параметров а. Возьмем в качестве такой статистика
оценку максимального правдоподобия для а, которая определяется максимизацией первого из выражений (5.6.2) и имеет вид
где
— симметричная матрица порядка
. Из выражения (5.6.7) следует, что
является
-мерным вектором, имеющим нормальное распределение вероятности, математическое ожидание, равное а, и корреляционную матрицу
Выражения для функции правдоподобия (5.6.2) можно представить
следующем тождественном виде:
откуда следует, что
из (5.6.7) действительно является достаточной статистикой а. Кроме того, «з равенства вторых сомножителей в обоих выражениях (5.6.9) следует, что данные наблюдения при обеих альтернативах
различаются только распределением вероятностей величины
которая в Первом случае имеет математическое ожидание, равное
во втором — равное «нулю. Остальная часть данных наблюдения не содержит информации о значении т. е.
является достаточной статистикой для решения исходной двухальтернативной задачи. При этом в соответствии с общими свойствами достаточных статистик можно, не опасаясь увеличения риска, выбирать правило решения (решающую функцию
зависящее только от
Рассмотрим следующее правило:
решение
принимается в том случае, когда величина
превышает некоторый пороговый уровень С, а решение
если
т. е.
и найдем для него величину риска
со следующей очевидной цепочкой равенств:
где
плотность распределения вероятности величины
При условии, что имеет место первая ситуация
и неизвестные параметры
значение
же при второй ситуации
Величина
из (5.6.10) неотрицательна и имеет распределение хи-квадрат с I степенями свободы [8, 16]: центральное при
и нецентральное при
с параметром нецентральности
При
где
плотность вероятности нецентрального хи-квадрат распределения с I степенями свобод и параметром нецентральности а (напомним, что нецентральное хи-квадрат распределение вводится как распределение суммы квадратов
независимых случайных величин, сумма квадратов математических ожиданий которых равна а, а дисперсия каждой из них равна единице).
Из (5.6.14) следует, что риск
зависит от а только посредством неотрицательной квадратичной формы (5.6.13), принимая постоянные значения на гиперповерхностях пространства параметров а, определяемых соотношением
Таким образом,
Согласно свойствам хи-квадрат распределения последнее выражение в фигурных скобках при любых значениях
положительно и равно нулю при
Поэтому рйск правила решения (5 6.11) не больше минимаксного риска при любых значениях а и достигает минимаксного уровня только при
(или
Таким образом, семейство правил решения (5.6.11) для различных: значений С дает еще одну совокупность минимаксных правил, которая обладает значительно лучшими свойствами: минимаксный уровень риска (5.6.6) достигается только при одном значении
а при всех других значениях а риск меньше минимаксного. Можно показать также [16], что семейство (5.6.11) содержит вообще все наилучшие решения данной двухальтернативной задачи и обладает следующим свойством: среди всех правил решения (всех решающих функций
для которых величина условного риска
фиксирована и равна заданной величине
правило решения (5.6.11) с порогом С, выбранным из условия
является равномерно наилучшим правилом, т. е. таким, что условный риск
для
из (5.6.11) минимален При любом значении а.
Рассмотренный пример является, конечно, не более чем иллюстрацией применения минимаксного подхода, хотя математическая формулировка этого примера может соответствовать обширному кругу практически важных задач. Естественно, что минимаксный подход
может быть использован для решения очень большого числа задач, в которых имеет место априорная неопределенность в статистическом описании данных наблюдения х. Более того, можно быть уверенным, что если в какой-то из этих задач существует равномерно наилучшее (в соответствии с общим определением гл. 4 или в более частном понимании, как в рассмотренном выше примере) правило решения, то оно обязательно будет найдено при достаточно внимательном исследовании семейства минимаксных решений. Однако, к сожалению, приходится констатировать, что нельзя указать какой-либо достаточно общей и в то же время эффективной процедуры нахождения минимаксных правил решения. Фактически так или иначе нахождение минимаксного правила — это большее искусство, чем обычная техническая работа по готовым рецептам, и, как правило, сводится к угадыванию структуры решения. Поэтому конструктивные достоинства этого метода синтеза довольно ограничены, хотя, с другой стороны, если удается установить, что выбранное в условиях априорной неопределенности правило решения удовлетворяет и принципу минимакса, то это, безусловно, является положительным фактором, поскольку гарантирует некоторый определенный уровень риска, понизить который в данных условиях невозможно.