Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
2.2. Проверка двух простых гипотезНачнем наше рассмотрение с задачи, связанной с принятием решения, в которой каждое из двух значений выходной величины источника соответствует одной из двух гипотез. Каждая гипотеза отображается точкой в пространстве наблюдений. Предполагается, что пространство наблюдений соответствует ряду из результатов наблюдений: Поэтому каждый ряд можно себе представить как точку в -мерном пространстве и обозначить вектором
Вероятностный механизм перехода генерирует точки в пространстве наблюдений в соответствии с двумя известными условными плотностями вероятностей Наша цель заключается в том, чтобы использовать эту информацию для выработки соответствующего правила решения. Для этого необходимо рассмотреть различные критерии принятия решения. 2.2.1. Критерии принятия решенияВ задаче проверки двух гипотез нам известно, что верна либо гипотеза Я о, либо гипотеза Н. Ограничим рассмотрение только правилами решения, необходимыми для того, чтобы сделать выбор. (Можно было бы принять и другую возможную процедуру, когда, по правилам решения допускаются три ответа: а) правильна правильна и в) определенного ответа дать нельзя.) Таким образом, при каждом испытании возможен один из четырех исходов: 1) верна , выбираем 2) верна выбираем 3) верна Ни выбираем 4) верна. Ни выбираем Первый и третий исходы соответствуют правильным выборам а второй и четвертый — ошибочным. Смысл критерия решения состоит в том, что каждому из четырех возможных исходов (образов действия) придается некоторое относительное значение. Можно предположить, что метод обработки принимаемой информации будет зависеть от выбранного нами критерия решения. В этом параграфе мы покажем, что для двух представляющих наибольший интерес критериев — Байеса и Неймана — Пирсона — операции над идентичны. Критерий Байеса. Байесовское испытание основывается на двух допущениях. Первое заключается в том, что оба значения выходной величины источника подчиняются некоторым распределениям вероятностей, которые обозначим соответственно через и и назовем априорными вероятностями. Эти вероятности отображают информацию, которой располагает наблюдатель до проведения эксперимента. Второе допущение состоит в том, что каждому из возможных образов действия приписывается некоторая стоимость. Обозначим стоимости четырех упомянутых образов действия через соответственно. Первая цифра подстрочного индекса означает выбранную гипотезу, а вторая — гипотезу, которая была правильной. Каждый опыт будет сопряжен с определенными потерями. Желательно, чтобы наше правило решения было построено таким образом, чтобы в среднем эти потери были как можно меньше. Для этого запишем сначала выражение для ожидаемой величины потерь. Легко видеть, что имеются две вероятности, по которым мы должны усреднить: априорная вероятность и вероятность того, что будет предпринят заданный образ действий. Обозначая ожидаемую величину потерь как риск , имеем
Так как мы предполагали, что по правилу решения следует выбирать либо Н либо , его можно рассматривать как правило разбиения пространства наблюдений на две части: (рис. 2.4).
Рис. 2.4. Области решений. Если результат наблюдения оказывается в то принимается а если в то Теперь можно написать выражение для риска через переходные вероятности и подпространства решений:
Для -мерного пространства наблюдений интегралы (5) являются -кратными. На протяжении всей книги мы исходим из того, что стоимость ошибочно принятого решения выше, чем стоимость правильного решения. Другими словами,
Чтобы найти теперь результат байесовского испытания, нам необходимо выбрать подпространства решений так, чтобы величина риска была сведена к минимуму. Требование обязательного принятия решения означает, что каждая точка пространства наблюдений должна быть поставлена в соответствие подпространству или Таким образом,
Переписав (5), получим
Учитывая, что
(8) можно свести к
Первые два члена в (10) соответствуют фиксированной стоимости. Интеграл представляет собой стоимость, определяемую теми точками которые относятся к Сделанное в (6) допущение предполагает, что разности, заключенные в круглых скобках, являются положительными. Поэтому все значения когда второй член больше, чем первый, следует включить в так как ими вносится в интеграл отрицательная величина. Аналогично, все значения когда второй член меньше первого, следует исключить из (отнести к поскольку ими вносится в интеграл положительная величина. Значения соответствующие равенству двух членов, на стоимость не влияют, и поэтому их можно распределять произвольно. Допустим, что эти точки относятся к Ни и не будем учитывать их в наших последующих рассуждениях. Таким образом, области решений определяются следующим условием: если
то относим следовательно, утверждаем, что истинна в противном случае приписываем и утверждаем, что истинна Формулу (11) можно записать в виде
Величину в левой части неравенства (12) называют отношением правдоподобия и обозначают через
Так как оно представляет собой отношение двух функций случайной величины, то и само является случайной величиной. Нетрудно видеть, что независимо от размерности величина является одномерной. Величина в правой части (12) является порогом испытания и обозначается через :
Таким образом, критерий Байеса приводит нас к критерию отношения правдоподобия (КОП)
Отсюда видно, что вся процедура обработки данных сводится к вычислению и распределение априорных вероятностей или стоимостей на нее влияния не оказывает. Указанная инвариантность процедуры обработки информации имеет большое практическое значение. Часто стоимости и априорные вероятности являются просто квалифицированными предположениями на основе предыдущего опыта (интуиции). Условие (15) позволяет построить все устройство обработки, рассматривая как переменный порог, учитывающий изменения в наших оценках априорных .вероятностей и стоимостей.
Рис. 2.5. Устройства обработки по критерию отношения правдоподобия. Так как натуральный логарифм — функция монотонная, а обе части неравенства (15) — величины положительные, то эквивалентной формой записи критерия отношения правдоподобия будет
Две соответствующие формы устройства обработки, реализующего процедуру проверки отношения правдоподобия, изображены на рис. 2.5. Прежде чем перейти к рассмотрению других критериев, разберэ три простых примера. Пример Пусть по гипотезе выходной величиной источника является постоянное напряжение а по гипотезе напряжение, равное нулю. Наблюдение выходного напряжения производится на фоне аддитивного шума. Мы берем отсчеты результирующего выходного напряжения через каждую секунду и получаем отсчетов. Каждый отсчет шума есть гауссова случайная величина с нулевым средним и дисперсией Отсчеты шума в различные моменты времени являются независимыми случайными величинами и, кроме того, они не зависят от выходного напряжения источника. Из рис. 2.6 видно, что результаты наблюдений по гипотезам есть
и
так как отсчеты шума являются гауссовыми.
Рис. 2.6. Модель задачи к примеру 1. Нетрудно записать плотности вероятности величины по каждой гипотезе:
и
Поскольку статистически независимы, совместная плотность вероятности величин (или вектора что эквивалентно) равна просто произведению отдельных плотностей вероятностей. Таким образом,
и
Подставляя (21) и (22) в (13), имеем
После приведения подобных членов и взятия логарифма получим
Итак, критерий отношения правдоподобия запишется в виде
или в эквивалентной форме
Нетрудно видеть, что устройство обработки просто суммирует результаты наблюдений и сравнивает с порогом. В этом примере наблюдаемые данные входят в отношение правдоподобия только в виде суммы. Это пример достаточной статистики, которую мы обозначим через (или просто когда аргумент очевиден). Достаточная статистика есть просто функция принятой информации, обладающая тем свойством, что можно записать как функцию Другими словами, при вынесении решения знание величины достаточной статистики точно так же исчерпывающе, как и знание величины В приведенном примере I является линейной функцией Случай, когда это несправедливо, иллюстрируется примером 2. Пример 2. К интересующей нас в этом примере математической модели приводят несколько различных физических ситуаций. Результаты наблюдений представляют ряд из величин: По обеим гипотезам независимые, одинаково распределенные нормальные случайные величины с нулевыми средними. По гипотезе каждая из величин имеет дисперсию а по гипотезе дисперсию Так как указанные случайные величины являются независимыми, совместная плотность вероятности равна просто произведению отдельных плотностей. Следовательно,
Подставляя (27) и (28) в (13) и беря логарифм, получаем
В данном случае достаточная статистика есть сумма квадратов результатов наблюдений:
и эквивалентный критерий для записывается в виде
При смысл этого неравенства меняется на противоположный:
В приведенных двух примерах мы имели дело с нормальными величинами. В следующем примере будет рассмотрен другой тип распределения. Пример 3. Пуассоновское распределение событий часто используется в качестве модели дробового шума и других явлений (см. [1] или [2]). При каждом Проведении эксперимента происходит некоторое число событий, которое и является результатом наблюдения; оно изменяется в пределах от 0 до и подчиняется распределению Пуассона согласно обеим гипотезам, т. е.
где параметр, характеризующий среднее число событий
Именно по этому параметру различаются распределения по двум гипотезам. Переписав (33) так, чтобы подчеркнуть это обстоятельство, получим следующие два распределения Пуассона:
Тогда критерий отношения правдоподобия можно записать в виде
или в эквивалентной ему форме
Данный пример служит иллюстрацией того, как критерий отношения правдоподобия, который мы первоначально записали через плотности вероятности, можно легко привести к виду, удобному для случая, когда результаты наблюдений являются дискретными случайными величинами. Вернемся теперь к нашему общему обсуждению критериев Байеса. Существует несколько специальных видов критериев Байеса, которые часто используются и поэтому заслуживают отдельного рассмотрения. Если принять то выражение для риска (8) приводится к виду
Нетрудно усмотреть, что (39) есть просто полная вероятность допустить ошибку. Следовательно, для данного распределения стоимости критерий Байеса минимизирует полную вероятность ошибки. При этом критерий можно записать в виде
Когда две гипотезы одинаково правдоподобны (равновероятны), порог равен нулю. Это допущение обычно справедливо применительно к цифровым системам связи. Такие устройства обработки называются приемниками с минимальной вероятностью ошибки. Второй частный случай соответствует ситуации, когда априорные вероятности неизвестны. Для исследования этого случая снова обратимся к (8). Из этого выражения видно, что коль скоро области решений выбраны, значения интегралов становятся определенными. Обозначим эти значения следующим образом:
Легко видеть, что эти значения являются условными вероятностями. Подстрочные индексы имеют мнемонический характер и заимствованы из радиолокационной задачи, где гипотеза соответствует наличию цели, а гипотеза ее отсутствию. есть вероятность ложной тревоги, т. е. мы утверждаем, что цель присутствует, когда на самом деле ее нет. Р есть вероятность обнаружения, т. е. мы говорим, что цель присутствует, когда она действительно имеется. есть вероятность пропуска, т. е. утверждаем, что цель отсутствует, когда она на самом деле присутствует.
Рис. 2.7. Функции риска: а — фиксированная величина риска и типичная байесовская функция риска; б, в, г - максимальное значение при соответственно. Хотя класс интересующих нас задач гораздо шире, чем это предполагается данными обозначениями, мы все же будем ради удобства ими пользоваться. При любом выборе областей решений выражение для риска можно написать в обозначениях (41):
Поскольку
(42) приобретает вид
Если все стоимости и априорные вероятности известны, можно воспользоваться критерием Байеса. На рис. 2.7 зависимость байесовского риска от представлена графически. Отметим, что по мере изменения изменяются также и области решений для байесовского критерия, а следовательно, и вероятности Рассмотрим теперь такую ситуацию, в которой задаются некоторым значением вероятности (скажем, и применяют соответствующий байесовский критерий. Зафиксируем теперь порог и предположим, что может изменяться. Обозначим величину риска для этого испытания с фиксированным порогом как Так как порог зафиксирован, то также фиксированы и выражение (44) представляется просто прямой линией. Поскольку это байесовский критерий для то прямая касается кривой именно в этой точке. Рассматривая (14), видим, что порог изменяется от непрерывно. Следовательно, при любой вероятности порог байесовского критерия будет другим, так как байесовский критерий минимизирует величину риска,
Если непрерывная случайная величина со строго моното нной функцией распределения вероятностей, то изменение всегда вызывает изменение риска. Кривая обращена вогнутостью строго вниз. При этом неравенство (45) выполняется всегда. Этот случай, относящийся к числу тех, что представляют для нас особый интерес, иллюстрируется рис. 2.7, а. Мы видим, что линия касательна к кривой Я в в точке Эти кривые показывают влияние недостоверного знания априорных вероятностей. Интересная задача возникает, если предположить, что априорные вероятности выбираются с таким расчетом, чтобы качество обнаружения было как можно хуже. Другими словами, величина выбирается такой, чтобы риск был максимальным. Три возможных примера приведены на рис. 2.7, б, в На рис. 2.7, б максимум имеет место при Для минимизации максимального риска использован байесовский критерий, рассчитанный в предположении, что На рис. 2.7, в максимум имеет место при Чтобы свести максимальный риск к минимуму, используется байесовский критерий, построенный в предположении, что На рис. 2.7, г максимум имеет место внутри интервала и мы выбираем зависимость в виде горизонтальной линии. При этом коэффициент при в (44) должен равняться нулю:
Критерий Байеса, рассчитанный на минимизацию максимально возможного риска, называется минимаксным критерием. Уравнение (46), называемое минимаксным, справедливо во всех случаях, когда максимум Я в лежит внутри рассматриваемого интервала. Особым случаем распределения стоимости, который часто бывает логически оправданным, является
Это распределение гарантирует, что максимум будет внутренним; Обозначая
напишем выражение для риска
и минимаксное уравнение
Прежде чем продолжить наше обсуждение критериев отношения правдоподобия, рассмотрим второй критерий и покажем, что он также ведет к критерию отношения правдоподобия. Испытания по критерию Неймана — Пирсона. Во многих физических ситуациях бывает затрудительно предсказать достаточно реалистичные стоимости и априорные вероятности. Эту трудность можно довольно просто обойти, если иметь дело с условными вероятностями Вообще говоря, нам хотелось бы сделать как можно меньше, как можно больше. В большинстве задач, имеющих практическое значение, эти цели являются противоречащими друг другу. Очевидный критерий заключается в том, чтобы ограничить одну из вероятностей и максимизировать (или минимизировать) другую. Точная формулировка этого критерия приводится ниже. Критерий Неймана — Пирсона. Ограничим и построим критерий, максимизирующий (или минимизирующий ) при указанном ограничении. Решение этой задачи легко получить, используя метод множителей Лагранжа. Построим функцию
или
Очевидно, что при минимизация ведет к минимизации
Заметим, что при любом положительном значении Я критерий отношения правдоподобия минимизирует функцию (Отрицательное значение X приводит к критерию отношения правдоподобия с неравенствами противоположного смысла.) Это обстоятельство следует из (53) непосредственно, так как для минимизации мы относим точку к области только тогда, когда член в квадратных скобках отрицателен. Это эквивалентно критерию: если
то относим точку к области или высказываем гипотезу Величина, стоящая в левой части неравенства (54), есть не что иное, как отношение правдоподобия. Таким образом, функция F минимизируется по критерию отношения правдоподобия
Но Для того чтобы удовлетворить указанному ограничению, выберем , такое, что Если обозначить плотность вероятности величины при условии, что верна гипотеза через то этот выбор равносилен требованию, чтобы
Решая (56) относительно X, получим величину порога. Значение X, определяемое из (56), будет неотрицательным, поскольку при отрицательных значениях Заметим, что уменьшение X эквивалентно увеличению -области, где мы утверждаем, что истинна гипотеза Следовательно, возрастает по мере уменьшения Поэтому мы уменьшаем X до тех пор, пока не получим максимально возможное . В большинстве интересующих нас случаев представляет собой непрерывную функцию X и мы имеем Во всех наших последующих рассуждениях указанная непрерывность будет предполагаться. При этом допущении критерий Неймана — Пирсона ведет к критерию отношения правдоподобия. В примере 2 § 2.2.2 мы увидим, к чему приводит несправедливость предположения о непрерывности функции. Заключение. В этом параграфе были изложены две идеи, имеющие фундаментальное значение в статистической теории решений. Первый результат сводится к тому, что для критериев Байеса и Неймана — Пирсона оптимальная процедура испытаний состоит в обработке результатов наблюдения с целью отыскания отношения правдоподобия и в сравнении его с порогом для того, чтобы принять решение. Таким образом, независимо от числа измерений пространства наблюдения пространство решений является одномерным. Вторая идея — это представление о достаточной статистике Понятие достаточной статистики было введено нами, когда мы строили отношение правдоподобия и выяснили, что в явном виде оно зависит только от Если мы действительно построим а затем определим то понятие достаточной статистики, по-видимому, будет иметь второстепенное значение. Более важен случай, когда можно определить непосредственно. Простой способ решения этой задачи — рассмотреть геометрическую интерпретацию понятия достаточной статистики. Мы рассматривали результаты наблюдений как координаты точки в Л-мерном пространстве, и один из способов определения этой точки заключается в использовании указанных координат. Когда мы выбираем достаточную статистику, мы просто задаем точку в системе координат, что является более удобным при рассмотрении задач статистической теории решений. Обозначим первую координату в данной системе через достаточную статистику остальные координат, которые не будут влиять на наше решение, — через -мерный вектор у. Таким образом,
Теперь выражение, стоящее в правой части, можно переписать в виде
Если I есть достаточная статистика, то должно сводиться к Это означает, что вторые члены в числителе и знаменателе должны быть равны. Другими словами,
так как плотность вероятности величины у не может зависеть от того, какая из гипотез является верной. Видим, что выбор достаточной статистики сводится просто к выбору системы координат, в которой одна координата содержит всю информацию, необходимую для принятия решения. Остальные координаты не содержат никакой информации, и с точки зрения вынесения решения их можно не принимать во внимание. В примере 1 новую координатную систему можно было получить просто путем поворота. Например, когда
В примере 2 новая система координат явилась результатом преобразования в полярные координаты. Так, для
Заметим, что вектор у может быть выбран с таким расчетом, чтобы наглядность условия (59) достигалась возможно более простым способом. Единственное требование сводится к тому, что пара должна описывать любую точку пространства наблюдений. Следует также отметить, что условие
никак не влечет за собой (59), если независимы при гипотезах и Мы будем часто выбирать у так, чтобы обеспечить эту независимость и затем использовать (62) для проверки того, что I является достаточной статистикой.
|
1 |
Оглавление
|