2.5. СТАТИСТИЧЕСКАЯ РЕГУЛЯРИЗАЦИЯ РЕШЕНИЯ
Сформулируем задачу восстановления изображений как задачу математической статистики. Будем рассматривать матричную форму записи основного интегрального уравнения, в котором шум учитывается в виде случайного вектора:
где
вектор, составленный из отсчетов точного значения изображения
вектор, составленный из отсчетов наблюдаемого изображения
матрица весовых коэффициентов, составленная из отсчетов функции
Будем считать, что
-мерный вектор,
и
—мерные векторы
и
матрица
Обозначим через
априорную плоскость вероятности шума
Очевидно, что компоненты вектора
являются также случайными величинами, зависящими как от вектора отсчетов исходного изображения, так и от компонентов случайного вектора
Плотность условной вероятности
вектора
при данном векторе
с учетом (2.52) равна
С вектором изображения
будем связывать априорную плотность вероятности
С точки зрения математической статистики теперь задача формулируется следующим образом. Известна условная плотность вероятности
Требуется найти решающее правило (преобразование, алгоритм), позволяющее по наблюдаемому вектору производить оценку
искомого вектора
.
Прежде чем перейти к решению этой задачи, кратко изложим необходимые нам основные положения теории статистических оценок. Критерий оптимальности в этой теории обычно связывают с так называемой функцией потерь (иначе — функцией стоимости или штрафов)
. Вид ее выбирается на основе тех или иных соображений о задаче. Так, если значение
должно быть как можно ближе к истинному значению
то берут такую функцию
которая имеет минимум по
вблизи точки
Как правило, полагают, что потери зависят только от ошибки оценки
Тогда
является функцией одной переменной 8.
Типичные функции потерь показаны на рис. 2.5. Функция потерь, приведенная на рис. 2.5,а — просто квадрат ошибки
Обычно ее называют квадратичной функцией потерь. Линейная функция потерь (рис.
дает абсолютное значение ошибки
. В отличие от линейной квадратичная функция потерь подчеркивает значимость больших ошибок. Скачкообразная функция потерь (рис. 2.5,в) приписывает нулевые потери всем ошибкам, находящимся в интервале
Иначе говоря, ошибка величиной не более
эквивалентна отсутствию ошибки. Если же
больше
то ошибке приписывается постоянное значение потерь, равное, скажем,
.
Качество решения можно определить лишь некоторыми средними величинами, так как конкретное значение
при оказывается случайным. Усреднением
по
получают так называемый условный риск
Выбор оптимального решающего правила, минимизирующего условный риск, можно произвести на основе различных
подходов (байесова, минимаксного и др.), по-разному учитывающих априорную информацию.
Рис. 2.5. Типичные функции потерь: а — квадратичная; б - линейная; в — скачкообразная
Априорное распределение
в байесовой теории считается заданным и рассматривается средний риск
где
— плотность совместной вероятности векторов
Оптимальное решающее правило, минимизирующее средний риск, называется байесовым решением, а полученная с ею помощью оценка — байесовой оценкой. Особая роль байесовых оценок в математической статистике определяется их общностью Например, известно, что минимаксное правило выбора решений является частным случаем байесова решения, соответствующем наименее благоприятному априорному распределению оцениваемой величины, для которого средний риск имеет наибольшее значение.
Будем рассматривать оптимальные байесовы оценки для функций потерь, изображенных на рис. 2.5. Для квадратичной функции потерь средний риск
Учитывая, что
где
априорная плотность вероятности вектора
- апостериорная плотность вероятности искомого вектора
формулу (2.55) запишем в виде
Минимум
можно найти, минимизируя внутренний интеграл в (2.56):
Будем называть оценку
приводящую к минимуму
оценкой по минимуму средней квадратической ошибкц или просто МСК-оценкой и обозначать
Для ее отыскания продифференцируем интеграл в (2.57) по
и приравняем результат к нулю. Получим
Вторая производная положительна, равна константе, и, следовательно, искомый экстремум является единственным минимумом. Замечая, что втооой интеграл в (2.58) равен единице, находим:
Таким образом, МСК-оценка — просто среднее апостериорной плотности вероятности (условное среднее).
Аналогично можно показать, что оценка по минимуму абсолютного значения ошибки (будем называть ее МАЗ-оценкой и обозначать
соответствующая линейной функции потерь, равна медиане апостериорной плотности вероятности [20].
Можно также показать, что если в (2.54) для среднего риска использовать скачкообразную функцию потерь, то для достаточно малых А оптимальной байесовой оценкой будет такое значение
при котором апостериорная плотность вероятности
имеет максимум. Будем называть эту оценку оценкой по максимуму апостериорной вероятности (МАВ-оценкой) и обозначать
Обычно находят положение максимума апостериорной плотности вероятности по функции
Если
имеет непрерывную первую производную и максимум лежит внутри области допустимых значений
то для его отыскания можно продифференцировать
по
и составить уравнение:
Уравнение (2.60) называется уравнением максимальной апостериорной вероятности. При его решении в каждом конкретном случае необходимо проверить, является ли найденный экстремум абсолютным максимумом.
Для того чтобы выделить роль априорных сведений, можно, используя формулу Байеса
записать логарифм апостериорной функции плотности вероятности, как
и, учитывая, что последний член в правой части этого равенства не зависит от
представить уравнение максимальной апостериорной вероятности для получения МАВ-оценки в виде
В тех случаях, когда нет никаких сведений об априорном распределении вероятностей
и нельзя отдать предпочтение той или стгой функции потерь, математическая статистика рекомендует для оценивания
использовать метод максимального правдоподобия. Согласно этому методу в качестве оценки
выбирается такое значение
которое с наибольшей вероятностью обусловливает появление в задаче именно данного значения
Условная плотность вероятности
рассматривается как функция
и называется функцией правдоподобия. Оценка по максимуму функции правдоподобия (будем называть ее МФП-оценкой или оценкой максимального правдоподобия и обозначать
это такое значение
при котором функция правдоподобия максимальна. Необходимое (но не достаточное) условие максимума получают дифференцированием логарифма функции правдоподобия по
и приравниванием результата нулю:
Уравнение (2.63) называется уравнением правдоподобия.
Из сравнения (2.62) и (2.63) следует, что МФП-оценка математически эквивалентна предельному случаю МАВ-оценки, когда
Перейдем теперь к оцениванию искомого вектора
при решении основного уравнения (2.52), полагая, что вектора
статистически независимы, а их распределения подчинены нормальному закону. Будем использовать матричную форму записи многомерного нормального распределения, имеющую для произвольного
-мерного вектора
следующий вид:
где
среднее значение
; С — ковариационная матрица (матрица вторых центральных моментов):
Значение квадратичной формы
иногда называют нормой или расстоянием Махаланобиса от
до
Пусть априорное распределение вектора изображения
характеризуется средним значением
и ковариационной матрицей
а распределение вектора шума
нулевым средним значением и ковариадионной матрицей
Заметим, что поскольку
ковариационная матрица
вектора шума будет совпадать с его корреляционной матрицей
(матрицей вторых начальных моментов).
Вычислим апостериорную плотность вероятности
по формуле Байеса (2.61). Для этого рассмотрим входящие в эту формулу распределения. Так как
и
-нормальные распределения, то плотности вероятности
также гауссовские. При этом согласно (2.53) условное распределение
характеризуется средним значением, равным
и ковариационной матрицей, равной
Далее согласно (2.52) и (2.53) среднее значение для распределения
также равно
а ковариационная матрица равна
Таким образом, входящие в формулу Байеса плотности вероятности в рассматриваемом случае имеют вид:
Подставляя (2.64) — (2.66) в (2.61), находим апостериорную плотность вероятности
где
Апостериорная плотность вероятности (2.67) дает нам наиболее полную информацию об искомом векторе, которую можно получить, зная только наблюдаемый вектор
и априорные сведения о задаче
и
МСК-оценку получим по формуле (2.59) как среднее апостериорной вероятности (2.67). Так как медиана нормального распределения совпадает со средним значением, то и МАЗ-оценка равна
Отметим, что МАВ-оценка — такое значение
которое максимизирует
Отсюда следует, что в рассматриваемом случае МАВ-оценка также равна
Чтобы убедиться в этом, вычислим составляющие уравнения максимальной апостериорной вероятности (2.62), используя правила векторного дифференцирования (2.10). Получим
Уравнение (2.62) имеет вид:
а его решение дает МАВ-оценку
После несложных преобразований этого равенства находим, что
в точности совпадает с правой частью (2 69):
Итак, в решаемой задаче байесовы оценки, соответствующие различным функциям потерь, совпадают
и приводят к одному и тому же оптимальному результату:
или
Совпадение оценок является следствием известного в теории оценок положения: для самых разных функций потерь, имеющих симметричную
выпуклую форму, оптимальная оценка есть условное среднее, если апостериорная плотность вероятности является унимодальной функцией, симметричной относительно среднего значения.
Отметим, что при
оптимальная оценка (2.72) сводится к решению по методу оптимальной фильтрации Винера:
где
корреляционные матрицы сигнала и шума соответственно (у процессов с нулевым средним ковариационные и корреляционные матрицы совпадают). Выражение
в (2.73) можно считать матричным аналогом передаточной функции оптимального фильтра (2.37).
Оценку максимального правдоподобия найдем, подставив (2 65) в (2.63) и решив уравнение правдоподобия. Нетрудно видеть, что МФП-оценка равна
и совпадает с оптимальной оценкой (2.72) только тогда, когда
Для сравнения точности оценок (2.72) и (2.74) необходимо вычислить соответствующие им ковариационные матрицы ошибок по формуле
Можно показать, что для оптимальной оценки
равно
, т. е.
а для оценки максимального правдоподобия
Таким образом, обратные матрицы в круглых скобках в (2.72) и (2 74) есть не что иное, как ковариационные матрицы ошибок. При сравнении (2.75) и (2.76) видим, что ошибки оптимальной оценки в общем случае меньше, чем ошибки МФП-оценки. Этого и следовало ожидать, учитывая, что метод максимального правдоподобия использует существенно меньшую априорную информацию. Только при
ошибки обеих оценок совпадают.
Следует подчеркнуть, что в выражении для обратной матрицы в (2.72) содержится аддитивный положительный член
играющий стабилизирующую роль и делающий решение устойчивым (см. § 2.1), а в (2.74) такого члена нет. Поэтому решение, полученное методом максимального правдоподобия, нельзя считать регуляризованным. Нетрудно видеть, что такое решение, по существу, сводится к решению по методу наименьших квадратов и в случае невырожденной квадратной матрицы эквивалентно обычному нерегуляризованному решению по методу инверсной фильтрации
Это происходит потому, что без введения априорной плотности вероятности понятие статистической регуляризации теряет смысл.
Только предположение о том, что опыт по измерению наблюдаемого вектора
является одним из серии подобных опытов, которые производятся при различных состояниях искомого объекта
выбираемых случайно в соответствии с плотностью вероятности
позволяет получить по методу статистической регуляризации решение, устойчивое к малым изменениям исходных данных.
С помощью метода статистической регуляризации можно получать устойчивые решения нелинейных уравнений формирования изображений.
Предположим, что в системе формирования содержится нелинейность вида
преобразующая отклик линейной части сигнала
в выходное изображение
компоненты
вектора
отображается в соответствующие компоненты
вектора
Тогда для восстановления изображения необходимо вместо линейного уравнения решать нелинейное уравнение
Для его решения используем оптимальную оценку, которую вычислим с помощью уравнения максимальной апостериорной вероятности (2.62). Если сохранить все принятые раньше предположения о распределениях сигнала и шума, то априорная плотность
будет определяться согласно (2.64), а условное распределение
будет равно
Вычислим составляющие уравнения (2.62), используя (2.64) и последнее выражение. Получим
где
диагональная матрица, в которой производные берутся в точках, соответствующих значениям компонентов вектора
Уравнение максимальной апостериорной вероятности имеет вид
и отличается от (2.70) только наличием нелинейности
и матрицей производных
Из предыдущего уравнения находим оптимальную оценку
Нетрудно видеть, что решение (2.71) линейной задачи является частным случаем оценки (2.78) при
(тогда становится единичной матрицей). Однако преобразовать (2.78) к виду, аналогичному (2.72), в общем случае нельзя. Фактически оценка (2.78) представляет собой нелинейное уравнение, в котором исходный вектор
входит как в левую, так и в правую часть уравнения. Общие способы решения таких уравнений неизвестны и их обычно решают приближенными численными методами.