10.3. Гауссовы бейесовские системы

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

10.3. Гауссовы бейесовские системы

1. Пусть есть точки эвклидовых пространств имеющих размерность соответственно. Бейесовская система называется гауссовой, если распределение гауссово, а с представляет собой сумму линейной и квадратичной форм от I и и. Выбирая соответствующим образом начало координат в будем, следовательно, иметь

что однако, не является обязательным). Здесь использована матричная форма записи:

матрицы. Далее согласно определению гауссовой системы при подходящем выборе начала координат

Матрица а — невырожденная, положительно определенная. Если распределение является вырожденным, т. е. сосредоточено в некотором подпространстве то можно ограничиться рассмотрением пространства заменив на Таким образом, без ограничения общности корреляционную матрицу распределения (10.3.2) можно считать невырожденной.

Для гауссовых систем функцию (см. (9.5.1)) можно искать в следующей гауссовой форме:

Аналогично распределение полагаем гауссовым

и сосредоточенным в некотором подпространстве (размерностью пространства . В частности, может иметь место совпадение . В дальнейшем, ограничиваясь рассмотрением пространства мы и под матрицами будем понимать -матрицы. Итак, рассматриваются такие пространства значений х, и, что матрицы являются невырожденными. Входящие в (10.3.3), (10.3.4) неизвестные определяются в дальнейшем.

Подставляя (10.3.3), (10.3.4) в уравнение (9.5.2), получаем

Предполагая, что матрица х положительно определенная, и, следовательно, возьмем этот интеграл при помощи формулы

где А — положительно определенная матрица (эту формулу легко вывести из (5.4.19). Это приводит к результату

Логарифмируем это равенство и приравниваем порознь квадратичные по и члены, линейные и постоянные. Это дает уравнения

Чтобы получить другие необходимые соотношения, обратимся ко второму уравнению (9.4.23), которое, умножив на запишем в форме

Подставляя сюда будем иметь

Матрица предполагается невырожденной, положительно определенной. Из (10.3.9), еще раз используя формулу (10.3.5), получаем

Это равенство должно выполняться при всех х. Поэтому можно приравнять порознь квадратичные и линейные по х формулы, что дает

Уравнения (10.3.6)-(10.3.8), (10.3.10), (10.3.11) позволяют определить неизвестные а, входящие в (10.3.3) и (10.3.4). Разрешая (10.3.10) относительно х и подставляя в (10.3.6), получаем матричное уравнение

которое, как видно из дальнейшего, полностью определяет матрицу Вводя неизвестную матрицу

и учитывая, что переписываем (10.3.12) в виде

единичный оператор в Используя операторное тождество

[см. формулу при преобразуем (10.3.14) к виду

где единичный оператор в

Нетрудно записать решение уравнения (10.3.16):

тогда

Здесь предположено, что матрицы к являются невырожденными это условие характеризует подпространство Вследствие 10.3.13), (10.3.10) из (10.3.17) получаем

Далее в силу (10.3.11), (10,3.17), (10.3.13) имеем

Подставляя это равенство в (10.3.7), находим

и в силу (10.3.6)

Поскольку матрицы предположены невырожденными, это дает

и вследствие (10.3.20)

Наконец, из (10.3.8) согласно (10.3.22), (10.3.19) получаем

Тем самым функции (10.3.3), (10.3.4) являются полностью найденными.

2. Для вычисления потенциала в силу (9.4.10) нужно разрешить (10.3.3) относительно и усреднить по х с весом (10.3.2):

Здесь учтены (10.3.22), (10.3.23). Поскольку

в силу (10.3.2), то (10.3.24) можно записать

Сюда следует подставить равенство (10.3.19), вследствие которого

Воспользуемся матричной формулой

которая справедлива, если [см. (П.1.5), (П.1.6)].

Полагая в имеем

Применяя это равенство при учете (10.3.26) к (10.3.25) для функций будем иметь

Зависимость Г от следовательно, можно представить формулой

Здесь — размерность пространства

Для вычисления в соответствии с (9.4.29), (9.4.30) остается продифференцировать потенциал (10.3.28), (10.3.29). Из общей теории, относящейся к третьей вариационной задаче (см. доказательство теоремы 9.5) следует, что при этом активною область с одинаковым успехом можно варьировать или считать постоянной. Выбирая последнюю более простую возможность из (10.3.28), получаем

Для получения функции ценности информации (9.3.7) следует образовать разность

Анализ характера активных областей показывает, что если значение следа которое в силу (10.3.30) совпадает с 21, равно нулю, то равен нулю и след Поэтому формула (10.3.31) принимает более простой вид

Последнее соотношение вместе со второй формулой (10.3.30) дает параметрическое представление зависимости

3. Охарактеризуем пространство Для того чтобы изложенная в этом параграфе теория была справедливой, как уже отмечалось, необходимо, чтобы матрицы и и были положительно определенными и, следовательно, невырожденными, а также чтобы матрицы были невырожденными. Нетрудно видеть, что матрица является неотрицательно определенной, поэтому из ее невырожденности следует ее положительная определенность. Принимая далее во внимание (10.3.17), видим, что требование положительной определенности матрицы в сочетании с требованием положительной определенности

к приводит при к положительной определенности и, следовательно, невырожденности матрицы Наконец, учитывая (10.3.19), заключаем, что матрица является положительно определенной, коль скоро матрица а является положительно определенной, а матрица неотрицательно определенной. Таким образом, для выполнения всех нужных требований достаточно выполнения двух требований: 1) чтобы матрица кобыла положительно определенной и 2) чтобы разность была положительно определенной:

Положительная определенность вытекает из (10.3.33) и (10.3.18).

Если х пробегает значения из то пробегает значения из некоторого подпространства, которое мы обозначим Можно утверждать, что пространство есть максимальное линейное подпространство пространства в котором выполняются указанные требования 1) и 2).

4. Примеры. Рассмотрим сначала одномерный пример, когда В этом случае и из формулы (10.3.32) имеем

(матрицы совпадают с числами).

Перейдем к двумерному случаю, когда имеются две независимые гауссовы случайные величины с дисперсиями и нулевыми средними значениями. Пусть матрицы имеют диагональный вид:

Для определенности будем предполагать, что В соответствии с условиями 1) и 2) пространство будет состоять из точек прямой при и совпадать со всем двумерным пространством при

В первом случае, когда одномерно, имеем

В двумерном случае

Записывая формулы (10.3.30) для данного примера при учете (10.3.10), получаем

Исключая находим ценность информации

при (10.3.35)

В точке вторая производная

претерпевает скачок. Она равна слева от точки справа от точки

Ход найденной зависимости изображен на рис. 10.3. Размерность пространства можно интерпретировать как число активных степеней свободы, которое может меняться при изменении температуры. Это приводит к скачкообразному изменению второй производной (10.3.36), что аналогично скачкообразному изменению теплоемкости в термодинамике (фазовый переход второго рода).