Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (14) и (34). Предположим, что
имеет острый пик при
Если априорная плотность
при
не равна нулю и не претерпевает больших изменений в окрестности этой точки, то
также имеет пик в этой точке. Из (14), таким образом, следует, что
будет примерно представлять
и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик
не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истинного значения величины 0, то способ использования имеющейся информации для расчета требуемой плотности
подсказывается байесовским решением.
Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости
Сначала кратко обсудим вопрос сходимости, а позже вернемся к вопросу о вычислениях.
Для четкого обозначения числа выборок в множестве, используем запись вида
Далее из соотношения (35) для
получим
Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостериорной плотности следующее рекуррентное соотношение:
Многократно применяя эту формулу с учетом того, что
получим последовательность плотностей
и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют байесовским обучением.
Для большинства обычно встречающихся плотностей
последовательность апостериорных плотностей сходится к дельтафункции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение 0, которое приводит
к такому соответствию с реальностью, т. е. что
может быть однозначноопределено из
. В этом случае говорят, что плотность
идентифицируема. Для строгого доказательства сходимости при указанных условиях нужна точная формулировка
требуемых свойств величин
и тщательное обоснование выводов, но серьезных трудностей это не представляет.
Существуют, однако, случаи, при которых одно и то же значение
получается более чем для одного значения
. В таких случаях величина
не может быть определена однозначно из
будет иметь пик вблизи каждого из указанных значений
. К счастью, эта неопределенность исчезает при интегрировании соотношения (14), так как
одинакова для всех указанных значений
. Таким образом,
будет неизбежно сходиться к
независимо от того, идентифицируема или нет
Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя.