Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
6.5. БАЙЕСОВСКОЕ ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ6.5.1. БАЙЕСОВСКИЙ КЛАССИФИКАТОРМетоды максимума правдоподобия не рассматривают вектор параметров практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что Начнем с четкого определения основных предположений. Предполагаем, что 1. Число классов известно. 2. Априорные вероятности 3. Вид условных по классу плотностей 4. Часть знаний о 5. Остальная часть знаний о
После этого мы могли бы непосредственно начать вычисление Покажем явно роль выборок, записав это в виде
Так как выбор состояния природы
Введем вектор неизвестных параметров, написав
Поскольку сам х не зависит от выборок, то Таким образом, получаем
То есть наша наилучшая оценка для 6.5.2. ОБУЧЕНИЕ ВЕКТОРУ ПАРАМЕТРОВИспользуя правило Байеса, можем написать
где независимость выборок приводит к
С другой стороны, обозначив через
Это основные соотношения для байесовского обучения без учителя. Уравнение (20) подчеркивает связь между байесовским решением и решением по максимуму правдоподобия. Если
То есть эти условия оправдывают использование оценки по максимуму правдоподобия, используя ее в качестве истинного значения 0 при создании байесовского классификатора. Естественно, если плотность она будет далека от равномерной и это решающим образом повлияет на Тогда это и есть формальное байесовское решение задачи обучения без учителя. В ретроспективе тот факт, что обучение без учителя параметрам плотности смеси тождественно обучению с учителем параметрам плотности компонент, не является удивительным. Действительно, если плотность компонент сама по себе является смесью, то тогда действительно не будет существенной разницы между этими двумя задачами. Однако существуют значительные различия между обучениями с учителем и без учителя. Одно из главных различий касается вопроса идентифицируемости. При обучении с учителем отсутствие идентифицируемости просто означает, что вместо получения единственного вектора параметров мы получаем эквивалентный класс векторов параметров. Однако, поскольку все это приводит к той же плотности компонент, отсутствие идентифицируемости представляет теоретических трудностей. При обучении без учителя отсутствие идентифицируемости представляет более серьезные трудности. Когда 0 нельзя определить единственным образом, смесь нельзя разложить на ее истинные компоненты. Таким образом, в то время как Другая серьезная проблема для обучения без учителя —
и поэтому остается мало надежды найти простые точные решения для представления
Но по формулам (21) и (1) имеем
Таким образом, Другой способ сравнения обучения с учителем и без учителя состоит в подстановке плотности смеси
Если мы рассматриваем особый случай, где
Сравним уравнения (23) и (24), чтобы увидеть, как дополнительная выборка изменяет нашу оценку 0. В каждом случае мы можем пренебречь знаменателем, который не зависит от Предполагая, что выборка действительно принадлежит классу 1, мы видим, что незнание принадлежности какому-либо классу в случае обучения без учителя приводит к уменьшению влияния изменение 6.5.3. ПРИМЕРРассмотрим одномерную двухкомпонентную смесь с
Рассматриваемая как функция от х, эта плотность смеси представляет собой суперпозицию двух нормальных плотностей, причем одна имеет пик при
где С добавлением второй выборки
(см. скан) Рис. 6.5. Байесовское обучение без учителя. (см. скан) Рис. 6.6. Эффект сужения априорной плотности. К сожалению, первое, что мы узнаем из этого выражения, — это то, что Возможно использование соотношения
и численного интегрирования для того, чтобы получить приближенное числовое решение Одно из основных различий между байесовским и подходом по максимуму правдоподобия при обучении без учителя связано с априорной плотностью 6.5.4. АППРОКСИМАЦИЯ НА ОСНОВЕ ПРИНЯТИЯ НАПРАВЛЕННЫХРЕШЕНИЙ Хотя задачу обучения без учителя можно поставить просто как задачу определения параметров плотности смеси, ни метод максимума правдоподобия, ни байесовский подход не дают простых аналитических результатов. Точные решения даже простейших нетривиальных примеров ведут к необходимости применения численных методов; объем вычислений при этом растет экспоненциально в зависимости от числа выборок. Задача обучения без учителя слишком важна, чтобы отбросить ее только из-за того, что точные решения слишком трудно найти, и поэтому были предложены многочисленные процедуры получения приближенных решений. Так как основное различие между обучением с учителем и без учителя состоит в наличии или отсутствии меток для выборок, очевидным подходом к обучению без учителя является использование априорной информации для построения классификатора и использования решений этого классификатора для пометки выборок. Такой подход называется подходом принятия направленных решений при обучении без учителя и составляет основу для различных вариаций. Его можно применять последовательно путем обновления классификатора каждый раз, когда классифицируется непомеченная выборка. С другой стороны, его можно применить при параллельной классификации, то есть подождать, пока все С подходом принятия направленных решений связаны некоторые очевидные опасности. Если начальный классификатор не достаточно хорош или если встретилась неудачная последовательность выборок, ошибки классификации непомеченных выборок могут привести к неправильному построению классификатора, что в свою очередь приведет к решению, очень приблизительно соответствующему одному из меньших максимумов функции правдоподобия. Даже если начальный классификатор оптимален, результат пометки не будет соответствовать истинной принадлежности классам; классификация исключит выборки из хвостов желаемого распределения и включит выборки из хвостов других распределений. Таким образом, если имеется существенное перекрытие между плотностями компонент, можно ожидать смещения оценок и неоптимальных результатов. Несмотря на эти недостатки, простота процедур направленных решений делает байесовский подход доступным для численных методов, а решение с изъянами чаще лучше, чем отсутствие решения. При благоприятных условиях можно получить почти оптимальный результат при небольших вычислительных затратах. В литературе имеется несколько довольно сложных методов анализа специальных процедур направленных решений и сообщения о результатах экспериментов. Основной вывод состоит в том, что большинство этих процедур работает хорошо, если параметрические предположения правильны, если перекрытие между плотностями компонент невелико и если начальный классификатор составлен хотя бы приблизительно правильно.
|
1 |
Оглавление
|