Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
6.4. ПРИЛОЖЕНИЕ К СЛУЧАЮ НОРМАЛЬНЫХ СМЕСЕЙПосмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, . Следующая таблица иллюстрирует несколько различных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны и какие неизвестны :
Случай 1 самый простой, и мы его рассмотрим подробно из педагогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая возникает, когда мы сталкиваемся с полностью неизвестным множеством данных. К сожалению, он не может быть решен методами максимума правдоподобия. Мы отложим на конец главы обсуждение того, что можно сделать, когда число классов неизвестно. 6.4.1. СЛУЧАЙ 1. НЕИЗВЕСТНЫ СРЕДНИЕ ВЕКТОРЫЕсли единственными неизвестными величинами являются векторы средних значений то можно идентифицировать с и использовать соотношения (6) для получения необходимых условий оценки по максимуму правдоподобия вектора Поскольку
то
Таким образом, из условия (6) для оценки по максимуму правдоподобия получим
После умножения на и перестановки членов получаем формулу
которая интуитивно оправданна. Она показывает, что оценка для это просто взвешенное среднее выборок. Вес выборки есть оценка правдоподобия того, что принадлежит классу. Если оказалось, что равно единице для нескольких выборок и нулю для остальных, то есть среднее выборок, которые оценены как принадлежащие классу. В более общем смысле предположим, что достаточно близко к действительному значению и что есть в сущности верная апостериорная вероятность для Если рассматривать как долю тех выборок, имеющих значение которые принадлежат классу, то видим, что соотношение (12) определяет как среднее выборок класса. К сожалению, соотношение (12) не определяет явно, и если мы подставим
то получим сложную комбинацию из попарно совместных нелинейных уравнений. Решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимизирует правдоподобие. Если у нас есть какой-то способ получения достаточно хороших начальных оценок для неизвестных средних, уравнение (12) предполагает следующую итерационную схему для улучшения оценки:
Это — градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподобия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Однако, когда вычисление закончено, нам достаточно убедиться, что градиент равен 0. Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный. 6.4.2. ПРИМЕРЧтобы продемонстрировать, с какими конкретными вопросами можно встретиться, рассмотрим простую одномерную двухкомпонентную смесь, имеющую нормальную плотность:
25 выборок, показанных в табл. 6. 1, были отобраны из этой смеси Таблица 6.1. 25 выборок из смеси с нормальным распределением
Используем эти выборки для вычисления логарифма функции правдоподобия
для различных значений . На рис. 6. 1 показано, как изменяется I в зависимости от Максимальное значение I достигается при которые находятся поблизости от значений
Рис. 6.1. Контуры функции логарифма правдоподобия. Однако I достигает другого максимума, сравнимого с первым, при . Грубо говоря, это решение соответствует взаимной замене . Отметим, что, если бы априорные вероятности были равны, взаимная замена и не вызвала бы изменения логарифма функции правдоподобия. Таким образом, когда плотность смеси не идентифицируема, решение по максимуму правдоподобия не является единственным. Можно дополнительно взглянуть на природу этих множественных решений, изучая результирующие оценки плотностей смеси. Рис. 6. 2 показывает истинную плотность смеси и оценки, полученные с использованием оценок по максимуму правдоподобия, как если бы они были истинными значениями параметров. 25 значений выборок показаны в виде точек вдоль оси абсцисс. Отметим, что максимумы как действительной плотности смеси, так и решения по максимуму правдоподобия размещены там же, где расположены две основные группы точек.
Рис. 6.2. Оценка плотности смеси. Оценка, соответствующая меньшему локальному максимуму логарифма функции правдоподобия, представляет собой зеркальное отображение, но ее максимумы также соответствуют группам точек. На первый взгляд ни одно из решений не является явно лучшим, и оба представляют интерес. Если соотношение (13) используется для итерационного решения уравнения (12), результаты зависят от начальных значений Рис. 6.3 показывает, как различные начальные точки приводят к различным решениям, и дает некоторое представление о степени сходимости. Отметим, что, если мы попадаем в седловую точку за один шаг. Это не случайность. Это происходит по той простой причине, что в этой начальной точке . Таким образом, уравнение (13) дает средние для всех выборок при всех последующих итерациях. Ясно, что это общее явление, и такие решения в виде седловой точки можно ожидать, если выбор начальной точки не дает направленного смещения в сторону от симметричного ответа.
Рис. 6.3. Траектории для итерационной процедуры. 6.4.3. СЛУЧАЙ 2. ВСЕ ПАРАМЕТРЫ НЕИЗВЕСТНЫЕсли неизвестны и на матрицу ковариаций ограничения не наложены, то принцип максимума правдоподобия дает бесполезные вырожденные решения. Пусть — двухкомпонентная нормальная плотность смеси
Функция правдоподобия для выборок, полученная согласно этому вероятностному закону, есть просто произведение плотностей Предположим, что так что
Ясно, что для остальных выборок
так что
Таким образом, устремляя о к нулю, мы можем получить произвольно большое правдоподобие, и решение по максимуму правдоподобия будет вырожденным. Обычно вырожденное решение не представляет интереса, и мы вынуждены заключить, что принцип максимума правдоподобия не работает для этого класса нормальных смесей. Однако эмпирически установлено, что имеющие смысл решения можно все-таки получить, если мы сосредоточим наше внимание на наибольшем из конечных локальных максимумов функции правдоподобия. Предполагая, что функция правдоподобия хорошо себя ведет на таких максимумах, мы можем использовать соотношения (9)-(11), чтобы получить оценки для . Когда мы включаем элементы матрицы в элементы вектора параметров , мы должны помнить, что только половина элементов, находящихся вне диагонали, независимы. Кроме этого, оказывается намного удобней считать неизвестными параметрами независимые элементы матрицы а не матрицы . После этого дифференцирование
по элементам не представляет труда. Пусть элемент элемент элемент элемент Тогда
где символ Кронекера. Подставляя эти результаты в (10) и проделав некоторые алгебраические преобразования, мы получим следующие выражения для оценок по локальному максимуму правдоподобия:
где (17) Хотя обозначения внешне весьма усложняют эти уравнения, их интерпретация относительно проста. В экстремальном случае при равном единице, если принадлежит классу и равном нулю в противном случае, оценка есть доля выборок из оценка среднее этих выборок и — соответствующая матрица ковариаций выборок. В более общем случае, когда находится между нулем и единицей, все выборки играют некоторую роль в оценках. Однако и тогда оценки в основном — это отношения частот, средние выборок и матрицы ковариаций выборок. Проблемы, связанные с решением этих неявных уравнений, сходны с проблемами, рассмотренными в п. 6.4.1. Дополнительная сложность состоит в необходимости избегать вырожденных решений. Из различных способов, которые можно применить для получения решения, самый простой состоит в том, чтобы, используя начальные оценки в (17), получить и затем, используя соотношения обновить эти оценки. Если начальные оценки очень хорошие, полученные, возможно, из достаточно большого множества помеченных выборок, сходимость будет очень быстрой. Однако результат зависит от начальной точки, и всегда остается проблема неединственности решения. Более того, повторные вычисления и обращение матриц ковариаций может потребовать много времени. Значительного упрощения можно достичь, если предположить, что матрицы ковариаций диагональны. Это дает возможность уменьшить число неизвестных параметров, что очень важно, когда число выборок невелико. Если это предположение слишком сильно, то еще возможно получить некоторое упрощение, предполагая, что с матриц ковариаций равны, что тоже снимает проблему вырожденных решений. Вывод соответствующих уравнений для оценки по максимуму правдоподобия для этого случая рассматривается в задачах 5 и 6. 6.4.4. ПРОСТАЯ ПРИБЛИЖЕННАЯ ПРОЦЕДУРАИз различных способов, которые используются для упрощения вычисления и ускорения сходимости, мы кратко рассмотрим один элементарный приближенный метод. Из соотношения (17) ясно, что вероятность велика, когда квадрат махалонобисова расстояния мал. Предположим, что мы просто вычисляем квадрат евклидова расстояния и находим среднее ближайшее к и аппроксимируем как
Тогда итеративное применение формулы (15) приводит к следующей процедуре нахождения Процедура-. Базовые Изоданные 1. Выбираем некоторые начальные значения для средних Цикл: 2. Классифицируем выборок, разбивая их на классы по ближайшим средним. 3. Вновь вычисляем средние как средние значения выборок в своем классе. 4. Если какое-нибудь среднее изменило значение, переходим к Циклу; иначе останов. Это типичные для некоторого класса процедуры, известные как процедуры группировки (кластер-процедуры). Позже мы поместим ее в класс итерационных оптимизационных процедур, поскольку средние имеют тенденцию изменяться так, чтобы минимизировать функцию критерия квадратичной ошибки. В настоящий момент мы рассматриваем это просто как приближенный способ получения оценки по максимуму правдоподобия для средних. Полученные значения можно принять за ответ или использовать как начальные точки для более точных вычислений. Интересно посмотреть, как эта процедура ведет себя на примере данных из табл. 6.1. Рис. 6.4 показывает последовательность значений для полученных для нескольких различных начальных точек. Так как взаимная замена просто взаимозаменяет метки, присвоенные данным, траектория симметрична относительно линии Траектория приводит или к точке или к ее отображению.
Рис. 6.4. Траектории для процедуры. Базовые изоданные. Это близко к решению, найденному методом максимума правдоподобия и траектории в общем сходны с траекториями, показанными на рис. 6.3. В общем случае, когда пересечение между плотностями компонент мало, можно ожидать, что метод максимального правдоподобия и процедура Изоданные дадут похожие результаты.
|
1 |
Оглавление
|