Главная > Принципы распознавания образов
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

3.3.2. Критерии кластеризации

Проблема определения процедуры разбиения анализируемых данных на кластеры остается открытой и после выбора меры сходства образов. Критерий кластеризации может либо воспроизводить некие эвристические соображения, либо основываться на минимизации (или максимизации) какого-нибудь показателя качества.

При эвристическом подходе решающую роль играют интуиция и опыт. Он предусматривает задание набора правил, которые обеспечивают использование выбранной меры сходства для отнесения образов к одному из кластеров. Евклидово расстояние (3.3.1) хорошо приспособлено для подобного подхода, что связано с естественностью его интерпретации как меры близости. Поскольку, однако, близость двух образов является относительной мерой их подобия, обычно приходится вводить порог, чтобы установить приемлемые степени сходства для процесса отыскания кластеров. Алгоритмы, рассматриваемые в следующих двух пунктах, служат для этого хорошей иллюстрацией.

Подход к кластеризации, предусматривающий использование показателя качества, связан с разработкой процедур, которые обеспечат минимизацию или максимизацию выбранного показателя качества. Одним из наиболее популярных показателей является сумма квадратов ошибки

где — число кластеров, — множество образов, относящихся к кластеру, а

— вектор выборочных средних значений для множества характеризует количество образов, входящих во множество . Показатель качества (3.3.5) определяет общую сумму квадратов отклонений характеристик всех образов, входящих в некоторый кластер, от соответствующих средних значений по кластеру. Алгоритм, основанный на этом показателе качества, рассматривается в п. 3.3.5.

Естественно, существует масса показателей качества помимо рассмотренного. Вот некоторые широко распространенные показатели: среднее квадратов расстояний между образами в кластере; среднее квадратов расстояний между образами, входящими в разные кластеры; показатели, основанные на понятии матрицы рассеяния; минимум и максимум дисперсии, а также еще дюжина показателей качества, использовавшихся прежде.

Нередко применяются алгоритмы отыскания кластеров, основанные на совместном использовании эвристического подхода и показателя качества. Подобной комбинацией является алгоритм рассматриваемый в п. 3.3.6. В свете наших предыдущих замечаний о состоянии дел в области кластеризации это обстоятельство нельзя назвать неожиданным, так как качество отдельных алгоритмов отыскания кластеров в значительной степени определяется способностями его авторов по части извлечения полезной информации из анализируемых данных.

Categories

1
Оглавление
email@scask.ru