Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
1.1.2. Общая постановка задачи автоматической классификации и основные направления ее решенияРассмотрим формы представления исходных данных в задачах классификации в условиях отсутствия обучающих выборок. Пусть
именуемой также матрицей «объект-свойство» [37, с. 143], где Если же известны взаимные расстояния между объектами множества
где величина
где величина
но при необходимости будет осуществляться возвращение к рассмотрению величины расстояния В наиболее общем виде проблема классификации объектов в условиях отсутствия обучающих выборок состоит в разбиении на заранее известное либо нет число однородных, в определенном смысле, классов всего исходного множества объектов Следует сразу оговорить, что при такой постановке задачи исходные данные могут иметь и вероятностную природу, однако поскольку объектом рассмотрения является кластерный анализ, то следует придерживаться взгляда о геометрической природе исходных данных. Необходимо также отметить, что аналогичным образом интерпретируется исходная информация в задаче классификации совокупности признаков, характеризующих множество объектов, представленных в виде матрицы «объект-свойство». Разница заключается в том, что каждый объект множества При интерпретации объектов как точек в соответствующем пространстве признаков возникает следующая задача: разделить совокупность точек При такой постановке задачи оказывается необходимым формальное определение понятий однородности и близости объектов. Матрица способ вычисления величины Если алгоритм разбиения множества объектов задан, то проблема выбора функции Для анализа структуры множества объектов, а также при разработке различных алгоритмов автоматической классификации иногда оказывается необходимым рассматривать близость не только отдельных объектов, но и целых классов, для чего также используются различные расстояния и меры близости, что более подробно рассматривается С. А. Айвазяном в работе [37, с. 153-156]. Если в процессе исследования имеются некоторые предположения о свойствах кластеров или принципах объединения объектов в классы, то оказывается вполне естественным формально определить понятие кластера и построить процедуру, выделяющую из исходного множества объектов группы, удовлетворяющие данному определению. Подобный подход является основой эвристического направления решения задачи кластерного анализа, а алгоритмы разбиения исходного множества объектов на кластеры с заранее заданными свойствами, соответствующие группе методов этого направления, носят общее название эвристических алгоритмов. Если же целью исследования является не разбиение исходного множества объектов на классы, а выявление стратификационной структуры исходного множества, то применяются методы, объединенные в иерархическое направление кластер-анализа. Группа иерархических методов объединяет агломеративные и дивизимные алгоритмы кнастер-анализа. Для алгоритмов, соответствующих методам агломеративного подхода иерархического направления, предполагается вначале, что каждый объект представляет собой отдельный класс, после чего элементы и их группы объединяются, пока в результате последовательного объединения не получится исходное множество. Алгоритмы же дивизимной группы методов, напротив, исходят из предположения об исходном множестве как одном классе, который постепенно делится на все более мелкие, вплоть до отдельных элементов, группы объектов. Результаты работы иерархических алгоритмов обычно представляются в виде дендрограммы или графа иерархии. Очевидно, что одно и то же множество объектов можно разбить на кластеры различными способами или при использовании одного метода можно получить целую группу различных разбиений. В таком случае имеет смысл определить качество разбиений с целью выбора наилучшего разбиения, то есть сформулировать количественный критерий, в соответствии с которым можно было бы предпочесть одно разбиение другому. Для формулировки представлений о качестве классификации в постановку задачи вводится функционал качества разбиения, задающий способ сопоставления с каждым разбиением Р числа
где П — множество всех возможных разбиений исходного множества объектов В продолжение рассмотрения оптимизационных методов решения задачи автоматической классификации следует указать на то обстоятельство, что, как отмечал С. А. Айвазян, «в статистической практике выбор функционала качества разбиения Если классификация, которую требуется найти, описывается матрицей определенной структуры, к примеру, матрицей отношения эквивалентности, то задача заключается в оценке параметров искомой структуры так, чтобы искомая структура минимально отличалась бы от исходной структуры. Иными словами, отношение, отвечающее исходным данным, необходимо аппроксимировать отношением, которое отвечает представлению о наилучшей классификации, так что это направление решения задач кластер-анализа именуется аппроксимационным; в этом случае проблема сводится к следующей оптимизационной задаче:
где Рассмотренные выше группы методов решения задач кластер-анализа не являются строгими и не исчерпывают всего богатства методов классификации объектов в условиях отсутствия обучающих выборок; многие алгоритмы находятся на стыке вышеизложенных направлений. Проблема же классификации собственно алгоритмов кластер-анализа была обозначена около тридцати лет назад и остается актуальной по настоящее время
|
1 |
Оглавление
|