3.5. ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ
Материал, содержащийся в этой главе, иллюстрирует основные концепции, составляющие идеологию классификации образов на основе критерия расстояния. Изучена схема классификаторов, действующих по принципу минимального расстояния, в варианте с одним эталоном. Эта схема обобщена таким образом, что при обеспечении возможности запоминать значительное количество образов с известной классификацией она может достигать качества классификации, соответствующего теоретическому оптимуму байесовского классификатора.
При построении классификаторов по принципу минимума расстояния отыскание кластеров и задание эталонов являются вопросами первостепенной важности. Приведенные в § 3.3 алгоритмы показывают, как выделяются репрезентативные кластеры в заданном множестве данных. При построении таких алгоритмов используются два подхода. Один из них — эвристический, и в его основе лежат интуиция и опыт. Второй подход предусматривает минимизацию или максимизацию соответственно выбранного показателя качества. Этот подход в принципе более изящен и хорошо подходит для реализации с помощью итеративных процедур. Примеры, использующие оба подхода, были приведены в § 3.3. Все алгоритмы, представленные в настоящей главе, основаны на оценке сходства образов с помощью евклидова расстояния. Этот выбор хорошо согласуется с общепринятой концепцией близости, а также и с подходом к классификации, развитым в § 3.2.
Когда принадлежность некоторому классу заданной выборки образов не известна, возникает задача обучения без учителя. Применение алгоритмов кластеризации для решения задачи обучения без учителя является естественным следствием того обстоятельства, что наиболее прямым способом решения задачи идентификации групп сходных образов в анализируемом множестве данных служит выделение в этих данных кластеров образов. Будучи определены, эти кластеры могут рассматриваться в качестве классов образов и использоваться при построении классификаторов образов с помощью методов, изложенных в этой и следующих главах.
Библиография
Первые упоминания о классификаторах, действующих по принципу минимума расстояния, можно найти в монографиях Нильсона [1967] и Ту [1969а]. Сведения о классификации с помощью кусочно-линейных разделяющих границ содержатся, помимо монографии Нильсона [1967], в статье Дуды и Фоссама [1966]. Обобщение, полученное в п. 3.2.2, основывается на работе Ковера и Харта [1967].
Задача отыскания кластеров обсуждалась множеством авторов с самых различных сторон. Целый ряд не упомянутых нами мер сходства образов и критериев кластеризации можно найти в монографии Дуды и Харта [1976], в которой приведено также несколько алгоритмов построения кластеров, и в статье Роджерса и Танимото [1960]. Алгоритм из п. 3.3.4, действующий по принципу максиминного расстояния, базируется на алгоритме, предложенном Батчилором и Уилкипсом [1969]. Алгоритм, основанный на вычислении К внутригрупповых средних, был подробно исследован Маккуином [1967]. Представленный в п. 3.3.6 алгоритм ИСОМАД основан на работах Болла и Холла [1965а, 1965б]. Интересный пример применения алгоритма ИСОМАД для организации технического надзора за состоянием компонентов ядерного реактора можно найти в статье Гонсалеса, Фрая и Крайтера [1974]. Дополнительными источниками сведений об алгоритмах кластеризации могут служить монографии Патрика [1972] и Фукунаги [1972]. Последние источники особенно интересны с точки зрения статистического подхода к построению кластеров. Прекрасный набор процедур, ориентированных на обработку двоичных образов, можно найти в статье Боннера [1969].
Дополнительные сведения о задаче обучения без учителя можно найти в уже упомянутых монографиях Дуды и Харта и Фукунаги, а также в статьях Спрейгинса [1966], Д. Купера и П. Купера [1965] и Ковера [1969].
Задачи
(см. скан)