Главная > Основы моделирования и первичная обработка данных
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

1.2.3. Проблема классификации объектов или признаков.

Говоря о классификации совокупности объектов, мы будем подразумевать, что каждый из них задан соответствующим столбцом матрицы (1.4) либо что геометрическая структура их попарных расстояний (связей) задана матрицей (1.4). Аналогично интерпретируется исходная информация в задаче классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы (1.4). В дальнейшем, если это специально не оговорено, мы не будем разделять изложение этой проблемы на объекты и признаки, поскольку все постановки задач и основная методологическая схема исследования здесь общие.

В своей общей (нестрогой) постановке проблема классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов статистически представленную в виде (1.4) или (1.4), разбить на сравнительно небольшое число однородных, в определенном смысле, групп или классов. Для формализации этой проблемы удобно интерпретировать анализируемые объекты в качестве точек в соответствующем факторном пространстве: если исходные данные представлены в виде (1.4), то эти точки являются непосредственным геометрическим изображением многомерных наблюдений в -мерном пространстве X с координатными осями если же исходные данные представлены в виде (1.4), то исследователю неизвестны непосредственно

координаты этих точек, но зато задана структура попарных расстояний между объектами (признаками). Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Тогда проблема классификации состоит в разбиении анализируемой совокупности точек-наблюдений на сравнительно небольшое число — заранее известное или нет — сгустков (кластеров, скоплений, таксонов, образов), которые находятся на некотором расстоянии друг от друга (в смысле метрики, введенной в соответствующем пространстве ), но сами не разбиваются на столь же удаленные классы.

Очевидно, выбор алгоритма классификации S должен быть подчинен определенным требованиям. В достаточно общем случае эти требования могут быть сформулированы с помощью задания соответствующего критерия, или функционала качества классификации . Вид этого функционала, так же как конкретизация постановки задачи классификации и определение класса А допустимых правил классификации, зависит от характера априорных сведений об искомых классах и от наличия (отсутствия) предварительной выборочной информации (так называемых обучающих выборок) об этих классах.

Таким образом, в общем случае задачу классификации исследуемой совокупности объектов О, статистически представленной в виде (1.4) или (1.4), можно сформулировать как задачу поиска такого разбиения (правила классификации) S заданной совокупности О на непересекающиеся классы при при котором функционал качества достигает

своего экстремального значения на А, т. е.

или

При этом число классов k может быть как заранее заданным, так и неизвестным.

Конкретный вид функционалов и класса допустимых решающих правил А, приводящих к известным схемам дискриминантного анализа, расщепления смесей распределений, кластер-анализа и т. п., приведены в [9].

1
Оглавление
email@scask.ru