1.2.3. Проблема классификации объектов или признаков.
Говоря о классификации совокупности объектов, мы будем подразумевать, что каждый из них задан соответствующим столбцом матрицы (1.4) либо что геометрическая структура их попарных расстояний (связей) задана матрицей (1.4). Аналогично интерпретируется исходная информация в задаче классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы (1.4). В дальнейшем, если это специально не оговорено, мы не будем разделять изложение этой проблемы на объекты и признаки, поскольку все постановки задач и основная методологическая схема исследования здесь общие.
В своей общей (нестрогой) постановке проблема классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов статистически представленную в виде (1.4) или (1.4), разбить на сравнительно небольшое число однородных, в определенном смысле, групп или классов. Для формализации этой проблемы удобно интерпретировать анализируемые объекты в качестве точек в соответствующем факторном пространстве: если исходные данные представлены в виде (1.4), то эти точки являются непосредственным геометрическим изображением многомерных наблюдений в -мерном пространстве X с координатными осями если же исходные данные представлены в виде (1.4), то исследователю неизвестны непосредственно
координаты этих точек, но зато задана структура попарных расстояний между объектами (признаками). Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Тогда проблема классификации состоит в разбиении анализируемой совокупности точек-наблюдений на сравнительно небольшое число — заранее известное или нет — сгустков (кластеров, скоплений, таксонов, образов), которые находятся на некотором расстоянии друг от друга (в смысле метрики, введенной в соответствующем пространстве ), но сами не разбиваются на столь же удаленные классы.
Очевидно, выбор алгоритма классификации S должен быть подчинен определенным требованиям. В достаточно общем случае эти требования могут быть сформулированы с помощью задания соответствующего критерия, или функционала качества классификации . Вид этого функционала, так же как конкретизация постановки задачи классификации и определение класса А допустимых правил классификации, зависит от характера априорных сведений об искомых классах и от наличия (отсутствия) предварительной выборочной информации (так называемых обучающих выборок) об этих классах.
Таким образом, в общем случае задачу классификации исследуемой совокупности объектов О, статистически представленной в виде (1.4) или (1.4), можно сформулировать как задачу поиска такого разбиения (правила классификации) S заданной совокупности О на непересекающиеся классы при при котором функционал качества достигает
своего экстремального значения на А, т. е.
или
При этом число классов k может быть как заранее заданным, так и неизвестным.
Конкретный вид функционалов и класса допустимых решающих правил А, приводящих к известным схемам дискриминантного анализа, расщепления смесей распределений, кластер-анализа и т. п., приведены в [9].