6.4. ПРИМЕНЕНИЕ МЕТОДА
6.4.1. Выбор входных параметров
6.4.1.1. Максимальное число классов
При отсутствии указаний на оптимальное требуемое число классов желательно выбирать верхнюю границу для него так, чтобы получить «разумное» число классов, т. е. такое число классов, для которого результат анализа допускал бы наиболее прозрачную интерпретацию и визуализацию. При гипотезе, что множество
состоит из К классов (К неизвестно), важно уметь распознавать, какой из следующих двух случаев имеет место:
(а)
истинного;
(б)
истинного.
Случай
Заметим сначала, что согласно определению отображения
фактическое число классов меняется в процессе итераций и в
результате может получиться разбиение множества
на
классов, где
меньше априори заданного
Для определения истинного числа классов полезным является понятие устойчивых многообразий, введенное в 6.4.3, а именно ставится под сомнение истинность класса, который появляется только при одном выборе начальных данных или истинность различия классов, имеющих очень близкие представительства.
Случай
В решении вопроса может помочь рассмотрение остаточных инерций классов и сравнение их с глобальной остаточной инерцией. В самом деле, число классов и размерность многообразий—представительств классов являются двумя связанными параметрами, а именно для достижения при ограниченной размерности значимой доли объясненной инерции необходимо сократить число элементов в классах и, следовательно, увеличить число классов. Другими словами, если аффинные многообразия, полученные в результате сходимости алгоритма, таковы, что их размерность не позволяет объяснить «разумную» долю инерции класса (под «разумной» понимаем существенно большую долю, чем при глобальном анализе), то это означает, что размеры классов слишком велики. Сокращение этих размеров приводит к увеличению числа классов.
Рис. 6.6
Пример. В рассматривается как распределение в
При одном или двух классах необходимы две оси для объяснения достаточной доли инерции (т. е. это не отражает тот факт, что внутренняя размерность В равна 1), и представление этого распределения с помощью проекций на ось плохо аппроксимирует данные. Ясно, что для хорошего одномерного представления данных необходимо разбить В по крайней мере на пять классов. Аналогичные рассуждения применимы к распределению в
в виде буквы А (рис. 6.6).
6.4.1.2. Размерность локальных многообразий
Считая сгущение погруженным в
(или в
в случае профилей и метрики
можно в принципе отыскивать многообразия размерности
(соответственно
Однако цель метода состоит в том, чтобы найти представительства небольшой размерности, которые давали бы хорошее описание «кусочков» сгущения. Итак, будем последовательно отыскивать оси
плоскости
трехмерные аффинные многообразия, останавливаясь, когда доля объясненной
инерции является достаточной, не забывая об указанной выше связи размерности многообразий и размеров классов. Желательно выбирать параметры
и Ктах одновременно или одновременно модифицировать их в процессе работы алгоритма. Отметим, что
может быть также определено в результате глобального анализа.
6.4.1.3. Метрика
Выбор метрики осуществляется согласно информации об исследуемых данных в соответствии с обычными критериями (см. [2] и [5]). Для локального анализа, в частности, когда используют метрику
нужно еще решить, что использовать — «глобальную» или «локальную» метрику. При этом руководствуются целью анализа или тем какими свойствами данных хотят воспользоваться.