12.3. Некоторые методические рекомендации
Использование априорной информации. Успех применения процедур классификации во многом зависит от информации, которой обладает исследователь относительно ожидаемого разделения объектов на классы. Возможно использование априорной информации в одной из следующих форм:
задание метрики в пространстве, т. е. функции расстояния между объектами (подробнее см. гл. 5, 11);
частично обучающие выборки (ЧОВ) (см. гл. 11); неполные обучающие выборки (см. гл. 9).
Эффективность применения ОВ весьма высока. Часто ОВ суммарного объема, составляющего 5-10% общего числа объектов, позволяют получить содержательно осмысленную классификацию, трудно реализуемую при их отсутствии.
Итеративное использование процедур классификации.
Как правило, использование процедур классификации носит итеративный характер, в особенности если априорная информация отсутствует. Для получения содержательно осмысленной классификации (если она вообще потенциально возможна) полезны следующие методические приемы: применение к данным нескольких алгоритмов классификации с последующим сравнением результатов;
применение для анализа данных нескольких метрик и нескольких вариантов параметров, управляющих работой алгоритма, с последующим сравнением результатов; при этом выбирается вариант классификации, наиболее устойчивый к вариации параметров.
Визуализация данных. Подчеркнем еще раз пользу применения средств визуализации, т. е. отображения на плоскость главных компонент я нелинейных проекций, построения гистограмм на направлениях проектирования и т. д.
Визуализация может быть использована как для выделения сгущений объектов до применения процедур классификации (тогда некоторые точки из сгущений можно попытаться использовать как ЧОВ), так и для отображения результатов работы процедуры классификации.
Результаты классификации тем устойчивее, чем больше объем выборки
и меньше соотношение
. В частности, поэтому полезно провести классификацию объектов, спроектированных в пространство небольшой размерности, например использовать несколько линейных или нелинейных главных компонент (см. гл. 13) и целенаправленное проецирование (см. гл. 19).
Использование дополнительных (иллюстративных) переменных. Применение иллюстративных переменных в интерпретации и оценке устойчивости разбиения описано в § 12.4.
Удаление аномальных наблюдений. Наличие аномальных наблюдений, как правило, ухудшает результаты классификации, «сжимая» имеющиеся классы. Поэтому проверка наличия таких наблюдений (см., например, § 19.5) и их удаление являются необходимым этапом перед проведением автоматической классификации.