Главная > Прикладная статистика: Классификации и снижение размерности
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

12.3. Некоторые методические рекомендации

Использование априорной информации. Успех применения процедур классификации во многом зависит от информации, которой обладает исследователь относительно ожидаемого разделения объектов на классы. Возможно использование априорной информации в одной из следующих форм:

задание метрики в пространстве, т. е. функции расстояния между объектами (подробнее см. гл. 5, 11);

частично обучающие выборки (ЧОВ) (см. гл. 11); неполные обучающие выборки (см. гл. 9).

Эффективность применения ОВ весьма высока. Часто ОВ суммарного объема, составляющего 5-10% общего числа объектов, позволяют получить содержательно осмысленную классификацию, трудно реализуемую при их отсутствии.

Итеративное использование процедур классификации.

Как правило, использование процедур классификации носит итеративный характер, в особенности если априорная информация отсутствует. Для получения содержательно осмысленной классификации (если она вообще потенциально возможна) полезны следующие методические приемы: применение к данным нескольких алгоритмов классификации с последующим сравнением результатов;

применение для анализа данных нескольких метрик и нескольких вариантов параметров, управляющих работой алгоритма, с последующим сравнением результатов; при этом выбирается вариант классификации, наиболее устойчивый к вариации параметров.

Визуализация данных. Подчеркнем еще раз пользу применения средств визуализации, т. е. отображения на плоскость главных компонент я нелинейных проекций, построения гистограмм на направлениях проектирования и т. д.

Визуализация может быть использована как для выделения сгущений объектов до применения процедур классификации (тогда некоторые точки из сгущений можно попытаться использовать как ЧОВ), так и для отображения результатов работы процедуры классификации.

Результаты классификации тем устойчивее, чем больше объем выборки и меньше соотношение . В частности, поэтому полезно провести классификацию объектов, спроектированных в пространство небольшой размерности, например использовать несколько линейных или нелинейных главных компонент (см. гл. 13) и целенаправленное проецирование (см. гл. 19).

Использование дополнительных (иллюстративных) переменных. Применение иллюстративных переменных в интерпретации и оценке устойчивости разбиения описано в § 12.4.

Удаление аномальных наблюдений. Наличие аномальных наблюдений, как правило, ухудшает результаты классификации, «сжимая» имеющиеся классы. Поэтому проверка наличия таких наблюдений (см., например, § 19.5) и их удаление являются необходимым этапом перед проведением автоматической классификации.

1
Оглавление
email@scask.ru