Главная > Прикладные методы анализа данных и знаний
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

§ 7. Выбор числа таксонов

Иногда встречаются случаи, когда заказчик (владелец данных) точно знает, сколько таксонов он хотел бы получить. Чаще заказчик высказывает менее строгое пожелание: хотелось бы в диапазоне от  до . В этих случаях алгоритм должен автоматически выбрать наиболее «естественное» значение         в этом диапазоне. Обычно же заказчик на вопрос о числе таксонов отвечает: «Не знаю. Сколько получится. А что бы вы посоветовали?»

Совет зависит от назначения таксономии. Если таксоны служат для дальнейшего машинного использования, то можно выбирать большие значения , сообразуясь только с имеющимся объемом памяти для их хранения. Если же таксонами будет пользоваться человек «вручную», то в диалоге с заказчиком обычно выясняется, что двух или трех таксонов не достаточно. Это слишком грубая классификация, приводящая к неприемлемым потерям информации об индивидуальных особенностях объектов, входящих в большие таксоны. Десять или больше таксонов тоже не устраивают заказчика: такое большое число таксонов трудно запомнить и потому использовать их для объяснения структуры изучаемой системы неудобно. Договориться чаще всего удается на количестве таксонов от пяти до девяти. Это хорошо согласуется с наблюдением американского психолога Г. Миллера [125] о предпочтительности для человека оперировать количеством элементов, равным 7 ± 2, что объясняется ограниченностью объема оперативной памяти человека.

Описанные выше алгоритмы таксономии имеют некоторые средства для выбора наиболее предпочтительного числа таксонов в заданном диапазоне. В алгоритмах класса FOREL при постепенном уменьшении радиуса сферы  на графике зависимости числа таксонов от радиуса нередко можно наблюдать так называемый эффект «полочки» (см. рис. 10, а). Обнаруживается несколько соседних значений радиуса, при которых количество таксонов не меняется, а затем на следующем шаге начинает резко увеличиваться.

image1

Рис. 10

Природу этого явления можно пояснить с помощью рис. 10, б. На некотором шаге выделяется три таксона, и это число таксонов сохраняется вплоть до шага, на котором сфера перестает умещать в себя все точки этих таксонов. Затем число таксонов хаотически возрастает и снова стабилизируется на количестве таксонов, равном 9. Эти числа — 3 и 9 — хорошо соответствуют иерархической структуре анализируемого множества точек.

 

Categories

1
Оглавление
email@scask.ru