Главная > Факторный, дискриминантный и кластерный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

ЛИТЕРАТУРА ПО КЛАСТЕРНОМУ АНАЛИЗУ

Классификация является основным этапом научного исследования, но характер, методы и цели исследования в любой области науки определяются стоящими перед ней задачами и изучаемыми ею явлениями. Поэтому неудивительно, что кластерный анализ — метод, рекламируемый как «объективное» средство классификации, принимает различные формы и определяется многими, часто противоречащими друг другу способами. Также естественно, что литературу по кластерному анализу можно найти в самых различных журналах (по электротехнике, биологии, библиотечному делу, по психиатрии и т. д.). Необходимо отдавать себе отчет в том, что методы кластерного анализа разрабатываются широким кругом научных дисциплин и что под этим названием собрано большое количество совершенно различных методов.

В разд. I мы описали причины возросшего интереса к кластерному анализу. Одновременно с разработкой новых методов и алгоритмов кластеризации отмечался быстрый рост числа статей, связанных с кластеризацией, во многих областях науки. Но если в начале 60-х годов быстрый рост публикаций был ограничен, в какой-то степени, рамками биологических наук, в конце 60-х — начале 70-х годов кластерный анализ распространился фактически на все области научных исследований. Например, в 1973 г. в 162 журналах, включая Acta Psyhologica, American Antiguity, Computer Journal, Journal of Biochemistry Quarterly Journal of Medici-ne, Journal of Marketing Research, Systematic Zoology и Journal of Ecology, было опубликовано 292 статьи, которые либо цитировали хотя бы одну из основных работ по кластерному анализу, либо использовали в своих названиях термины «кластерный анализ» или «численная таксономия» (Blashfield and Aldenderfer, 1978).

Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване.

Такой взрыв публикаций оказал огромное влияние на развитие и применение кластерного анализа. Но, к сожалению, имеются и негативные стороны. Быстрый рост публикаций по кластерному анализу повлек за собой образование группировок пользователей и как следствие — создание жаргона, используемого лишь группировками, его создавшими (Blashfield and Aldenderfer, 1978; Blashfield, 1980).

О формировании жаргона специалистами в области социальных наук свидетельствует, например, разнообразная терминология, относящаяся к методу Уорда. «Метод Уорда» в литературе называется по-разному. Известны по крайней мере еще четыре его названия: «метод минимальной дисперсии», «метод суммы квадратов ошибок», «иерархическая группировка, минимизирующая и «HGROUP». Первые два названия указывают просто на критерий, оптимум которого определяется в методе Уорда, тогда как третье связано с суммой квадратов ошибок, являющейся монотонным преобразованием следа матрицы W, внутригрупповой ковариационной матрицы. Наконец, широко применяемое название «HGROUP» — это название популярной компьютерной программы, которая реализует метод Уорда (Veldman, 1967).

Образование жаргона мешает развитию междисциплинарных связей, препятствует эффективному сравнению методологии и результатов применения кластерного анализа в различных областях науки, ведет к ненужным затратам усилий (повторное изобретение одних и тех же алгоритмов) и, наконец, не дает новым пользователям глубоко понять выбранные ими методы (Blashfield and aldenderfer, 1978). Например, авторы одного исследования в области социальных наук (Rogers and Linden, 1973) сравнили три различных метода кластеризации, применяя одни и те же данные. Они называли эти методы следующим образом: «иерархическая группировка», «иерархическая кластеризация или HCG» и «кластерный анализ». И ни одно из этих названий не было привычным для методов кластеризации. Начинающий пользователь программ кластерного анализа будет сбит с толку всеми существующими названиями и не сможет связать их с другими описаниями методов кластеризации. Опытные пользователи окажутся в трудном положении при сравнении своих исследований с аналогичными работами. Возможно, мы впадаем в крайность, но жаргон представляет собой серьезную проблему.

В последние годы развитие кластерного анализа несколько замедлилось, судя и по числу публикаций, и по числу дисциплин, где этот метод применяется. Можно сказать, что в настоящее время психология, социология, биология, статистика и некоторые технические дисциплины выходят на стадию консолидации в отношении кластерного анализа.

Количество статей, воспевающих достоинства кластерного анализа, постепенно уменьшается. При этом все чаще появляются работы, в которых на контрольных данных проводится сравнение применимости различных методов кластеризации. В литературе стало уделяться больше внимания и приложениям. Многие исследования направлены на разработку практических мер для проверки обоснованности результатов, полученных с помощью кластерного анализа. Все это свидетельствует о серьезных попытках создать разумную статистическую теорию методов кластеризации.

1
Оглавление
email@scask.ru