Главная > Факторный, дискриминантный и кластерный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

I. ВВЕДЕНИЕ

Древняя китайская классификация животных

Животные подразделяются на: (а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включенных в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух (Хорхе Луис Борхес, Другие исследования: 1937—1952).

Классификация является основой человеческой умозрительной деятельности. Дети очень рано начинают классифицировать объекты, окружающие их, и давать названия получаемым классам. Классификация является фундаментальным процессом научной практики, поскольку системы классификаций содержат понятия, необходимые для разработки теорий в науке.

«Кластерный анализ» — это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры» или группы очень похожих объектов. Более точно, кластерный метод — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.

Первые работы, упоминающие о кластерных методах, появились давно, но большая часть литературы по кластерному анализу была написана в течение последних двух десятилетий. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Петером Снитом. Сокэл и Снит утверждали, что эффективная процедура для создания биологических классификаций должна обеспечивать сбор всевозможных данных об интересующих организмах, оценивать степень сходства между этими организмами и применять некоторый метод кластеризации, чтобы поместить достаточно схожие организмы в одну и ту же группу. После этого состав каждой группы можно проанализировать, чтобы выяснить, представляют ли они разные биологические виды. Фактически Сокэл и Снит полагают, что «структура отражает процесс», т. е. структура замеченных различий и сходств между организмами может служить основой для понимания эволюционного процесса.

После выхода книги Сокэл а и Снита объем литературы по кластерному анализу резко возрастает. Число публикаций о приложениях кластерного анализа во всех отраслях науки удваивается каждые три года (Blashfield and Aldenderfer, 1978 b). На наш взгляд, существуют две причины для такого возросшего интереса к кластерному анализу: 1) появление высокоскоростных компьютеров и 2) фундаментальное значение классификации как научного метода. До появления вычислительных машин применение кластерных методов для обработки больших объемов данных практически было невозможно. Для кластеризации множества данных из 200 объектов необходимо определить матрицу сходства, имеющую 19900 уникальных значений. Определение матрицы такого размера без вычислительных машин столь утомительно и требует так много времени, что найдется мало исследователей (или их несчастных помощников), которые отважились бы на это. С широким распространением вычислительной техники стала возможной и обработка больших матриц.

Второй причиной повышенного интереса к кластеризации является то, что наука строится на классификациях, которые привносят порядок в исследования. Она содержит основные понятия, используемые наукой. Например, классификация химических элементов лежит в основе неорганической химии и атомной теории материи; классификация болезней является структурной основой медицины. Поскольку кластерные методы рассматриваются как объективные, легко воспроизводимые способы создания классификаций, то они пользуются широкой популярностью.

Ученые давно применяют кластерный анализ. Среди самых ранних из этих исследований были работы антропологов, которые определяли однородные культурные области, используя матричные методы (см. Czekanowski, 1911; Driver, 1965; Johnston, 1972). В психологии кластерный анализ рассматривался как «факторный анализ бедняка» (Тгуоп, 1939). Специалисты других дисциплин, особенно государственного права, также участвовали в ранних разработках методов кластеризации для общественных наук. Хотя многие теории и приложения, служившие основой кластеризации в прошлом, были отвергнуты последующими поколениями, все социальные науки и сейчас сохраняют некоторые традиции использования кластерных методов.

Несмотря на их популярность, кластерные методы все еще понимаются хуже, чем такие многомерные статистические процедуры, как факторный анализ, дискриминантный анализ и многомерное шкалирование. Литература по социальным наукам содержит ошеломляющее количество часто несовместимых терминов, методов и предпочитаемых подходов. Недостаток опубликованных руководств для начинающих в сочетании с разнобоем в терминологии и методологии затрудняют изучение кластерного анализа. Цель нашей работы — провести новичка через этот «лабиринт» кластерного анализа. Ввиду большого разнообразия методов, предложенных за последние двадцать лет, мы не сможем исчерпывающе рассмотреть все или даже часть методов.

Поэтому мы остановимся на тех, которые сравнительно хорошо известны в области социальных наук, и, как мы полагаем, имеют достоинства, позволяющие использовать их в прикладных исследованиях.

1
Оглавление
email@scask.ru