Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
ПОНЯТИЕ СХОДСТВАТо, что некоторые вещи обнаруживают между собой сходство или различие, является весьма важным моментом для процесса классификации. Несмотря на кажущуюся простоту, понятие сходства и особенно процедуры, используемые при измерении сходства, не так просты. В самом деле, понятие сходства тесно связано с такими основополагающими эпистемологическими проблемами, как: «Каким образом мы можем образовывать полезные абстрактные понятия, позволяющие внести порядок в то, что мы знаем?». Конечно, чтобы ответить на этот вопрос, нужно уметь рассортировывать вещи по классам, что требует умения объединять вещи, воспринимающиеся как схожие. Проблема сходства состоит, однако, не в простом распознавании сходных или несходных вещей, а в том, какое место эти понятия занимают в научных исследованиях. Наука для плодотворного развития должна базироваться на объективных, воспроизводимых процедурах; таким образом, разработка статистических процедур для измерения более «объективного» сходства вещей является естественным следствием необходимости в воспроизводимых и надежных классификациях. Количественное оценивание сходства отталкивается от понятия метрики. При этом подходе к сходству события представляются точками координатного пространства, причем замеченные сходства и различия между точками находятся в соответствии с метрическими расстояниями между ними (Tversky, 1977). Размерность пространства определяется числом переменных, использованных для описания событий. Существует четыре стандартных критерия, которым должна удовлетворять мера сходства, чтобы быть метрикой: 1) Симметрия. Даны два объекта х и у; расстояние между ними удовлетворяет условию
2) Неравенство треугольника. Даны три объекта х, у, z; расстояния между ними удовлетворяют условию
Очевидно, это просто утверждение, что длина любой стороны треугольника меньше или равна сумме двух других сторон. Полученное выражение также называется метрическим неравенством. 3) Различимость нетождественных объектов. Даны два объекта х и у:
4) Неразличимость идентичных объектов. Для двух идентичных объектов
т. е. расстояние между этими объектами равно нулю. Перечисленные математические требования очень важны, поэтому многие исследователи, среди которых наиболее известны Джардин и Сибсан (1971), а также Клиффорд и Стефенсом (1975), выдвигают аргументы против механического использования коэффициентов сходства, не являющихся метриками. Не все из обсуждаемых ниже мер расстояния могут быть метриками. Ряд корреляционных мер метриками не являются. Коэффициенты, не представляющие собой метрики, могут не быть совместно монотонными; другими словами, значения различных коэффициентов на одних и тех же данных не будут согласованно изменяться. Это вызывает опасение, что коэффициенты могут указывать на наличие сильно различающихся зависимостей между объектами. Поскольку такая признанная мера сходства, как смешанный момент корреляции Пирсона, явно не удовлетворяет третьему критерию, и, как считают Клиффорд и Стефенсон (1975), во многих приложениях может не выполняться второй критерий (т. е. неравенство треугольника), то следует проверить, действительно ли некоторая мера является метрикой. Несмотря на очевидную важность метрик, они — отнюдь не единственный способ описания сходства объектов. Конечно, исходя из философских соображений, которые начинают подтверждаться психофизиологическими исследованиями, возможно понимание сходства объектов как сравнение их характерных черт; таким образом, оценивание сходства может основываться на процессе сопоставления признаков (Tversky, 1977). Такое понятие сходства не приводит к естественной размерности для своего представления. Более того, есть большая группа социальных исследований, в которых сходство между объектами оценивается непосредственно. Например, можно брать за основу степень взаимосвязи объектов, и в исследованиях такого рода часто наблюдается асимметрия отношения сходства. Иначе говоря, объект А может соответствовать В, но В может не соответствовать А в той же степени (например, Адам может любить Бетти, хотя он Бетти вовсе не нравится). Такой тип отношений также свойствен экономике в случае, когда одно государство импортирует товаров из другой страны больше, чем оно экспортирует. Асимметрия вызывает дополнительные затруднения при вычислении коэффициентов сходства. Тверски (1977) дает хорошее введение в эти вопросы. Специалисты по кластерному анализу должны сознавать, что существует несколько видов сходства и что, хотя многие из коэффициентов и мер, обычно используемых в количественных подходах к классификации, являются метриками, все же имеются альтернативы применению этих мер, которые могут оказаться целесообразными и необходимыми в контексте исследования. Выбор меры сходства, таким образом, должен быть органической частью плана исследования, определяющегося теоретическим, практическим и философским содержанием задачи классификации.
|
1 |
Оглавление
|