§ 2. Расстояние между разнотипными признаками

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

§ 2. Расстояние между разнотипными признаками

При корреляционном и регрессионном анализах, обработке групповых экспертных оценок и в других задачах анализа данных нужно уметь измерять расстояние между признаками (столбцами таблицы). В литературе известны методы измерения расстояния между однотипными признаками. Здесь мы опишем меру, пригодную для пар как однотипных, так и разнотипных признаков. Начнем с однотипных.

Если признаки и измерены в шкалах, более сильных, чем шкала порядка, то указанным выше требованиям а)-д) удовлетворяет мера расстояния , где — модуль коэффициента линейной корреляции.

Среди многочисленных мер расстояния между двумя признаками, измеренными в шкале порядка, своей простотой и естественностью отличается мера Кенделла — Кемени [98,99]. Для ее определения нужно перебрать все парных сочетаний из объектов и для каждой пары сравнить порядковое отношение по признакам и . Если порядковые отношения одинаковы, т. е.

если или , или ,

то . Если отношения порядка на этих признаках прямо противоположны, т. е.

если или ,

то . В промежуточном случае, когда по одному признаку имеет место отношение «>» или «<», а по другому — отношение «=», считается, что . Общее расстояние определяется как средняя мера «несогласия» двух признаков на всех парах объектов:

Если упорядочивания всех пар одинаковы, то ; если они на всех парах противоположны, то . Если один признак (или эксперт ) устанавливает некоторый порядок объектов, а другой эти объекты считает одинаковыми (т. е. выдает серию длиной ), то мера , что вполне естественно. Уместно отметить, что рекомендуемая во многих пособиях мера Спирмена [165] в этом случае дает .

Мера расстояния между признаками, измеренными в шкале наименований, определяется по правилу, аналогичному предыдущему: перебираются все сочетания пар объектов и, если отношение по признакам и совпадают, т. е.

если или ,

то . Если же эти отношения различны, т. е.

если или ,

то . В итоге получаем, что

Величина в точности равна величине хеммингова расстояния между матрицами смежности, одна из которых построена по признаку , а вторая — по признаку .

Перейдем теперь к разнотипным парам признаков. Оба признака можно сделать однотипными, если один из них «обеднить» до более слабого или второй «усилить» («оцифровать» [60]) до более сильного. Сделаем то и другое и для каждого случая найдем меру расстояния по описанным выше методам. Общую меру расстояния между двумя разнотипными признаками будем определять как среднюю величину двух этих частных расстояний.

Рассмотрим пару признаков (см. табл. 6), один из которых измерен в сильной шкале , а второй — в шкале порядка . Ослабление признака до шкалы порядка состоит в том, что мы теперь на его числовых значениях будем учитывать только отношение порядка. В результате для двух признаков в шкале порядка находим расстояние по методу, изложенному выше.

Усиление («оцифровка») шкалы порядка до сильной шкалы делается так, чтобы: 1) значение порядка объектов по признаку совпадало с порядком по признаку и 2) числовые значения признака были максимально коррелированы со значениями признака . Достигается это способом, показанным в табл. 6. Объекты упорядочиваются по возрастанию значений признака . Если по признаку встречается серия, то всем объектам, входящим в ее состав, приписываются значения , равные среднеарифметическому значению их признака :

Таблица 6. Пример усиления шкалы порядка до сильной шкалы

Примечание: а — протокол в исходных шкалах; б — протокол, упорядоченный по ; в — протокол с усиленной шкалой .

Затем, начиная с первого объекта таблицы, ищутся блоки инверсий, т. е. последовательности объектов, которые начинаются объектом и заканчиваются самым далеким по порядку от него объектом таким, что (блок в табл. 6). Каждому из объектов блока инверсий приписывается числовое значение , равное среднеарифметическому значению их признака .

После этого через коэффициент корреляции вычисляем расстояние и затем среднюю меру расстояния между признаками и : . В нашем примере .

Рассмотрим сочетание признаков и (см. табл. 7). Ослабление сильной шкалы до шкалы наименований состоит в том, что всем различным значениям признака приписываются разные имена, а одинаковым значениям — одинаковые. Затем вычисляется расстояние в шкале наименований .

Таблица 7. Пример усиления и ослабления для шкал наименований и сильных шкал

Примечание: а — исходный протокол; б — протокол в шкале наименований; в — протокол в сильной шкале.

При усилении («оцифровке») номинального признака до объекту приписывается величина . Если одинаковое имя (например, ) имеют несколько объектов, то всем им приписывается величина

По полученным числовым значениям через корреляцию вычисляется мера , а затем и среднее расстояние . В нашем примере получается, что , и .

Наконец, для пары признаков и (см. табл. 8) обеднение до шкалы сводится, как и в предыдущем случае, к приписыванию разных имен объектам, имеющим разные порядковые номера, после чего находится расстояние .

Таблица 8. Пример усиления и ослабления для шкал наименований и порядка

Примечание: а — исходный протокол; б — протокол в шкале наименований; в — протокол в шкале порядка (нормированных рангов).

При усилении до признак канонизируется до нормированных рангов, а затем вместо имен объектам ставится в соответствие порядковые номера так же, как и в предыдущем случае: для одиночных объектов и

для серии из одинаково поименованных объектов. После нахождения расстояния определяется . В нашем примере , и .

Отметим, что все использованные преобразования входят в группы допустимых преобразований для своих типов шкал, следовательно, величины полученных расстояний также инвариантны к допустимым преобразованиям оцениваемых признаков. Усиление и ослабление шкал вносят в некотором смысле симметричное искажение (добавление и потерю информации), так что усреднение получаемых частных мер после этих процедур можно считать оправданным. Применение указанных мер расстояния между объектами и между признаками позволяет использовать все то богатство математического обеспечения, которое было разработано для анализа таблиц данных с признаками, измеренными в сильных шкалах. При этом нужно к имеющимся программам добавить семантический блок, указывающий тип шкалы данного признака, и заменить блок определения расстояния в сильных шкалах на блок вычисления соответствующей меры из набора, описанного выше.

<< Предыдущий параграф

Следующий параграф >>

Оглавление