Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
7.7. КЛАССИФИКАЦИЯРазделение на группы — это непосредственное практическое приложение многомерного анализа и одновременно наиболее надежная его часть. При этом результаты, если их удается получить, будут служить критерием успеха применения всего метода. Прочие же статистические методы требуют специальной интерпретации и оценки, так как их использование отчасти из-за возможного несоблюдения статистических предпосылок, отчасти по другим причинам может привести к ошибкам. 7.7.1. КЛАССИФИКАЦИЯ ПО ВСЕМ ДИСКРИМИНАНТНЫМ ПРИЗНАКАМПрименение неэлементарных дискриминантных признаковРассмотрим вначале случай классификации с использованием всех представителя группы с номером
В этой формуле ковариационная матрица в явном виде не присутствует, так как для неэлементарных дискриминантных признаков согласно (7.49) ковариационная матрица единичная. Обозначим через подлежащий опредедению вектор средних значений группы
Компоненты этого вектора обозначим через
В правой части неравенства стоит квантиль Если в противоположность этой многозначной классификации каждый индивид хотят причислить к одной определенной группе, то выбирают группы с наименьшим
Индивид при этом относится к группе с наименьшим Если объемы выборок
и естественно
Это формулы для выборок большого объема. Индивида относят к группе с наименьшим Пример. Применительно к данным о гипертиреозе из раздела 7.1 классификация по 10 признакам с применением 23 данных векторов наблюдений, проведенная по правилам (7.60)-(7.63), приводит к результатам, отраженным в табл. 5 (версия 1). В табл. 6 указаны частоты отдельных идентификаций. Априорные вероятности были выбраны пропорциональными объемам имеющихся выборок:
При учете априорных вероятностей, т. е. при действий по (7.63), общее число ошибочных решений уменьшается, хотя доля ошибок в мало заполненной группе 3 остается большой. Результаты классификации показаны на рис. 5. Подобные дискриминантные схемы позволяют провести классификацию (без учета априорных вероятностей), а также увидеть расстояния между группами и их взаимное расположение. Круги на рисунке соответствуют (7.62), а граничные линии между группами (окружностями выделяют области с наименьшими Для наглядности в табл. 5 и 6 приведены также результаты классификации по одному признаку Так же как на рис. 5, дискриминантный признак (кликните для просмотра скана) (см. скан) Таблица 5. (см. скан) Результаты классификации 23 пациентов, данные о которых приведены в табл. 4 (как без учета априорных вероятностей, так и с их учетом). При классификации без априорных вероятностей вначале принимается наиболее правдоподобное решение (номер группы 1, 2 или 3), затем к нему присоединяются другие решения, согласно Различные версии классификации. Версия 1: по всем десяти признакам и двум дискриминантным функциям; Версия 2: по трем признакам и двум дискриминантным функциям; Версия 3: только по одному признаку (имеющему наилучшие разделяющие свойства); Версия 4: по всем десяти признакам и одной дискриминантной функции; Версия 5: то же, что по версии 4, но с округленными весовыми коэффициентами. Таблица 6. (см. скан) Частоты отдельных только наивероятнейших решений при классификации 23 пациентов Применение элементарных дискриминантных признаковДля обсуждаемой классификации не обязательны неэлементарные дискриминантные признаки Вместо (7.60) и (7.64) получаем соотношения
Здесь
С вероятностью 1 столбцы матрицы а линейно независимы. Покажем, что результаты классификации те же, что и раньше. Так как (согласно разделу 5.2) элементарные и неэлементарные дискриминантные признаки порождают одно и то же пространство, то существует матрица
Отсюда по (7.49) получаем
и
Кроме того, имеется матрица
так, что
И наконец, получаем
Однозначность классификацииПри классификации по (7.62) стараются по возможности избегать неоднозначных выводов. Многозначность решения полностью исключается, если области рассеяния отдельных групп не пересекаются. Сравнивая векторы средних значений (см. раздел 7.3), легко проверить, имеют ли области рассеяния двух групп
(получающаяся путем усреднения Величины
пропорциональны радиусам областей рассеяния. Таким образом, должно выполняться неравенство
Поскольку всегда можно найти такой вектор
Поэтому отсюда (7.73) приобретает
Назовем изолированными одна от другой группы, для которых выполняется это условие. Итак, мы нашли четыре характеристики различия двух групп: 1. Отдельное сравнение по 2. Множественное сравнение по 3. Дистант по (7.35) или (7.36). 4. Проверка на изолированность по (7.74). Пример. По данным о гипертиреозе получаем
Соответствующее критическое значение, найденное из таблицы
|
1 |
Оглавление
|