Главная > Многомерный дисперсионный анализ
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

7.7. КЛАССИФИКАЦИЯ

Разделение на группы — это непосредственное практическое приложение многомерного анализа и одновременно наиболее надежная его часть. При этом результаты, если их удается получить, будут служить критерием успеха применения всего метода.

Прочие же статистические методы требуют специальной интерпретации и оценки, так как их использование отчасти из-за возможного несоблюдения статистических предпосылок, отчасти по другим причинам может привести к ошибкам.

7.7.1. КЛАССИФИКАЦИЯ ПО ВСЕМ ДИСКРИМИНАНТНЫМ ПРИЗНАКАМ

Применение неэлементарных дискриминантных признаков

Рассмотрим вначале случай классификации с использованием всех неэлементарных дискриминантных признаков. Пусть для определенного индивида были вычислены значений или, иначе говоря, по формулам определен вектор Здесь, как и в разделе 6.2.2, классификация основана на критерии значимости. С его помощью проверяется принадлежность вектора к группе При построении критерия вектор будем рассматривать как

представителя группы с номером наряду с группами Тогда в соответствии с (7.21) получаем статистику

В этой формуле ковариационная матрица в явном виде не присутствует, так как для неэлементарных дискриминантных признаков согласно (7.49) ковариационная матрица единичная. Обозначим через подлежащий опредедению вектор средних значений группы

Компоненты этого вектора обозначим через В соответствии с процедурой, изложенной в разделе 6.2.2, мы относим вектор т. е. соответствующий ему индивид, к группе если

В правой части неравенства стоит квантиль -распределения. Его находят по соответствующей таблице с учетом определенного уровня значимости, например При использовании этого метода индивид может быть одновременно отнесен к нескольким группам. Но может случиться, что он не будет причислен ни к одной из групп. Благодаря неравенству (7.62) каждой группе соответствует -мерный шар рассеяния, с вероятностью содержащий индивиды, действительно относящиеся к этой группе. При индивидов располагаются внутри области рассеяния своей группы.

Если в противоположность этой многозначной классификации каждый индивид хотят причислить к одной определенной группе, то выбирают группы с наименьшим (каждый раз принимают наиболее вероятное решение). Классификацию можно провести точнее, если дополнительно учитывать априорные вероятности каждой группы. Если с самого начала учитывать, каковы вероятности попадания индивидов в отдельные группы, то для классификации надо применять величины

Индивид при этом относится к группе с наименьшим В частном случае, когда все одинаковы, эта классификация идентична приведенной ранее, основанной лишь на Формула (7.63) выводится с помощью метода максимального правдоподобия. Индивид относят к группе, для которой совокупность выборок и дополнительного вектора наблюдений индивида дают наибольшее значение правдоподобию (см. [4, параграф 6.5.5]).

Если объемы выборок стремятся к бесконечности, то из (7.63) следует, что

и естественно

Это формулы для выборок большого объема. Индивида относят к группе с наименьшим

Пример. Применительно к данным о гипертиреозе из раздела 7.1 классификация по 10 признакам с применением 23 данных векторов наблюдений, проведенная по правилам (7.60)-(7.63), приводит к результатам, отраженным в табл. 5 (версия 1). В табл. 6 указаны частоты отдельных идентификаций. Априорные вероятности были выбраны пропорциональными объемам имеющихся выборок:

При учете априорных вероятностей, т. е. при действий по (7.63), общее число ошибочных решений уменьшается, хотя доля ошибок в мало заполненной группе 3 остается большой.

Результаты классификации показаны на рис. 5.

Подобные дискриминантные схемы позволяют провести классификацию (без учета априорных вероятностей), а также увидеть расстояния между группами и их взаимное расположение.

Круги на рисунке соответствуют (7.62), а граничные линии между группами (окружностями выделяют области с наименьшими

Для наглядности в табл. 5 и 6 приведены также результаты классификации по одному признаку (наиболее информативный единичный признак) — версия 3. Видно, что число ошибочных заключений при одномерной классификации значительно больше, чем при многомерной. Это видно и на рис. 7.

Так же как на рис. 5, дискриминантный признак нормирован таким образом, что внутригрупповая дисперсия стала равна I, а именно Благодаря этому обе дискриминантные схемы сравнимы по своим масштабам. Различные радиусы изображенных областей рассеяния — результат наличия на рис. 5 двух дискриминантных признаков, а на рис. 7 — только одного. При сравнении обоих рисунков бросается в глаза несущественность для результатов ярко выраженной неоднородности признака при -мерном рассмотрении.

(кликните для просмотра скана)

(см. скан)

Таблица 5. (см. скан) Результаты классификации 23 пациентов, данные о которых приведены в табл. 4 (как без учета априорных вероятностей, так и с их учетом). При классификации без априорных вероятностей вначале принимается наиболее правдоподобное решение (номер группы 1, 2 или 3), затем к нему присоединяются другие решения, согласно Если индивид находится вне области рассеяния всех трех групп, наивероятнейшее решение указывается в скобках.

Различные версии классификации.

Версия 1: по всем десяти признакам и двум дискриминантным функциям;

Версия 2: по трем признакам и двум дискриминантным функциям;

Версия 3: только по одному признаку (имеющему наилучшие разделяющие свойства);

Версия 4: по всем десяти признакам и одной дискриминантной функции;

Версия 5: то же, что по версии 4, но с округленными весовыми коэффициентами.

Таблица 6. (см. скан) Частоты отдельных только наивероятнейших решений при классификации 23 пациентов

Применение элементарных дискриминантных признаков

Для обсуждаемой классификации не обязательны неэлементарные дискриминантные признаки Тех же самых результатов можно достигнуть и с помощью элементарных дискриминантных признаков Так как не все линейно независимы один от другого, то для классификации возьмем вектор только первых дискриминантных признаков Если то этом случае используем все дискриминантные признаки, кроме последнего.

Вместо (7.60) и (7.64) получаем соотношения

Здесь ковариационная матрица вектора-признака А — матрица, образованная из первых столбцов векторы средних значений суть

С вероятностью 1 столбцы матрицы а линейно независимы. Покажем, что результаты классификации те же, что и раньше. Так как (согласно разделу 5.2) элементарные и неэлементарные дискриминантные признаки порождают одно и то же пространство, то существует матрица такая, что

Отсюда по (7.49) получаем

и

Кроме того, имеется матрица для которой

так, что

И наконец, получаем

Однозначность классификации

При классификации по (7.62) стараются по возможности избегать неоднозначных выводов. Многозначность решения полностью исключается, если области рассеяния отдельных групп не пересекаются. Сравнивая векторы средних значений (см. раздел 7.3), легко проверить, имеют ли области рассеяния двух групп общие точки. Обе области рассеяния не пересекаются тогда и только тогда, когда критическая точка

(получающаяся путем усреднения находится вне обеих областей рассеяния.

Величины

пропорциональны радиусам областей рассеяния. Таким образом, должно выполняться неравенство

Поскольку всегда можно найти такой вектор что из (7.70) следует

Поэтому отсюда (7.73) приобретает

Назовем изолированными одна от другой группы, для которых выполняется это условие. Итак, мы нашли четыре характеристики различия двух групп:

1. Отдельное сравнение по

2. Множественное сравнение по

3. Дистант по (7.35) или (7.36).

4. Проверка на изолированность по (7.74). Пример. По данным о гипертиреозе получаем

Соответствующее критическое значение, найденное из таблицы -распределения, равно По данным этого примера, группы 1 и 2, а также 2 и 3 изолированы одна от другой. Вследствие чего индивид, попавший при классификации в группу 2, уже не может быть отнесен ни к какой другой группе. Результаты классификации раздела 7.7.1 подтверждают такой вывод. Преимущество в использовании заключается в том, что возможность неоднозначного решения видна сразу, без проведения классификации.

1
Оглавление
email@scask.ru