Главная > Факторный, дискриминантный и кластерный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

КОГДА ИСПОЛЬЗУЕТСЯ ДИСКРИМИНАНТНЫИ АНАЛИЗ — ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ

Во-первых, объекты (наблюдения) должны принадлежать одному из двух (или более) классов (групп). Объекты являются основными единицами анализа. Объектами изучения могут быть люди, животные, страны, экономика в различные моменты времени и вообще все, что угодно. В примере с террористами каждый предыдущий террористический акт есть объект. Класс должен быть определен таким образом, чтобы каждое наблюдение принадлежало одному и только одному классу. Последствия террористических актов могут быть отнесены к одному из двух классов: случаи успешного освобождения заложников и случаи, когда пострадали некоторые или все заложники.

В практических задачах допускаются объекты, которые нельзя отнести ни к какой группе. Например, иногда определенное число наблюдений не удается идентифицировать либо по какой-то причине откладывается анализ этих наблюдений. Такие объекты будут классифицироваться позже, на основе математических функций, полученных из анализа наблюдений с «известной» принадлежностью. В случае с террористами главная задача состоит в точном предсказании результатов будущих инцидентов. Поэтому будущие инциденты могут рассматриваться как «несгруппированные» и «нерасклассифицированные».

«Дискриминантный анализ» — это общий термин, относящийся к нескольким тесно связанным статистическим процедурам. В конкретных ситуациях не обязательно использовать все эти процедуры. Их можно разделить на методы интерпретации межгрупповых различий и методы классификации наблюдений по группам. Речь идет об интерпретации, когда рассматриваются различия между классами. Другими словами, при интерпретации необходимо ответить на вопросы: возможно ли, используя данный набор характеристик (переменных), отличить один класс от другого; насколько хорошо эти характеристики позволяют провести различение и какие из них наиболее информативны. Метод, относящийся к классификации, связан с получением одной или нескольких функций, обеспечивающих возможность отнести данный объект к одной из групп. Эти функции, называемые дискриминантными, зависят от значений характеристик таким образом, что появляется возможность отнести каждый объект к одной из групп. Например, если значения характеристик нового террористического акта близки к соответствующим значениям прошлых инцидентов, в которых все заложники были освобождены, дискриминантная функция покажет, что для рассматриваемого события более вероятен благоприятный исход. (После того как инцидент будет исчерпан, станет известно, оправдался ли прогноз, однако для многих других приложений подтвердить точность классификации не представляется возможным.)

Разумеется, дискриминантный анализ необходим и для интерпретации, и для классификации.

Характеристики, применяемые для того, чтобы отличать один класс от другого, называются дискриминантными переменными. Эти переменные должны измеряться либо по интервальной шкале, либо по шкале отношений. Таким образом, становится возможным вычисление математических ожиданий, дисперсий и правомерно использование дискриминантных переменных в математических уравнениях. В примере с террористами были упомянуты семь дискриминантных переменных (число террористов, степень поддержки, количество оружия и т. д.). В общем случае, число дискриминантных переменных неограничено, но в сумме число объектов должно всегда превышать число переменных по крайней мере на два.

Однако существуют определенные ограничения, касающиеся статистических свойств дискриминантных переменных. Во-первых, ни одна переменная не может быть линейной комбинацией других переменных. Линейная комбинация — это сумма одной или более переменных с постоянными весами. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим совместно с самими переменными. Соответственно недопустимы переменные, коэффициент корреляции которых равен 1. Переменная, являющаяся линейной комбинацией других, не несет какой-либо новой информации помимо той, которая содержится в компонентах суммы, поэтому она является лишней.

Другое предположение, принимаемое во многих случаях, заключается в том, что ковариационные матрицы для генеральных совокупностей (генеральные ковариационные матрицы) равны между собой для различных классов. Часто используемой форме дискриминантного анализа присущи линейные дискриминантные функции, соответствующие просто линейной комбинации дискриминантных переменных. Этот метод наиболее элементарен, поскольку предположение об одинаковых ковариационных матрицах в классах упрощает формулы вычисления дискриминантных функций, а также облегчает проверку гипотез о статистической значимости.

Следующее допущение касается того, что закон распределения для каждого класса является многомерным нормальным, т. е. каждая переменная имеет нормальное распределение при фиксированных остальных переменных (Blalock, 1979; 452). Данное предположение позволяет получить точные значения вероятности принадлежности к данному классу и критерия значимости. При нарушении допущения о нормальности распределения значения вероятности вычислить точно уже нельзя, но соответствующие оценки могут быть полезны, если, конечно, соблюдать известную осторожность (Lachenbruch, 1975; 41—46).

Упомянутые выше допущения для дискриминантного анализа фундаментальны. Если экспериментальные данные для некоторой конкретной задачи не вполне удовлетворяют этим предположениям, то статистические выводы не будут точным отражением реальности.

Нарушение основных предположений будет обсуждаться в разд. VI.

Из всего сказанного, должно быть ясно, что дискриминантный анализ используется для изучения различий между несколькими группами по определенному набору дискриминантных переменных (рис. 1). Рассматривая классы как значения некоторой классифицирующей переменной, измеренной по шкале наименований (когда каждому классу присваивается свое обозначение), мы представляем дискриминантный анализ в качестве метода сопоставления нескольких интервальных переменных одной номинальной переменной.

Заметим, что мы не сказали о причинности дискриминантной модели, и соответственно на рис. 1 связи приведены без указания их направления. Кроме того, не делается предположений о зависимости или независимости классифицирующей переменной и дискриминантных переменных. Если в конкретной ситуации классифицирующие переменные можно считать зависимыми от дискриминантных переменных, то задача аналогична задаче множественной регрессии. Основное отличие состоит в том, что в дискриминантном анализе зависимая переменная измеряется по шкале наименований (классов). Пример с террористами именно такого рода. Но когда предполагается, что значения дискриминантных переменных зависят от классов, дискриминантный анализ является обобщением многомерного дисперсионного анализа. Это типично для задач, в которых принадлежность переменных к некоторому классу вызывает изменения одновременно в нескольких переменных.

Теперь просуммируем математические допущения, которые принимаются в дискриминантном анализе. Сначала введем следующие обозначения:

Рис. 1. Зависимость между группами и дискриминантными переменными

g — число классов;

— число дискриминантных переменных;

- число объектов (наблюдений) класса ;

— общее число объектов всех классов.

В модели дискриминантного анализа должно быть:

1) два или более классов: ;

2) по крайней мере два объекта в каждом классе: 2;

3) любое число дискриминантных переменных при условии, что оно не превосходит общее число объектов за вычетом двух: ;

4) измерение дискриминантных переменных по интервальной шкале;

5) линейная независимость дискриминантных переменных;

6) приблизительное равенство между ковариационными матрицами для каждого класса (если не используются специальные формулы);

7) многомерная нормальность закона распределения дискриминантных переменных для каждого класса.

1
Оглавление
email@scask.ru