Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
IV. ПРОЦЕДУРЫ КЛАССИФИКАЦИИКак уже было сказано, целью дискриминантного анализа является решение двух задач: интерпретации и классификации. До сих пор внимание фокусировалось в основном на задаче интерпретации, которая связана с определением числа и значимости канонических дискриминантных функций и с выяснением их значений для объяснения различий между классами. Классификация — это особый вид деятельности исследователя, в котором либо дискриминантные переменные, либо канонические дискриминантные функции используются для предсказания класса, к которому более вероятно принадлежит некоторый объект. Существует несколько процедур классификации, но все они сравнивают положение объекта с каждым из центроидов классов, чтобы найти «ближайший». Например, целью исследования Бардес было сформировать подпространство, определяемое канонической дискриминантной функцией, используя данные о 19 сенаторах и выделенных фракциях. Затем она, воспользовавшись результатами их голосования, вычислила значения дискриминантной функции для позиций остальных сенаторов и смогла отнести позицию каждого сенатора к одной из четырех групп. Таким образом, она определила размеры и состав фракций и выяснила, как они изменяются со временем. КЛАССИФИЦИРУЮЩИЕ ФУНКЦИИКлассификация — это процесс, который помогает исследователю принять решение: указанный объект «принадлежит к» или «очень похож на» данную группу (класс). Такое решение принимается на основе информации, содержащейся в дискриминантных переменных. Существует несколько способов проведения классификации. Обычно они требуют определения понятия «расстояния» между объектом и каждым центроидом группы, чтобы можно было приписать объект к «ближайшей» группе. Процедуры классификации могут использовать или самими дискриминантные переменные, или канонические дискриминантные функции. В первом случае дискриминантный анализ вовсе не проводится. Здесь просто применяется подход максимизации различий между классами для получения функции классификации. Различение классов или размерность дискриминантного пространства на значимость не проверяется. Если же сначала определяются канонические дискриминантные функции и классификация проводится с их помощью, можно провести более глубокий анализ. К этому мы вернемся позднее, а сейчас продолжим рассмотрение классификации, когда дискриминантные переменные используются непосредственно. Простые классифицированные функцииФишер (1936) был первым, кто предположил, что классификация должна проводиться с помощью линейной комбинации дискриминантных переменных. Он предложил применять линейную комбинацию, которая максимизирует различия между классами, но минимизирует дисперсию внутри классов. Разработка его предложения приводит нас к определению особой линейной комбинации для каждого класса, которая называется «классифицирующая функция». Она имеет следующий вид:
где
где
Мы обычно не интерпретируем эти коэффициенты классифицирующей функции, потому что они не стандартизованы и каждому классу соответствует своя функция. Таблица 11. Коэффициенты простой классифицирующей функции
Точные значения функции роли не играют: нам нужно знать лишь, для какого класса это значение наибольшее. Именно к нему объект ближе всего. Функции, описываемые соотношением (12), называются «простыми классифицирующими функциями» потому, что они предполагают лишь равенство групповых ковариационных матриц и не требуют никаких дополнительных свойств, обсуждаемых далее. Рассмотрим табл. 11, в которой приведены коэффициенты классифицирующих функций для данных о голосовании в сенате, чтобы проиллюстрировать использование этих функций. Применив такую функцию к первичным данным по позиции сенатора Айкена, мы получим следующие значения для четырех групп: 89,742; 46,578; 78,101 и 78,221. Поскольку первое значение — наибольшее, мы отнесем позицию Айкена к первой группе (что является верным предсказанием). Обобщенные функции расстоянияБолее понятным способом классификации является измерение расстояний между объектом и каждым из центроидов классов, чтобы затем отнести объект в ближайший класс. Однако в тех случаях, когда переменные коррелированы, измерены в разных единицах и имеют различные стандартные отклонения, бывает трудно определить понятие «расстояния». Индийский статистик Махаланобис (1963) предложил обобщенную меру растояния, которая устраняет эти трудности. Мы можем использовать ее в следующей форме:
где Если расстояние до ближайшего класса велико, то согласие между профилями будет плохим, но по сравнению с любым другим классом — хорошим. Соотношение (15) предполагает, что классы имеют равные ковариационные матрицы. Если это предположение не выполняется, то выражение можно модифицировать, как предлагает Татсуока (1971; 222). Вероятность принадлежности к классуОказывается Относя объект к ближайшему классу в соответствии со значением Ясно, что для любого объекта сумма этих вероятностей по всем классам не обязательно равна 1. Однако если мы предположим, что каждый объект должен принадлежать одной из групп, то можно вычислить вероятность принадлежности для любой из групп. Вероятность того, что объект X является членом класса k, равна:
Сумма этих вероятностей, часто называемых апостериорными вероятностями, по всем классам равна 1. Классификация наибольшей из этих величин тоже эквивалентна использованию наименьшего расстояния. Позиция сенатора Айкена с апостериорной вероятностью 1,0 принадлежит к группе 1, а позиция Бриджеса имеет апостериорную вероятность 0,99 для группы 4. Обратите внимание и а различие между этими двумя вероятностями. Апостериорная величина
|
1 |
Оглавление
|