Главная > Факторный, дискриминантный и кластерный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

КРИТЕРИИ ОТБОРА

Процедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора. Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда.

Л-статистика Уилкса и частное F-отношение

Л-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса. Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность ее изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности.

Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение. Как обсуждалось раньше, мы можем преобразовать Л-статистику в полную -статистику для проверки различий между классами. Если такое преобразование происходит, то выбор производится по наибольшему значению. Вместо полного -отношения мы можем воспользоваться частным -отношением, которое вычисляется так же, как и значение -включения (см. ниже). Использование всех трех статистик приводит к одному и тому же результату.

V-статистика Рао

Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как К-статистика допустима при любом количестве классов. Она измеряет разделение центроидов классов и не касается когезивности внутри клас Таким образом, переменная, отобранная с помощью У-статис-тики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистика измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса. Следовательно, -статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для F-статистики имеет вид

где — число отобранных переменных (включая отобранную на текущем шаге).

Когда рассматривается большое число объектов, -статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с степенями свободы. Кроме того, изменение -статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным умноженное на число переменных, добавленных (удаленных) на этом шаге. Мы можем использовать это свойство при проверке статистической значимости изменения общего разделения.

Если изменение не является значимым, переменную можно не включать. При добавлении переменных изменение -статистики может оказаться отрицательным, что означает ухудшение разделения центроидов.

Квадрат расстояния Махаланобиса между ближайшими классами

Можно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов. Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все они используют квадрат расстояния Махаланобиса между центроидами двух классов.

Конечно, одна из этих статистик — само расстояние Это прямая непосредственная мера, в которой всем парам классов приписываются равные веса.

Межгрупповая F-статистика

F-статистика различий между двумя классами дается следующей формулой:

Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов. Расстояния для малых классов получат меньшие веса, чем расстояния для больших классов. Таким образом, этот критерий стремится увеличить различия между парами, содержащими большие группы.

Минимизация остаточной дисперсии

Пятый возможный критерий предназначен для минимизации остаточной дисперсии между классами. Формула имеет вид

Каждый член суммы равен единице минус квадрат множественной корреляции между множеством рассматриваемых дискриминантных переменных и фиктивной переменной, идентифицирующей соответствующую пару классов. Следовательно, R является остаточной дисперсией, потому что каждый член суммы представляет собой долю дисперсии фиктивной переменной, которую нельзя объяснить с помощью дискриминантных переменных. Иногда число пар классов делят на чтобы получить среднюю остаточную дисперсию между классами, но это не влияет на выбор переменных.

Кроме того, если некоторым парам нужно придать значимость, большую по сравнению с другими, каждой паре можно приписать определенный вес (см. Dixon, 1973; 243).

Учитывая одновременно все пары классов, R содействует формированию равномерного разделения классов. Этот критерий слегка отличается от первых двух, в которых два класса могут оставаться близкими друг другу, а значительное улучшение разделения получено для других классов или за счет увеличения внутригрупповой когезии. Он также отличается от третьего и четвертого критериев, в которых основное внимание обращается только на самую тесную пару.

1
Оглавление
email@scask.ru