Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
КРИТЕРИИ ОТБОРАПроцедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора. Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда. Л-статистика Уилкса и частное F-отношениеЛ-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса. Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность ее изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности. Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение. Как обсуждалось раньше, мы можем преобразовать Л-статистику в полную V-статистика РаоРао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как К-статистика
где Когда рассматривается большое число объектов, Если изменение не является значимым, переменную можно не включать. При добавлении переменных изменение Квадрат расстояния Махаланобиса между ближайшими классамиМожно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов. Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все они используют квадрат расстояния Махаланобиса между центроидами двух классов. Конечно, одна из этих статистик — само расстояние Межгрупповая F-статистикаF-статистика различий между двумя классами дается следующей формулой:
Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов. Расстояния для малых классов получат меньшие веса, чем расстояния для больших классов. Таким образом, этот критерий стремится увеличить различия между парами, содержащими большие группы. Минимизация остаточной дисперсииПятый возможный критерий предназначен для минимизации остаточной дисперсии между классами. Формула имеет вид
Каждый член суммы равен единице минус квадрат множественной корреляции между множеством рассматриваемых дискриминантных переменных и фиктивной переменной, идентифицирующей соответствующую пару классов. Следовательно, R является остаточной дисперсией, потому что каждый член суммы представляет собой долю дисперсии фиктивной переменной, которую нельзя объяснить с помощью дискриминантных переменных. Иногда число пар классов делят на Кроме того, если некоторым парам нужно придать значимость, большую по сравнению с другими, каждой паре можно приписать определенный вес (см. Dixon, 1973; 243). Учитывая одновременно все пары классов, R содействует формированию равномерного разделения классов. Этот критерий слегка отличается от первых двух, в которых два класса могут оставаться близкими друг другу, а значительное улучшение разделения получено для других классов или за счет увеличения внутригрупповой когезии. Он также отличается от третьего и четвертого критериев, в которых основное внимание обращается только на самую тесную пару.
|
1 |
Оглавление
|