Главная > Факторный, дискриминантный и кластерный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

V. ПОСЛЕДОВАТЕЛЬНЫЙ ОТБОР ПЕРЕМЕННЫХ

Исследователи часто сталкиваются с ситуациями, когда в их распоряжении оказывается несколько возможных дискриминантных переменных, а они не уверены, все ли из этих переменных полезны и необходимы. Подобные ситуации часто возникают, когда затруднительно привести точный список дискриминантных переменных. В результате собираются данные о всех переменных, которые, как «предполагается», являются хорошими дискриминаторами, или же исследование носит предварительный характер и специалисты пытаются обнаружить полезные дискриминантные переменные.

В этих ситуациях одна или больше переменных могут оказаться плохими дискриминаторами, потому что средние классов слабо различаются по этим переменным. Кроме того, две или больше переменных могут нести одинаковую информацию, хотя каждая является хорошим дискриминатором. Если некоторые из них заняты в анализе, остальные оказываются лишними. Последние не вносят никакого вклада в анализ, (хотя сами по себе они могут быть хорошими дискриминаторами), потому что в них недостаточно новой информации. Если нет убедительных теоретических соображений в пользу сохранения таких «избыточных» переменных, их рекомендуется исключать, поскольку они только усложняют анализ и могут даже увеличить число неправильных классификаций.

Один из способов исключения ненужных переменных состоит в использовании процедуры последовательного отбора наиболее полезных дискриминантных переменных. Прямая процедура последовательного отбора начинается с выбора переменной, обеспечивающей наилучшее одномерное различение. Затем анализируются пары, образованные отобранной и одной из оставшихся переменными, после чего находится пара, дающая наилучшее различение, из которой и отбирается переменная.

Далее процедура переходит к образованию троек из первых двух и каждой из оставшихся переменных. Наилучшая тройка определяет третью переменную. На каждом шаге этой процедуры отбирается переменная, которая в сочетании с отобранными ранее дает наилучшее различение. Процесс продолжается до тех пор, пока не будут рассмотрены все возможные переменные или пока оставшиеся переменные не перестанут улучшать различение.

Процедура последовательного отбора может работать и в обратном направлении, т. е. когда все переменные первоначально считаются «входящими» в систему, а затем на каждом шаге отбрасывается одна, самая плохая. Прямой и обратный отборы могут сочетаться, но чаще применяется прямая процедура. Если какая-либо переменная больше не дает значимого вклада в процесс различения, то она отбрасывается, но на следующем шаге может быть снова отобрана. Устранение ранее отобранной переменной происходит потому, что она в значительной степени содержит ту же дискриминантную информацию, что и другие переменные, отобранные на предыдущих шагах. В то время когда эта переменная отбиралась, она вносила существенный вклад в процесс различения. Однако переменные, отобранные на последующих шагах, в сочетании с одной или несколькими, отобранными ранее, дублируют этот вклад, таким образом переменная становится избыточной и удаляется.

Процедуры последовательного отбора порождают оптимальное множество дискриминантных переменных, которое может не быть максимальной (наилучшей) комбинацией. Чтобы получить максимальное решение, нужно проверить все возможные сочетания (пары, тройки и т. д.). Такая проверка может оказаться дорогой и требующей больших временных затрат. Процедура последовательного отбора является логичным и эффективным способом поиска лучшей комбинации, но нет гарантии, что ее конечный продукт действительно превосходит все остальные.

Последовательность, в которой отбираются переменные, не обязательно соответствует их относительной значимости. Вследствие коррелированности (что разделяет дискриминантные возможности) даже хорошие дискриминаторы могут поздно попасть или вообще не попасть в последовательность, так как их вклад в различение может оказаться меньше вклада других переменных.

1
Оглавление
email@scask.ru