Главная > Многомерный дисперсионный анализ
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

5.4. ОПРЕДЕЛЕНИЕ ИЗЛИШНИХ ПРИЗНАКОВ

В наших рассуждениях будем исходить из данных признаков. Поставим цель — уменьшить число признаков до Пусть Проблема заключается в том, что надо решить, какие признаки следует отобрать. Для этого мы можем использовать не истинные параметры только их оценки, причем будем опираться лишь на статистические данные без учета иных точек зрения (например, на различие в стоимости измерения отдельных признаков).

Исключение признаков по показателю необходимости

Правило 1. Если нам нужно, чтобы после исключения признаков для оставшегося множества из признаков значение дистанта было наибольшим, то проведем отбор так, чтобы разность

между выборочными значениями исходного дистанта и будущего дистанта оказалась возможно меньшей. Эту разность назовем «показателем необходимости», так как она показывает, насколько необходимы исключенных признака. Большая величина означает, что признаков настоятельно необходимы.

Использование оценок дистанта в (5.27) законно, так как состоятельная оценка Далее представим равенство (5.27) в другом виде. Для этого положим, что исключаются последних признака а первые признаков остаются. Если

то по аналогии с (5.7) получается

Матрица

коэффициентов дискриминантной функции (5.25) может быть разложена на две подматрицы и столбцами. При этом содержит коэффициенты, относящиеся к первым признакам, а относящиеся к последним признакам. Тогда из (4.45) следует, что

Из этой формулы видно, каким образом «показатель необходимости» зависит от коэффициентов дискриминантной функции, соответствующих последним признакам.

В частном случае, когда исключается только один признак, а именно из (5.31) получаем

Здесь столбец и элемент главной диагонали матрицы Наименее необходим тот признак которому соответствует наименьшее

Исключение признаков по критерию значимости

Вместо правила 1 в основу сокращения признаков может быть положен другой принцип.

Правило 2. Будем исключать то множество из признаков, о котором на основе критерия значимости легче всего заключить, что состоящие в нем признаки избыточны. Определение «истинной» избыточности приводилось в разделе 5.1.

С помощью (3.6) можно легко показать, что матрица

имеет математическое ожидание

что 5 ее столбцов стохастически взаимно независимы и каждый столбец имеет ковариационную матрицу 2. Согласно (4.45) и (3.27) это означает, что матрица имеет нецентральное распределение Уишарта

вне зависимости от того, справедлива гипотеза или нет. Если исходить из того, что последние признаков избыточны по отношению к первым признакам, то по условию избыточности из раздела 5.2 (см. (5.16))

Тогда по (3.28) для проверки избыточности получим статистику

После некоторых преобразований, связанных с действиями над матрицами, она может быть представлена либо в виде

либо в виде

Здесь матрица А, состоит из первых столбцов матрицы если

если

При условии, что последние признаков являются избыточными, статистика имеет (приближенно) -распределение с числом степеней свободы Итак, гипотеза об избыточности отбрасывается, если В противном случае гипотеза считается верной.

Следует заметить, что выражения для степеней свободы получаются благодаря тому, что в равенства (4.98)-(4.101) мы подставляем

По правилу 2 отбрасываем признаков с минимальными Если положить т. е. если проверяется гипотеза об избыточности последнего признака то следует применять статистику

со степенями свободы

Здесь столбец матрицы Статистика имеет в точности -распределение. По аналогии с может быть построена статистика любого признака.

Сравнение методов исключения

Обсудим соотношения между двумя правилами, предложенными для уменьшения числа признаков.

Для сокращения записи введем обозначение

Согласно (5.34) имеем

и

Так как характеристические корни матрицы

по (2.65) не превосходят величины где — наибольший характеристический корень уравнения

то из (2.42) следует

и таким образом

Отсюда получаем еще две оценки:

где - наибольший характеристический корень уравнения

Для частного случая получим из (5.35) и (5.31)

т. е. (5.46) превращается в равенство.

Другой простой результат получается в случае Можно показать, что тогда

Итак, известно: правила 1 и 2 — исключения из множества всех признаков наименее необходимых признаков, в частных случаях, когда эквивалентны, так как в (5.47) и (5.48) величина есть монотонно возрастающая функция В общем случае эти правила, как оказывается, не приводят к одинаковым результатам. Вообще говоря, множество признаков с наименьшим показателем необходимости не совпадает с той совокупностью признаков, для которой гипотеза избыточности легче всего принимается. Мы будем использовать преимущественно правило 1, в частности из-за меньшего объема вычислений.

Если величина уже найдена, статистика обычно еще неизвестна. Но можно применить неравенства (5.43), (5.45) и (5.46). Тогда при

или

на уровне значимости меньше а можно сделать вывод, что соответствующие признаков не избыточны.

Расхождение между правилами 1 и 2 нельзя устранить сразу. Величина сама по себе не вполне удовлетворительная статистика, как потому, что ее распределение при справедливости гипотезы об избыточности зависит не только от но и от качества первых признаков, так и потому, что эта зависимость имеет лишь асимптотический характер при (это видно, между прочим, из (5.47)). Если бы многомерный дистант с самого начала был определен иначе (см. раздел 5.6), такие трудности можно было бы обойти. Но, с другой стороны, как говорит нам наш опыт, увеличился бы объем вычислений для всего анализа.

1
Оглавление
email@scask.ru