Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
2.3. Подстановочные алгоритмы в асимптотике растущей размерностиКак уже сказано в п. 2.1.1, подстановочным (plug-in) алгоритмом называют метод построения правила классификации, при котором неизвестные в отношении правдоподобия параметры распределений 0 заменяют их оценками максимального правдоподобия 0. При минимальных требованиях к плотности распределений подстановочные алгоритмы в традиционной асимптотике асимптотически подобны и 2.3.1. Модель Фишера в асимптотике (2.9).Базовое предположение (2.9) дополним условием, что
т. е. что расстояние Махаланобиса между распределениями стремится к конечному пределу. Рассмотрим сначала случай, когда 2 известно (см. п. 1.1.2). Согласно (1.12) подстановочное правило классификации имеет вид:
где
где
Аналогично
где
В предположениях (2.9), (2.14) с ростом объема обучающей выборки
Из (2.20) — (2.22) видно, что асимптотическое значение а-минимаксной ошибки классификации достигается при равных асимптотических ошибках первого и второго рода, т. е. при
В проведенном выше рассуждении сразу от условной ошибки классификации перешли к асимптотической ошибке, не вычисляя в качестве промежуточного этапа ожидаемую ошибку классификации. Общая модель с матрицей S, оцениваемой по выборочным данным, была изучена А. Д. Деевым [551. В предположении, что
Как видно из сравнения формул (2.23) и (2.24), цена (в терминах а), которую приходится платить за Таблица 2.2
2.3.2. Распределения с независимыми блоками.Эти распределения введены в п. 1.1.5. Они служат простейшей моделью негауссовских распределений. Добавим к базовым предположениям (2.9) предположения, что размерность векторов
что значения соответствующих параметров в классифицируемых распределениях сближаются друг с другом:
и что суммарное расстояние между распределениями стремится к конечному пределу
где
2.3.3. Модель Фишера в случае древообразных распределений.Если при древообразных (ДСЗ) распределениях с известной структурой зависимостей оценку 2.3.4. Оцифровка градаций качественных переменных.Если в исследовании встречаются качественные переменные, то для применения к ним общих линейных моделей дискриминантного анализа их градациям часто приписывают численные значения-метки и далее работают с этими оцифрованными переменными как с обычными числами. При этом используются две стратегии: первая (универсальная) состоит в том, что каждая градация качественной переменной выделяется в новую двоичную переменную, принимающую два значения: 0, если градация не осуществилась, и 1, если осуществилась [11, п. 10.2.4]; вторая стратегия применяется тогда, когда качественные градации можно рассматривать как результат квантования некоторой непрерывной случайной величины (ее математическая техника описана ниже).
Рис. 2.2. Границы квантования и плотности распределений в задаче об оцифровке качественных переменных Наша ближайшая цель — сравнить на простейшей математической модели эффективность этих подходов в асимптотике растущей размерности. Математическая модель: рассматриваются два класса с независимыми переменными в каждом из классов. Пусть
Это наглядно показано на рис. 2.2. Пусть далее выполняются следующие асимптотические (в асимптотике растущей размерности) предположения:
Подготовительные вычисления
В данных предположениях: при оцифровке по первой схеме, когда градации оцифровываются независимо друг от друга так, что
при оцифровке по второй схеме, когда
|
1 |
Оглавление
|