ВЫВОДЫ
1. В дискриминантном анализе (ДА) распределения X в классах известны не полностью. Они задаются предположениями и выборкой. Обычно предполагается, что либо , либо их отношения принадлежат известному параметрическому классу функций с неизвестными значениями параметров.
Выборка имеет вид , где показывает, из какого класса взято наблюдение
2. Алгоритмом ДА называют метод, с помощью которого на основании обучающей выборки и предположений строится конкретное правило классификации. Поскольку выборка случайна, случайно и построенное на ее основе правило. Поэтому наряду с характеристиками конкретного правила часто рассматривают и средние (ожидаемые) значения этих характеристик, полученные путем усреднения по всем выборкам данного объема . Это уже характеристика алгоритма. Наиболее часто используются — УОК — условная ошибка классификации правила, построенного с помощью алгоритма приданной обучающей выборке, — ожидаемая ошибка классификации алгоритма А и — АОК — асимптотическая (при ошибка классификации алгоритма А, а также называемое коэффициентом обучаемости алгоритма А на выборке объема и, или, проще, коэффициентом Раудиса.
3. Для изучения свойств алгоритмов классификации в условиях, когда удачной оказалась ассимптотика растущей размерности Колмогорова — Деева, в которой рассматривается последовательность задач классификации (по параметру ), такая, что Для получения в этой асимптотике содержательных результатов в конкретных задачах на распределения обычно накладываются дополнительные условия.
4. В ДА наиболее часто используются так называемые подстановочные алгоритмы, в которых неизвестные в отношении правдоподобия параметры модели заменяются их оценками, построенными по выборке. Пусть а — предельная в асимптотике Колмогорова — Деева минимаксная ошибка классификации. Тогда для подстановочного алгоритма в модели Фишера с известной ковариационной матрицей , где d — предельное расстояние между центрами классов: в той же модели, но с неизвестной матрицей т. е. заметно больше.
5. Теоретические исследования показывают, что последняя ошибка может быть заметно уменьшена в частных случаях, когда имеет простую структуру зависимостей
Ошибку можно уменьшить также, заменив в линейной дискриминантной функции на специальным образом подобранную регуляризованную оценку
6. В условиях дефицита выборочной информации часто бывает целесообразным для улучшения свойств алгоритма использовать не все переменные, а только часть из них. Вместе с тем задача отбора переменных сопряжена со значительными как техническими, так и чисто статистическими трудностями.