2.2. Методы изучения алгоритмов ДА
2.2.1. Базовые асимптотики.
В математической статистике принято доверительные интервалы и дисперсии оценок для конечного объема выборки приближенно представлять через асимптотические (при ) распределения соответствующих оценок [11, § 8.4). Это позволяет не только получать хорошие приближения, но и делает теорию более наглядной. Аналогичный прием используется и в дискриминантном анализе. Однако здесь в зависимости от особенностей реальной задачи используются разные асимптотики. Остановимся на этом вопросе более подробно.
Каждый естествоиспытатель знает, что чем больше наблюдений каких-либо статистических объектов он имеет, тем на большее число вопросов относительно характеристик этих объектов он может ответить. Другими словами, чем больше информации, тем более сложная математическая модель может рассматриваться. Если ввести некоторый показатель «сложности» математической модели (С), то различные варианты связи между С и объемом выборки могут быть представлены графически (рис. 2.1).
Горизонтальная прямая (1) на рисунке отвечает традиционной асимптотике математической статистики, используемой главным образом при оценке параметров распределений. Здесь сложность модели — число параметров — фиксирована, а объем выборки растет [11, § 8.1]. Для регрессионных задач, в которых с ростом числа наблюдений увеличивается число параметров, используемых для описания регрессионной кривой [12, § 6.3, 10.2], более характерна кривая (2), у которой рост С пропорционален , где . В задачах статистической классификации широкое распространение получила асимптотика Колмогорова — Деева [12, п. 4.3.3], в которой сложность модели — размерность пространства наблюдений — растет прямо пропорционально числу наблюдений (кривая 3). Кривые на рис. 2.1 пересекаются в одной точке с абсциссой .
Эта точка соответствует вероятностной модели, которую строит исследователь, имеющий данное число наблюдений, параметров и т. п. Для всех кривых на рис. 2.1 при вероятностная модель одна и та же, однако асимптотические (при ) свойства изучаемого метода классификации существенно зависят от того, какую модель усложнения вероятностной модели с ростом , или, другими словами, какую модель развития вероятностной модели выберет исследователь. В [26] предлагается объединение вероятностной модели и модели ее развития называть статистической моделью.
Рис. 2.1. Основные асимптотики: (1) — фиксировано, (традиционная); (2) - (3) - (Колмогорова — Деева); (4) — фиксировано
Правда, само понятие модели развития в [26] трактуется шире, чем здесь.
Рассмотрим асимптотики, используемые в теории статистической классификации. В традиционной асимптотике математическая модель не меняется, только объем выборки гаоо. Эксперименты с моделированием выборок из нормальных распределений показывают, что асимптотические (по гаоо) разложения для ошибок классификации, полученные в традиционной асимптотике [132, 135], близки к результатам моделирования только при .
Используется также схема серий выборок с моделью растущей (одновременно с ростом объема выборки) размерности пространства наблюдений (асимптотика Колмогорова — Деева).
Рассматривается последовательность задач классификации (по параметру ), при переходе от одной задачи к другой одновременно растут — размерность пространства наблюдений и — число наблюдений в обучающей выборке из класса, . В асимптотике предполагается, что
Для изучения статистической задачи классификации эта асимптотика была предложена в 1968 г. А. Н. Колмогоровым, первым обратившим внимание на то, что классификация в задаче Фишера существенно конечномерна. А. Д. Деев [55] исследовал задачу Фишера (см. п. 2.3.1). Хорошее совпадение полученных асимптотических формул для асимптотических ошибок классификации с речультатами моделирования [1351 привлекло к этой асимптотике внимание теоретиков. Несколько раньше при изучении распределений случайных матриц, связанных с физическими задачами, асимптотика растущей размерности использовалась в работе [103].
Асимптотика растущей размерности при фиксированном числе наблюдений [304] пока носит чисто теоретический характер.