10.3.6. Оптимальный выбор числа классов
Каким бы ни был применяемый метод классификации, встает задача выбора числа классов. На практике вычисляют один (или несколько) показатель, позволяющий оценить это число классов. Мы опишем здесь два таких показателя. Первый
где К — число классов. Полная остаточная дисперсия записывается в виде
разложим вектор в композицию:
где мы использовали то, что и приведенное далее предложение 11. Имеем
где
Заметим, что
Рис. 10.3
Предложение 11.
(если обратные матрицы существуют).
Доказательство. В самом деле, пусть обратимая матрица, такая, что
Имеем
откуда
и
Предложение 12. Вектор локальных невязок ортогонален вектору вычисленных глобальных значений:
Доказательство.
Положим
тогда
Имеем
если внутриклассовая дисперсия равна нулю, т. е. когда критерий алгоритма типологической регрессии равен нулю. Чтобы оценить значение параметра строят график кривой с (рис. 10.4). Анализируя эту кривую, можно заключить, что приемлемая для нашего примера величина К равна, 4.
Рис. 10.4
Второй показатель определяется по аналогии с -критерием Фишера:
где n - число наблюдений.