Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

10.3.6. Оптимальный выбор числа классов

Каким бы ни был применяемый метод классификации, встает задача выбора числа классов. На практике вычисляют один (или несколько) показатель, позволяющий оценить это число классов. Мы опишем здесь два таких показателя. Первый

где К — число классов. Полная остаточная дисперсия записывается в виде

где вычисленное с помощью глобальной регрессии значение Пусть значение вычисленное по методу типологической регрессии с К классами. Докажем, что

полная остаточная дисперсия внутриклассовая остаточная дисперсия межклассовая остаточная дисперсия. Имеем

откуда в векторной форме

Нужно показать, что последнее слагаемое равно нулю. Итак, для всех имеем

так как каждый в проекции на линейное многообразие, порожденное объясняющими переменными класса дает

Суммируя это равенство по получаем, что . Остается показать, что Пусть

— векторы наблюденных значений классов Имеем

откуда

разложим вектор в композицию:

где мы использовали то, что и приведенное далее предложение 11. Имеем

где

Заметим, что

Рис. 10.3

Предложение 11.

(если обратные матрицы существуют).

Доказательство. В самом деле, пусть обратимая матрица, такая, что

Имеем

откуда

и

Предложение 12. Вектор локальных невязок ортогонален вектору вычисленных глобальных значений:

Доказательство.

Положим

тогда

Имеем

если внутриклассовая дисперсия равна нулю, т. е. когда критерий алгоритма типологической регрессии равен нулю. Чтобы оценить значение параметра строят график кривой с (рис. 10.4). Анализируя эту кривую, можно заключить, что приемлемая для нашего примера величина К равна, 4.

Рис. 10.4

Второй показатель определяется по аналогии с -критерием Фишера:

где n - число наблюдений.

1
Оглавление
email@scask.ru