Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
6.12. ПРОБЛЕМА ОБОСНОВАННОСТИПочти для всех процедур, которые мы пока что рассмотрели, предполагалось, что число групп известно. Это разумное предположение, если мы обновляем классификатор, который был создан на малом множестве выборок, или если следим за образами, медленно меняющимися во времени. Однако это очень неестественное предположение в случае, когда мы исследуем совершенно неизвестное множество данных. Поэтому в кластерном анализе постоянно присутствует проблема: сколько групп имеется в множестве выборок? Когда группировка производится достижением экстремума функции критерия, обычный подход состоит в том, что необходимо повторить процедуры группировки для Более формальным подходом к задаче является попытка найти некоторую меру качества, которая показывает, насколько хорошо данное описание из с групп соответствует данным. Традиционными мерами качества являются хи-квадрат и статистики Колмогорова — Смирнова, но размерность данных обычно требует использования более простых мер, таких, как функция критерия J(с). Так как мы предполагаем, что описание на основании чем на основании с групп, то хотелось бы знать, что дает статистически значимое улучшение Формальным способом является выдвижение нулевой гипотезы, что имеются только с групп, и вычисление выборочного распределения для К сожалению, обычно очень трудно сделать что-либо большее, кроме грубой оценки такого распределения для Сумма квадратов ошибок
где Предположим теперь, что мы разделяем множество выборок на два подмножества
здесь m — среднее выборок в решения для распределения выборок. Однако можно получить приблизительную оценку, получив проведением гиперплоскости через среднее выборок разделение, близкое к оптимальному. Для больших Результат совпадает с нашим предположением, что
Конечный результат можно сформулировать следующим образом: отбрасываем нулевую гипотезу с
где а определяется из выражения
Таким образом, мы получим тест для решения, оправданно или нет разбиение группы. Ясно, что задачу с с группами можно решать, применив те же тесты для всех найденных групп.
|
1 |
Оглавление
|