класс выбирался с вероятностью
классом связывалась известная функция плотности вероятности
с неизвестным множеством параметров
. (Например, если бы функция
была нормальным распределением, то множество 0 могло бы содержать среднее и дисперсию для класса
Затем в пространстве описаний с вероятностью
выбиралась точка х. Задача группирования состоит в выборе значений для множеств
которые лучше соответствуют данным X. Это естественная, хотя и трудная с вычислительной точки зрения задача статистической оценки. Хоел (1970) изложил математические аспекты задачи, а Купер (1969) рассмотрел их с машинной точки зрения. Вместо того чтобы заставлять читателя изучать эти весьма технические работы, мы приведем широко используемый пример вычислений, известный как минимизация по критерию хи-квадрат.
Пусть пространство описаний
разбито на
попарно непересекающихся областей
Обозначим через
число точек в X, попадающих в область
Для любых фиксированных значений
ожидаемое число наблюдений в области
равно
Статистика хи-квадрат, которую предстоит минимизировать, равна
Задача решена, если найдены значения
, минимизирующие (101). В некоторых задачах надо найти и значение
Конкретный способ решения зависит от вида функций плотности вероятности
Если повезет, то наилучшую оценку удается получить в замкнутой форме. В других случаях может понадобиться испробовать каким-то систематическим образом различные численные значения параметров. В некоторых задачах исчерпывающее перечисление параметров было неосуществимым даже с помощью очень большой ЭВМ. Гарнац и Хант (1973) показали, что в подобных случаях может оказаться достаточно точной для практических целей процедура графической оценки, выполняемой с помощью ЭВМ.