8.3.4. Проблема экзаменационной выборки
Как и в дискриминантном анализе, желательно разбить имеющуюся выборку на основную, по которой строится решающее правило, и экзаменационную, по которой оценивается пригодность этого правила.
Первый экзамен проводится для априорного разбиения, результаты его позволяют провести первый контроль. Является ли разбиение, полученное к моменту сходимости алгоритма, аналогом такого же разбиения, полученного исходя из основной выборки? Если
то продолжаем процедуру и на каждом этапе контролируем значимость результатов.
Для этой процедуры, следовательно, необходимо располагать экзаменационной выборкой объема, сравнимого с объемом основной выборки. Самое простое для этого иметь новую выборку, которая позволила бы нам проверить наши методы. К сожалению, мы не располагаем такой выборкой. Единственное что нам остается сделать, это разделить нашу выборку из
машин на основную, чтобы строить разбиение на классы и связанные с ним дискриминантные оси, и на экзаменационную выборку, чтобы исследовать устойчивость наших результатов.
Мы оставили 85 индивидуумов для основной выборки и 28 — для экзаменационной. Эта операция была повторена еще 2 раза. Каждый раз экзаменационная выборка извлекалась так:
8 машин были отобраны случайным образом в группе
машины были отобраны случайным образом в каждой из групп
5 машин были отобраны случайным образом в группе
Располагая экзаменационными выборками, можно было проводить анализ по оставшимся выборкам.
Мы положили число классов равным 5, число дискриминантных осей
начальное разбиение
было следующим:
класс 1 — семейство
класс 2 — семейства
и
класс 3 — семейство
класс 4 — семейство
класс 5 — семейства
и
Замечание. Малочисленность классов разбиения
не позволяет рассматривать более мелкие подклассы.
Дискриминантный типологический анализ, начинающийся с разбиения
множества
после первой итерации привел к разбиению
(см. табл. 8.6), которое подтверждает результаты предыдущего анализа. Полученное разбиение имеет структуру, аналогичную
Таблица 8.6 (см. скан)
Распределение экзаменационной выборки по классам:
класс 1:
класс 2:
класс 3:
класс 4:
класс 5:
.
Мы подчеркнули те индивидуумы, которые считались неправильно расклассифицированными по результатам четвертого анализа (оптимального) и экзаменационного анализа. Таким образом, мы имеем из 28 индивидуумов 5- неправильно расклассифицированных. Принимая во внимание объем основной выборки, этот результат кажется удовлетворительным.
Другой экзаменационный анализ. Для этого анализа в качестве начального было взято разбиение, полученное из оптимального разбиения
индивидуумов. В этом случае разбиение, полученное к моменту сходимости, оказалось более устойчивым, что подтвердил и экзамен. Использовалась экзаменационная выборка из 28 индивидуумов. Один из 28 индивидуумов оказался неправильно расклассифицированным. Разбиение
является, таким образом, удовлетворительным.