отношение числа наблюдений
группы 1 к числу наблюдений
обеих групп.
Теперь можно сделать выводы о значении шкалирования для линейного дискриминантного анализа. Поскольку сейчас мы не собираемся судить о соотношениях между генеральной совокупностью и выборкой, заменим частоты
соответствующими вероятностями
того, что наблюдение группы
принадлежит категории
Дополнительно предположим, что обе группы представлены одинаковыми по объему выборками
При этих условиях шкалирование дает для категорий 1, К числовые меры
После выбора числовой шкалы для разделения групп с помощью линейного дискриминантного анализа необходимо найти математические ожидания
для обеих групп. Они равны:
причем
соответственно
В силу известного неравенства Коши-Шварца получаем, что
Следовательно, граница между группами 1 и 2 лежит в точке 1/2. Категории
надо относить к группе 1, категории
к группе 2. Это означает, что все категории
при дискриминантном анализе приписываются группе 1, а категории с
к группе 2.
Итак, налицо полное совпадение линейного дискриминантного правила на основе оцифровки и байесовского решающего правила [67]; независимо от распределений, линейный дискриминантный анализ оказался оптимальным правилом классификации. Это доказательство рассеивает всякие сомнения относительно применения метода оцифровки номинальной шкалы и линейного дискриминантного анализа.
Мы еще увидим, что шкалирование можно применять не только к дискретным, но и к непрерывным признакам. В этом случае действует полностью аналогичное оптимальное решающее правило: пусть
произвольные плотности вероятности для групп 1 и 2; в таком случае шкала
осуществляет линейную классификацию, эквивалентную наилучшему непараметрическому решающему правилу.
Естественно, для практики эти рассуждения имеют лишь приближенный характер, так как распределения наблюдений нам никогда не известны полностью.