1.2.3. Условная вероятность быть случаем.
В исследованиях, направленных на выявление риск-факторов стать за фиксированное время случаем, принято разбивать исходные объекты на несколько частей равного объема согласно увеличивающемуся риску стать случаем и для каждой части указывать соответствующую долю случаев [277, 322]. Если дополнительно предположить, что распределения для случаев и не случаев приближенно нормальны с общей дисперсией, то по заданному значению d и частоте случаев легко найти распределение доли случаев для разбиения изучаемой популяции согласно риску быть случаем. В табл. 1.2 частота случаев указана для квартилей риска. Подобные таблицы можно использовать и в обратном направлении: по данной частоте случаев и долям случаев в квартилях (или децилях) найти соответствующее d.
Аналогично, если при классификации используется трехградационное правило («объект является случаем», «отказ от классификации», «объект является не случаем»), известны частоты принятия каждого из решений и соответствующие частоты ошибочных заключений, то опять, зная общую частоту случаев в тех же предположениях о распределениях
для случаев и не случаев, можно оценить d. Верны и обратные утверждения для известных d и частоты случаев: 1) для заданных частот каждого из трех решений можно рассчитать соответствующие вероятности ошибок или 2) для заданных вероятностей ошибок найти частоты соответствующих решений.
Рис. 1.4. Прямые «чувствительность — специфичность» для различных значений d (модель Фишера) на двойной нормальной бумаге
Таким образом, при известной доле случаев и дополнительных предположениях о распределении
величина d является очень удобной характеристикой разделения, позволяющей придать результатам классификации самую разнообразную форму: от графиков «чувствительность — специфичность» до доли случаев в квартилях риска и доли ошибочных заключений при заданном числе отказов от решения.
Желательна определенная стандартизация представления результатов классификации. Величина d, определенная графически с помощью двойной нормальной бумаги, может служить универсальным эмпирическим параметром, характеризующим разделимость распределений.