Глава 6. ОЦЕНИВАНИЕ ПЛОТНОСТИ ВЕРОЯТНОСТИ
До сих пор мы рассматривали задачу оценивания параметров. Так, например, если можно предположить, что плотность вероятности определенным образом зависит от параметров, то можно построить классификатор, используя оценки этих параметров.
К сожалению, вид плотности вероятности часто заранее неизвестен, и для того чтобы применить критерий отношения правдоподобия, мы должны как-то оценить плотность вероятдостц, не зная ее структуру. В этом случае говорят о непараметрическом оценивании, в то время как прежний подход называют параметрическим оцениванием. Поскольку число параметров при параметрическом оценивании обычно гораздо меньше, чем число объектов в выборке, непараметрические методы оценивания более сложны, чем параметрические.
Непараметрическое оценивание плотности вероятности означает, по существу, оценивание функции нескольких переменных. Соответствующие методы могут использоваться даже тогда, когда полностью отсутствует априорная информация о плотности вероятности. Однако в тех случаях, когда такая информация имеется, рекомендуется с самого начала приписать оцениваемой плотности вероятности подходящий вид. Например, если каким-то образом установлено, что данные сгруппированы около нескольких мод, то можно постулировать, что плотность вероятности представляет собой взвешенную сумму нормальных плотностей вероятности.
Таким образом, непараметрические методы, представленные в этой главе, лучше работают в тех случаях, когда имеется мало информации о плотности вероятности.
§ 6.1. Оценка Парзена
6.1.1. Класс оценок плотности вероятности.
Для простоты рассмотрим сначала оценивание одномерной плотности вероятности [Парзен, 1962]. Многомерный случай можно рассмотреть аналогичным образом, и это будет сделано ниже.
Пусть
независимые и одинаково распределенные наблюдения некоторой случайной величины. Оценку функции распределения вероятностей легко получить следующим образом:
Выражение
является дискретной случайной величиной, имеющей биномиальное распределение
где
- истинная функция распределения вероятностей случайной величины х. Как было показано в (5.121), выражение (6.1) является оценкой максимального правдоподобия функции распределения вероятностей
Математическое ожидание и дисперсия оценки
определяются следующим образом:
Следовательно,
является несмещенной оценкой.
Оценка плотности вероятности не может быть получена столь же легко. Поскольку плотность вероятности определяется обычно как производная от функции распределевия вероятностей, то ее оценку можно записать следующим образом:
где
— некоторое положительное число. Неясно, одпако, каким именно должно быть это число в каждом конкретном случае. Очевидно, что число
должно быть функцией числа наблюдепий, причем
должно стремиться к
, когда Устремится к
Но как быстро функция
должна стремиться к
? Для того чтобы ответить на этот вопрос, необходимо исследовать статистические свойства оценки (6.5).
Равенство (6.5) можно переписать следующим образом: