4.2. ОЦЕНКА ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ
Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность
P попадания вектора х в область
задается выражением
Таким образом, Р есть сглаженный, или усредненный, вариант плотности распределения
и можно оценить это сглаженное значение
посредством оценки вероятности Р. Предположим, что
выборок
берутся независимо друг от друга в соответствии с вероятностным законом
Очевидно, что вероятность попадания k из
выборок в
задается биномиальным законом
и ожидаемой величиной k будет
Более того, это биномиальное распределение для k имеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношение
будет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, что
непрерывна и область S? настолько мала, что
в ее пределах меняется незначительно, то можем написать
где х — это точка внутри
и V — объем
. Объединяя уравнения (1) — (3), получаем следующую очевидную оценку для
:
Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем V и делаем все больше и больше выборок, отношение
сойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величины
Если мы хотим получить
а не усредненный ее вариант, необходимо устремить V к нулю. Однако если зафиксировать количество
выборок и позволить V стремиться к нулю, то область в конечном
счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценка
будет бесполезной.
С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему V становиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношения
и определенное усреднение плотности распределения
С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей
содержащих х. Первая область будет соответствовать одной выборке, вторая — двум и т. д. Пусть
будет объемом
количеством выборок, попадающих в
оценкой
Если
должна сойтись к
то, по-видимому, нужны три условия:
Первое условие обеспечивает сходимость пространственно усредненного
при однородном сокращении областей и при непрерывности
в х. Второе условие, имеющее смысл только при
обеспечивает сходимость (по вероятности) отношения частот к вероятности Р.
Совершенно ясно, что третье условие необходимо, если
заданная соотношением (5), вообщедолжна сойтись. Это условие говорит также о том, что, хотя в конечном счете в небольшую область
попадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок.
Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема
как некоторой функции от
, такой, чтобы
Затем следует показать, что случайные величины
ведут себя правильно или, имея в виду существо дела, что
сходится к
. В этом заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методе
определяется как некоторая функция