4.2. ОЦЕНКА ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ
Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность
P попадания вектора х в область задается выражением
Таким образом, Р есть сглаженный, или усредненный, вариант плотности распределения и можно оценить это сглаженное значение посредством оценки вероятности Р. Предположим, что выборок берутся независимо друг от друга в соответствии с вероятностным законом Очевидно, что вероятность попадания k из выборок в задается биномиальным законом
и ожидаемой величиной k будет
Более того, это биномиальное распределение для k имеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношение будет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, что непрерывна и область S? настолько мала, что в ее пределах меняется незначительно, то можем написать
где х — это точка внутри и V — объем . Объединяя уравнения (1) — (3), получаем следующую очевидную оценку для :
Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем V и делаем все больше и больше выборок, отношение сойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величины
Если мы хотим получить а не усредненный ее вариант, необходимо устремить V к нулю. Однако если зафиксировать количество выборок и позволить V стремиться к нулю, то область в конечном
счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценка будет бесполезной.
С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему V становиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношения и определенное усреднение плотности распределения
С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей содержащих х. Первая область будет соответствовать одной выборке, вторая — двум и т. д. Пусть будет объемом количеством выборок, попадающих в оценкой
Если должна сойтись к то, по-видимому, нужны три условия:
Первое условие обеспечивает сходимость пространственно усредненного при однородном сокращении областей и при непрерывности в х. Второе условие, имеющее смысл только при обеспечивает сходимость (по вероятности) отношения частот к вероятности Р.
Совершенно ясно, что третье условие необходимо, если заданная соотношением (5), вообщедолжна сойтись. Это условие говорит также о том, что, хотя в конечном счете в небольшую область попадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок.
Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема как некоторой функции от , такой, чтобы Затем следует показать, что случайные величины ведут себя правильно или, имея в виду существо дела, что сходится к . В этом заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методе определяется как некоторая функция