4.4. ОЦЕНКА МЕТОДОМ БЛИЖАЙШИХ СОСЕДЕЙ
Одна из проблем, с которой сталкиваются при использовании метода парзеновского окна, заключается в выборе последовательности объемов ячеек Например, если мы берем то результаты для любого конечного будут очень чувствительны к выбору начального объема . Если слишком мал, большинство объемов будут пустыми и оценка будет довольно ошибочной. С другой стороны, если слишком велик, то из-за усреднения по объему ячейки могут быть потеряны важные пространственные отклонения от Кроме того, вполне может случиться, что объем ячейки, уместный для одного значения х, может совершенно не годиться для других случаев.
Один из возможных способов решения этой проблемы — сделать объем ячейки функцией данных, а не количества выборок. Например, чтобы оценить на основании выборок, можно центрировать ячейку вокруг х и позволить ей расти до тех пор, пока она не вместит выборок, где есть некая определенная функция от n. Эти выборки будут ближайшими соседями х. Если плотность распределения вблизи х высокая, то ячейка будет относительно небольшой, что приводит к хорошему разрешению. Если плотность распределения невысокая, то ячейка возрастает, но рост приостанавливается вскоре после ее вступления в области более высокой плотности
(см. скан)
Рис. 4.3. Оценки двух плотностей распределения, полученные методом ближайших соседей.
распределения. В любом случае, если мы берем
мы хотим, чтобы стремилось к бесконечности при стремлении к бесконечности, так как это гарантирует, что будет хорошей оценкой вероятности попадания точки в ячейку объема . Однако мы хотим также, чтобы росло достаточно медленно для того, чтобы размер ячейки, необходимый для вмещения выборок, сжался до нуля. Таким образом, из формулы (5) видно, что отношение должно стремиться к нулю. Хотя мы не приводим доказательств, можно показать, что условия являются необходимыми и достаточными для сходимости по вероятности во всех точках, где плотность непрерывна. Если взять и допустить, что является хорошей аппроксимацией то из соотношения (5) следует, что . Таким образом, опять имеет вид , но начальный объем определяется характером данных, а не каким-либо нашим произвольным выбором.
Полезно сравнить этот метод с методом парзеновского окна на тех же данных, что были использованы в предыдущих примерах. С оценка становится
Ясно, что это плохая оценка для поскольку ее интеграл расходится. Как показано на рис. 4.3, оценка становится значительно лучше по мере увеличения несмотря на то, что интеграл оценки всегда остается бесконечным. Этот неприятный факт компенсируется тем, что никогда не сведется к нулю просто потому, что в некоторую произвольную ячейку или окно не попадают никакие выборки. Хотя эта компенсация может показаться скудной, в пространствах более высокой размерности она приобретает большую ценность.
Как и в методе парзеновского окна, мы можем получить семейство оценок, принимая и выбирая различные значения для Однако при отсутствии какой-либо дополнительной информации любой выбор одинаково хорош, и мы можем быть уверены лишь в том, что результаты будут асимптотически правильными.