§ 5. Задача восстановления плотности распределения вероятностей
Задачи, которые решают теория вероятностей и математическая статистика соотносятся между собой как прямые и обратные.
Задачи теории вероятностей можно было бы описать следующей схемой: известен состав генеральной совокупности и закон распределения вероятностей. Требуется для заданной схемы эксперимента оценить вероятность исходов эксперимента.
Математическая статистика решает обратные задачи: по результату эксперимента определяет свойства закона распределения. Исчерпывающей характеристикой закона распределения является плотность распределения вероятностей.
Таким образом, задача восстановления плотности распределения вероятностей по выборке является центральной проблемой математической статистики. В этом параграфе мы убедимся, что задача восстановления плотности является, вообще говоря, некорректно поставленной.
Пусть задана выборка и достаточно широко определен класс функций, которому принадлежит плотность распределения вероятностей (например, известно лишь, что принадлежит непрерывным функциям). Требуется восстановить плотность распределения вероятностей.
Рассмотрим сначала одномерный случай. Согласно определению плотность распределения вероятностей связана с функцией распределения вероятностей интегральным соотношением
Или, что то же самое, соотношением
где обозначено
Для непрерывных плотностей существует единственное решение уравнения (2.24).
Определим теперь эмпирическую функцию распределения вероятностей: если величина превосходит элементов выборки
Центральная теорема математической статистики — теорема Гливенко — Кантелли — утверждает, что с ростом объема выборки эмпирическая функция распределения равномерно приближается к истинной.
Теорема (Гливенко-Кантелли). Пусть функция распределения случайной величины эмпирическая функция распределения. Тогда при справедливо
Мы не будем приводить здесь доказательство этой теоремы. В главе VI будет доказана теорема о равномерной сходимости частот появления событий к их вероятностям, из которой теорема Гливенко — Кантелли следует как частный случай.
Вернемся к интегральному уравнению (2.24), решение которого определяет плотность распределения вероятностей. Будем искать приближенное решение этого уравнения в ситуации, когда вместо функции распределения случайной величины известна эмпирическая функция найденная по конечной выборке. В главе IX, используя оценку скорости равномерной сходимости к мы покажем, что существует такая процедура получения приближенных решений уравнения (2.24), при которой с ростом последовательность решений стремится к искомой плотности вероятностей.
Таким образом, существует принципиальная возможность восстанавливать непрерывную плотность распределения вероятностей. Однако восстановление плотности связано с решением некорректно поставленной задачи численного дифференцирования (2.24) в условиях, когда правая часть уравнения задана неточно.
Правда, при восстановлении плотности распределения вероятностей заранее известно, что решением интегрального уравнения (2.24) окажется не любая непрерывная функция, а функция принимающая лишь
неотрицательные значения и удовлетворяющая условию
Однако этой априорной информации недостаточно, чтобы задача решения интегрального уравнения (2.24) перестала быть некорректно поставленной.
Подобно одномерному случаю может быть поставлена задача восстановления многомерной плотности распределения вероятностей. Для этого также выпишем интегральное уравнение, связывающее многомерную плотность с многомерной функцией распределения вероятностей:
и определим многомерную эмпирическую функцию распределения
где число элементов выборки попадающих в область
Оказывается, что справедлив многомерный аналог теоремы Гливенко — Кантелли: с ростом объема выборки эмпирическая функция распределения равномерно сходится к функции распределения вероятностей. Справедливость обобщенной теоремы Гливенко — Кантелли также будет следовать из общей теории равномерной сходимости частот к вероятностям, рассмотренной в главе VI.
С помощью этой теоремы аналогично одномерному случаю устанавливается принципиальная возможность восстановления многомерных плотностей по эмпирическим данным.
Таким образом, задача восстановления плотности распределения вероятностей в классе непрерывных функций сводится к некорректной задаче численного дифференцирования функции распределения вероятностей.
Заметим, что приведенная здесь постановка задачи численного дифференцирования отличается от задачи численного дифференцирования, рассмотренной в примере 3
главы I. В главе I рассматривались некорректные задачи измерения, т. е. такие постановки некорректных задач, у которых ошибки являлись результатом измерения — значения правой части интегрального уравнения (2.24) определялись в I точках статистически независимо. В нашем же случае разность между точным значением правой части и функцией, полученной в результате измерения, является случайной функцией.
Таким образом, задача восстановления плотности распределения вероятностей является задачей более общей, чем интерпретация результатов косвенных экспериментов, И, следовательно, решать задачу минимизации среднего риска по эмпирическим данным путем восстановления плотности распределения вероятностей, вообще говоря, нерационально. (Наоборот, в главе IX мы рассмотрим задачу восстановления плотности как проблему минимизации среднего риска по эмпирическим данным).
Однако возможны вырожденные случаи, когда имеется настолько большая априорная информация об искомой плотности распределения вероятностей, что задача перестает быть некорректно поставленной.
Так, задача восстановления плотности может оказаться корректно поставленной, если плотность известна с точностью до конечного числа параметров (здесь важно, что число параметров конечно и заранее известно).
Методы восстановления плотности распределения вероятностей, заданной с точностью до конечного числа параметров, получили название методов параметрической статистики. Они образуют специальный класс методов восстановления плотности, который существенно отличается от общих методов восстановления плотности распределения вероятностей (иногда их называют методами непараметрической статистики).