§ 2. Проблема больших выбросов
Нашей целью является построение метода, гарантирующего с заданной вероятностью отыскание функции, доставляющей функционалу
значение, близкое к минимальному, если плотность неизвестна, но дана выборка
Однако решить эту задачу без привлечения априорной информации невозможно. В самом деле, рассмотрим одну из самых простых задач восстановления зависимостей по эмпирическим данным. Требуется минимизировать функционал
если плотность неизвестна, но дана случайная независимая выборка
Минимум функционала (2.8) достигается при
Таким образом, проблема состоит в том, чтобы для неизвестной плотности найти способ, гарантирующий с заданной вероятностью достаточно точную оценку среднего по выборке фиксированного объема
Оказывается, что, не имея априорных сведений о плотности получить гарантированную оценку среднего нельзя.
Действительно, пусть случайная величина принимает Два значения — нуль и причем значение нуль она принимает с вероятностью и К — с вероятностью . Пусть теперь — настолько малая величина, что с большой вероятностью случайная независимая выборка состоит из одних
нулей, и, следовательно, величина эмпирического среднего
равна нулю. (Вероятность этого события С другой стороны, математическое ожидание случайной величины равно
и в зависимости от величины К может принимать любые значения, в том числе и достаточно большие (например, когда
Итак, в нашем примере, несмотря на то, что почти любая величина эмпирического среднего, образованная по выборке длины равнялась нулю, никаких надежных заключений о величине математического ожидания сделать было нельзя.
Это произошло потому, что даже при малом 8 произведение могло быть большой величиной. Иначе говоря, распределение случайной величины было таким, что на «малой мере» оказалась сосредоточена большая величина К. О таких ситуациях в статистике говорят, что случайная величина допускает «большой выброс».
В каких же случаях по величине эмпирического среднего можно надежно судить о математическом ожидании?
Ответ на этот вопрос следует из неравенства Чебышева. Согласно этому неравенству вероятность уклонения случайной величины от своего математического ожидания может быть оценена так:
где — дисперсия случайной величины
Рассмотрим теперь случайную величину
где случайная независимая выборка длины Заметим, что
Неравенство Чебышева для этой величины имеет вид
Запишем неравенство (2.10) в иной форме. Для этого приравняем правую часть неравенства (2.10) величине
и разрешим равенство относительно
Теперь утверждение, что с вероятностью имеют место неравенства
полностью эквивалентно утверждению (2.10).
Если бы быаа известна дисперсия случайной величины то неравенства (2.11) определяли бы величину доверительного интервала для математического ожидания и, тем самым, гарантированную оценку среднего, т. е. такую оценку, которая выполняется с заданной вероятностью. Поэтому, для того чтобы получить гарантированную оценку среднего по величине эмпирического среднего, достаточно знать либо абсолютную оценку дисперсии
либо при условии, что искомое среднее есть величина положительная, оценку относительной величины дисперсии
Действительно, из (2.11) и (2.12) следует, что знание абсолютной оценки дисперсии немедленно приводит к построению гарантированной оценки вида
А из (2.11) и (2.13) следует, что знание оценки относительной величины дисперсии приводит к построению
гарантированной оценки вида
Пусть теперь случайная величина неотрицательна (именно этот случай и рассматривается в книге, ведь Тогда заведомо и, следовательно, можно воспользоваться информацией об оценке относительной дисперсии.
При получении доверительных интервалов (2.14) и (2.15) мы использовали неравенство Чебышева. Это неравенство справедливо для любых распределений и потому для некоторых типов распределений может оказаться грубым. В частности, если распределение таково, что величина положительна и не превосходит (в этом случае то, как будет показано в главе VII, имеет место более сильная, чем в неравенстве Чебышева, оценка
С помощью (2.16) можно получить более точную гарантированную оценку величины математического ожидания.
Чтобы иметь возможность использовать неравенство (2.16), будем требовать вместо априорного знания абсолютной оценки дисперсии положительной случайной величины знания абсолютной оценки самой случайной величины (конечно, в том случае, когда эта оценка существует).
Итак, для того чтобы иметь возможность оценить среднее по величине эмпирического среднего, достаточно знать либо абсолютную оценку случайной величины либо оценку относительной величины дисперсии случайной величины
В этой книге мы будем изучать распределение не одной случайной величины а целого множества случайных величин
зависящих от параметра а. Для получения равномерных гарантированных оценок средних этих величин нам понадобятся равномерные для этих величин характеристики больших выбросов.
Возможный выброс на множестве будем характеризовать абсолютной оценкой величины потерь
или оценкой относительной величины дисперсии
Ниже будет показано, что если известна хотя бы одна из характеристик выброса (абсолютная или относительная оценка), то по случайной выборке фиксированного объема может быть дана гарантированная оценка величины среднего риска, а при некоторых дополнительных ограничениях решена задача минимизации среднего риска.