4.7. ПРИБЛИЖЕННЫЕ ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ ПАРАМЕТРОВ ДИСКРЕТНЫХ РАСПРЕДЕЛЕНИЙ
Теперь перейдем к примерам, в которых не только отсутствует опорная переменная, но есть и еще одна дополнительная сложность — распределение дискретно. Рекомендации по поводу того, как поступать в подобных условиях, содержатся в [Blyth and Hutchinson (1960); Clopper and Pearson (1934); Crow (1956); Eudey (1949); Pearson (1950); Stevens (1950)].
Мы ограничимся рассмотрением биномиального и пуассоновского распределений. Есть два различных подхода, связанных с аппроксимацией. В первом случае исходное дискретное распределение приближенно заменяется непрерывным, во втором приближенная доверительная область строится на основе дискретного распределения.
Простейшая (но не всегда самая точная) аппроксимация — нормальная. Она удобна еще и потому, что для нормального распределения доверительные интервалы найти легко. Этот подход обсуждается ниже применительно как к биномиальному, так и к пуассоновскому распределениям [см. примеры 4.7.1, 4.7.2].
Более сложное семейство непрерывных распределений можно построить, считая, что наблюдаемая дискретная случайная величина представляет собой значения некоторой непрерывной случайной величины, записанные с ограниченной точностью. Аппроксимирующая случайная величина
поэтому может быть представлена в виде
где
— исходная дискретная (целочисленная) случайная величина,
— не зависящая от нее непрерывная величина со значениями на отрезке
. Наделить
определенным распределением (например,
равномерным) значит указать распределение аппроксимирующего
(зависящее, конечно, от параметра
распределения
Если, например,
имеет биномиальное распределение с параметрами
и
— равномерное распределение на
, то наблюдаемое значение
с 5 десятичными знаками можно получить, взяв реализацию
величины
и добавив к
число где
- «случайные цифры» [см., например, RAND Corporation (1955) - F). Метод, основанный на этой идее, был развит в [Tocher (1950)].
Другой вид приближения связан с тем, что мы работаем с исходным дискретным распределением и получаем доверительные интервалы, не связанные с какими-либо аппроксимирующими распределениями, о которых, однако, мы можем сказать лишь то, что их уровень доверия не ниже заданного. Нельзя, например, получить 95%-ный доверительный интервал, можно лишь указать интервал, уровень доверия которого не меньше 95%. Этот подход развит в примерах 4.7.3 и 4.7.4.
Пример 4.7.1. Доверительные интервалы для параметра
распределения; нормальное приблшкение. Хорошее непрерывное приближение биномиального
распределения дает нормальное распределение; если
— случайная величина, распределенная
величина, распределенная нормально, то имеет место приближенное равенство
если
и
[см. II, раздел 11.4.7], т. е.
распределена приблизительно нормально с параметрами
. Может оказаться более удобным работать с величиной
которая является естественной оценкой
; эта величина приближенно
а) Грубое приближение. Для
распределения величины
-ный доверительный интервал для
основанный на наблюдаемом значении х, есть
При самой грубой (но часто применяемой) процедуре в качестве х берут наблюдаемое значение величины
— наблюдаемое отношение числа успехов к общему числу испытаний), а в качестве а — величину
Тогда приближенным выражением для 95%-ного доверительного интервала будет
Это без существенной потери точности может быть заменено на
б) Более точное приближение. Если X — случайная величина
, то с вероятностью
где
(Ф, как обычно, — функция нормального распределения [см. приложение 3.4]). Итак, с вероятностью
Поскольку
приближенно
, причем
, можно утверждать с вероятностью примерно 95%, что
и
В этом приближении
-ный доверительный интервал для
будет состоять из значений
, удовлетворяющих неравенствам
и
т. е. интервал, граничные точки которого
представляет собой корни квадратного уравнения
Выражая это уравнение через
— наблюдаемая доля успехов), получаем
Корни этого уравнения есть
Для 95%-ного доверительного интервала
, откуда 95%-ные доверительные пределы есть (приближенно)
Например, если
то в результате этой процедуры получаем уравнение (4.7.4) в виде
Отсюда доверительный интервал есть (0,216, 0,617). Заменив в вычислениях 1,96 на 2, получим практически тот же ответ. Соответствующий интервал, найденный с помощью грубого приближения (4.7.2), будет (0,181, 0,619).
Пример 4.7.2. Доверительный интервал для параметра распределения Пуассона (нормальное приближение). Мы предполагаем, что величина X имеет распределение Пуассона с параметром
имеется выборка ее значений
среднее выборки равно х. Тогда, если
не очень мало, то исходное распределение X приближается нормальным
распределением, и выборочное распределение х приблизительно
. В соответствии с рассуждениями в примере 4.7.1 приближенное выражение
-ного доверительного интервала для
можно найти из предложения (выполняющегося с вероятностью 0,95):
где
так что доверительные пределы
есть корни уравнения
или
Если
то
.
В качестве примера рассмотрим данные табл. 3.2.3. В течение
интервалов времени, каждый по 7,5 сек, общее число радиоактивных частиц, испущенных неким источником, было
. Среднее число частиц за промежуток времени, таким образом, есть
Это оценка наибольшего правдоподобия для
по этой выборке. Ее точность выражается через 95%-ный доверительный интервал, полученный из квадратного уравнения (4.7.7):
соответственно
Эта оценка, как видим, имеет хорошую точность, что объясняется большим объемом использованной выборки.
Теперь перейдем к более глубокому изучению проблем, затронутых в примерах 4.7.1 и 4.7.2, принимая во внимание дискретность данных.
Пример 4.7.3. Доверительные интервалы для параметра
распределения
с учетом его дискретности. Пусть
— случайная величина, отвечающая испытанию Бернулли с вероятностью успеха
, так что ее распределение имеет вид
В выборке объема
(т. е. в серии из
испытаний) общее число успехов
, есть достаточная статистика. Мы возьмем ее в качестве рабочей статистики. Соответствующая (несмещенная) оценка для
есть
Статистика
является реализацией
распределения
для которого п. р. в. есть
Будем по возможности следовать тому, как мы поступали в примере 4.6.1 при непрерывном распределении.
Статистика
представляет собой реализацию биномиального распределения
Сначала необходимо построить, с наибольшей возможной точностью,
-ный (скажем, 95%-ный) вероятностный интервал для
при каждом значении
Поскольку распределение
дискретно, симметричные вероятностные интервалы определены неоднозначно [см. раздел 4.1.3, б)]. Вместо них мы будем использовать квазицентральные вероятностные интервалы
уровня не менее 95%, т. е. такие, что
и
где
— наибольшее значение
для которого
или, что эквивалентно, для которого
Аналогично
где
— наименьшее значение
для которого
или
[см. пример 4.1.4].
Теперь мы построим графики
как функций
[см. рис.
4.7.1] и постараемся их истолковать с точки зрения доверительной полосы. Чтобы показать, как можно построить функции
рассмотрим ситуацию, когда
Из таблиц биномиального распределения [см. приложение 1] получим следующие значения:
Рис. 4.7.1. (см. скан) Графики функций
таких, что
Отсюда видно, что
(стрелки в таблице указывают значения вероятности, максимально близкие к 0,025, но не превышающие 0,025).
Действуя таким образом, нетрудно построить таблицы значений
такая таблица приведена ниже для
(см. скан)
Из этой, довольно грубой, таблицы нельзя извлечь точной информации о том, где происходят скачки
однако такую информацию можно извлечь из более подробных таблиц биномиального распределения и их интерполяции.
Мы следовали, насколько это было возможно, построению 95%-ных вероятностных интервалов в примере 4.6.1 и соответствующих кривых
изображенных на рис. 4.6.1. Таким образом, мы пришли к разрывным ступенчатым функциям, приведенным на рис. 4.7.1. Теперь мы покажем по аналогии с примером 4.6.1, что зона между этими кривыми есть доверительная полоса. К сожалению, эти рассуждения не могут быть просто повторены: при непрерывном распределении в примере 4.6.1 использовалась обратимость функции
а наши ступенчатые функции не имеют обратных. Это, однако, только малая часть возникающих трудностей. Как видно из рис. 4.7.2, при любом значении
утверждение
(заметьте, неравенства строгие) равносильно предложению
где
(равное, скажем,
) — абсцисса правого конца горизонтального отрезка («ступеньки»)
, чья высота равна
т. е.
Рис. 4.7.2. Из рисунка видно, что
Аналогично, в
(равное, скажем,
) есть абсцисса левого конца ступеньки высоты
т. е. той, для которой
(Необходимо отметить, что каждое из возможных значений
совпадает с высотой какой-нибудь ступеньки, так как и то, и другое — целые числа
Значения
(6) и
соответствующие
показаны на рис. 4.7.1.
Поскольку предложения (4.7.10) и (4.7.11) эквивалентны при любых значениях
(реализации
то
где
случайные величины, соответствующие в
Вероятность в левой части не меньше 0,95 по построению, откуда
Итак, если
является реализацией
то интервал
представляет собой квазицентральный доверительный интервал уровня не менее 95% (и ближайшего к 95%).
Существуют таблицы значений
для всех значений
и объемов выборки. Один из вариантов такой таблицы приведен в приложении 10. Таблица составлена для значений
, где
— наблюдаемое значение
. Из нее видно, например, что если
то доверительный интервал есть (0,19, 0,64). (
-ный доверительный интервал для тех же данных, вычисленный с помощью нормального приближения [см. пример 4.7.1], равен (0,18, 0,62) при использовании «грубого» метода и (0,22, 0,62) — при лучшем приближении.)
Пример 4.7.4. Доверительные интервалы для параметра распределения Пуассона. Чтобы построить доверительный интервал для параметра распределения Пуассона, можно применить метод, полностью аналогичный использованному в примере 4.7.3.
Если число событий
за данное время (или в данной области, объеме и т. д.) имеет распределение Пуассона с параметром в и его наблюденное значение равно с, то доверительные интервалы уровня не менее 100/7% могут быть найдены из таблиц 11 приложения (в этих таблицах
.