Главная > Справочник по прикладной статистике. Том 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.7. ПРИБЛИЖЕННЫЕ ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ ПАРАМЕТРОВ ДИСКРЕТНЫХ РАСПРЕДЕЛЕНИЙ

Теперь перейдем к примерам, в которых не только отсутствует опорная переменная, но есть и еще одна дополнительная сложность — распределение дискретно. Рекомендации по поводу того, как поступать в подобных условиях, содержатся в [Blyth and Hutchinson (1960); Clopper and Pearson (1934); Crow (1956); Eudey (1949); Pearson (1950); Stevens (1950)].

Мы ограничимся рассмотрением биномиального и пуассоновского распределений. Есть два различных подхода, связанных с аппроксимацией. В первом случае исходное дискретное распределение приближенно заменяется непрерывным, во втором приближенная доверительная область строится на основе дискретного распределения.

Простейшая (но не всегда самая точная) аппроксимация — нормальная. Она удобна еще и потому, что для нормального распределения доверительные интервалы найти легко. Этот подход обсуждается ниже применительно как к биномиальному, так и к пуассоновскому распределениям [см. примеры 4.7.1, 4.7.2].

Более сложное семейство непрерывных распределений можно построить, считая, что наблюдаемая дискретная случайная величина представляет собой значения некоторой непрерывной случайной величины, записанные с ограниченной точностью. Аппроксимирующая случайная величина поэтому может быть представлена в виде

где — исходная дискретная (целочисленная) случайная величина, — не зависящая от нее непрерывная величина со значениями на отрезке . Наделить определенным распределением (например,

равномерным) значит указать распределение аппроксимирующего (зависящее, конечно, от параметра распределения Если, например, имеет биномиальное распределение с параметрами и — равномерное распределение на , то наблюдаемое значение с 5 десятичными знаками можно получить, взяв реализацию величины и добавив к число где - «случайные цифры» [см., например, RAND Corporation (1955) - F). Метод, основанный на этой идее, был развит в [Tocher (1950)].

Другой вид приближения связан с тем, что мы работаем с исходным дискретным распределением и получаем доверительные интервалы, не связанные с какими-либо аппроксимирующими распределениями, о которых, однако, мы можем сказать лишь то, что их уровень доверия не ниже заданного. Нельзя, например, получить 95%-ный доверительный интервал, можно лишь указать интервал, уровень доверия которого не меньше 95%. Этот подход развит в примерах 4.7.3 и 4.7.4.

Пример 4.7.1. Доверительные интервалы для параметра распределения; нормальное приблшкение. Хорошее непрерывное приближение биномиального распределения дает нормальное распределение; если — случайная величина, распределенная величина, распределенная нормально, то имеет место приближенное равенство

если

и

[см. II, раздел 11.4.7], т. е. распределена приблизительно нормально с параметрами . Может оказаться более удобным работать с величиной которая является естественной оценкой ; эта величина приближенно

а) Грубое приближение. Для распределения величины -ный доверительный интервал для основанный на наблюдаемом значении х, есть При самой грубой (но часто применяемой) процедуре в качестве х берут наблюдаемое значение величины — наблюдаемое отношение числа успехов к общему числу испытаний), а в качестве а — величину Тогда приближенным выражением для 95%-ного доверительного интервала будет

Это без существенной потери точности может быть заменено на

б) Более точное приближение. Если X — случайная величина , то с вероятностью

где

(Ф, как обычно, — функция нормального распределения [см. приложение 3.4]). Итак, с вероятностью

Поскольку приближенно , причем , можно утверждать с вероятностью примерно 95%, что

и

В этом приближении -ный доверительный интервал для будет состоять из значений , удовлетворяющих неравенствам

и

т. е. интервал, граничные точки которого представляет собой корни квадратного уравнения

Выражая это уравнение через — наблюдаемая доля успехов), получаем

Корни этого уравнения есть

Для 95%-ного доверительного интервала , откуда 95%-ные доверительные пределы есть (приближенно)

Например, если то в результате этой процедуры получаем уравнение (4.7.4) в виде

Отсюда доверительный интервал есть (0,216, 0,617). Заменив в вычислениях 1,96 на 2, получим практически тот же ответ. Соответствующий интервал, найденный с помощью грубого приближения (4.7.2), будет (0,181, 0,619).

Пример 4.7.2. Доверительный интервал для параметра распределения Пуассона (нормальное приближение). Мы предполагаем, что величина X имеет распределение Пуассона с параметром имеется выборка ее значений среднее выборки равно х. Тогда, если не очень мало, то исходное распределение X приближается нормальным распределением, и выборочное распределение х приблизительно . В соответствии с рассуждениями в примере 4.7.1 приближенное выражение -ного доверительного интервала для можно найти из предложения (выполняющегося с вероятностью 0,95):

где так что доверительные пределы есть корни уравнения

или

Если то .

В качестве примера рассмотрим данные табл. 3.2.3. В течение интервалов времени, каждый по 7,5 сек, общее число радиоактивных частиц, испущенных неким источником, было . Среднее число частиц за промежуток времени, таким образом, есть Это оценка наибольшего правдоподобия для по этой выборке. Ее точность выражается через 95%-ный доверительный интервал, полученный из квадратного уравнения (4.7.7):

соответственно

Эта оценка, как видим, имеет хорошую точность, что объясняется большим объемом использованной выборки.

Теперь перейдем к более глубокому изучению проблем, затронутых в примерах 4.7.1 и 4.7.2, принимая во внимание дискретность данных.

Пример 4.7.3. Доверительные интервалы для параметра распределения с учетом его дискретности. Пусть — случайная величина, отвечающая испытанию Бернулли с вероятностью успеха , так что ее распределение имеет вид

В выборке объема (т. е. в серии из испытаний) общее число успехов , есть достаточная статистика. Мы возьмем ее в качестве рабочей статистики. Соответствующая (несмещенная) оценка для есть Статистика является реализацией распределения для которого п. р. в. есть

Будем по возможности следовать тому, как мы поступали в примере 4.6.1 при непрерывном распределении.

Статистика представляет собой реализацию биномиального распределения Сначала необходимо построить, с наибольшей возможной точностью, -ный (скажем, 95%-ный) вероятностный интервал для при каждом значении Поскольку распределение дискретно, симметричные вероятностные интервалы определены неоднозначно [см. раздел 4.1.3, б)]. Вместо них мы будем использовать квазицентральные вероятностные интервалы уровня не менее 95%, т. е. такие, что

и

где — наибольшее значение для которого или, что эквивалентно, для которого Аналогично

где — наименьшее значение для которого или [см. пример 4.1.4].

Теперь мы построим графики как функций [см. рис.

4.7.1] и постараемся их истолковать с точки зрения доверительной полосы. Чтобы показать, как можно построить функции рассмотрим ситуацию, когда Из таблиц биномиального распределения [см. приложение 1] получим следующие значения:

Рис. 4.7.1. (см. скан) Графики функций таких, что

Отсюда видно, что

(стрелки в таблице указывают значения вероятности, максимально близкие к 0,025, но не превышающие 0,025).

Действуя таким образом, нетрудно построить таблицы значений такая таблица приведена ниже для

(см. скан)

Из этой, довольно грубой, таблицы нельзя извлечь точной информации о том, где происходят скачки однако такую информацию можно извлечь из более подробных таблиц биномиального распределения и их интерполяции.

Мы следовали, насколько это было возможно, построению 95%-ных вероятностных интервалов в примере 4.6.1 и соответствующих кривых изображенных на рис. 4.6.1. Таким образом, мы пришли к разрывным ступенчатым функциям, приведенным на рис. 4.7.1. Теперь мы покажем по аналогии с примером 4.6.1, что зона между этими кривыми есть доверительная полоса. К сожалению, эти рассуждения не могут быть просто повторены: при непрерывном распределении в примере 4.6.1 использовалась обратимость функции а наши ступенчатые функции не имеют обратных. Это, однако, только малая часть возникающих трудностей. Как видно из рис. 4.7.2, при любом значении утверждение

(заметьте, неравенства строгие) равносильно предложению

где (равное, скажем, ) — абсцисса правого конца горизонтального отрезка («ступеньки») , чья высота равна т. е.

Рис. 4.7.2. Из рисунка видно, что

Аналогично, в (равное, скажем, ) есть абсцисса левого конца ступеньки высоты т. е. той, для которой

(Необходимо отметить, что каждое из возможных значений совпадает с высотой какой-нибудь ступеньки, так как и то, и другое — целые числа Значения (6) и соответствующие показаны на рис. 4.7.1.

Поскольку предложения (4.7.10) и (4.7.11) эквивалентны при любых значениях (реализации то

где случайные величины, соответствующие в Вероятность в левой части не меньше 0,95 по построению, откуда

Итак, если является реализацией то интервал

представляет собой квазицентральный доверительный интервал уровня не менее 95% (и ближайшего к 95%).

Существуют таблицы значений для всех значений и объемов выборки. Один из вариантов такой таблицы приведен в приложении 10. Таблица составлена для значений , где — наблюдаемое значение . Из нее видно, например, что если то доверительный интервал есть (0,19, 0,64). (-ный доверительный интервал для тех же данных, вычисленный с помощью нормального приближения [см. пример 4.7.1], равен (0,18, 0,62) при использовании «грубого» метода и (0,22, 0,62) — при лучшем приближении.)

Пример 4.7.4. Доверительные интервалы для параметра распределения Пуассона. Чтобы построить доверительный интервал для параметра распределения Пуассона, можно применить метод, полностью аналогичный использованному в примере 4.7.3.

Если число событий за данное время (или в данной области, объеме и т. д.) имеет распределение Пуассона с параметром в и его наблюденное значение равно с, то доверительные интервалы уровня не менее 100/7% могут быть найдены из таблиц 11 приложения (в этих таблицах .

1
Оглавление
email@scask.ru