Главная > Справочник по прикладной статистике. Том 1
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

3.2.2. ЧАСТОТНЫЕ ТАБЛИЦЫ, ГИСТОГРАММЫ И ЭМПИРИЧЕСКАЯ ф.р.

а) Дискретные данные. Частотная таблица — основной метод представления информации, содержащейся в выборке. Для дискретной одномерной случайной переменной [см. II, гл. определенной, скажем, на неотрицательных целых числах, — это просто таблица, указывающая, сколько раз число встречается в выборке или (что эквивалентно) указывающая отношение этого числа к объему выборки Эти числа называют соответственно частотой наблюдения и относительной частотой наблюдения Накопленная частота — число наблюдений х, для которых эти величины, деленные на объем выборки называются относительными накопленными частотами

Пример 3.2.1. Данные Резерфорда и Гейгера о числе а-частиц, испущенных радиоактивным источником за 7,5 с, содержатся в столбцах 1 и 3 табл. 3.2.1.

Таблица 3.2.1. (см. скан) Частотная таблица по данным Резерфорда и Гейгера

Основные сведения, а именно частоты, приведены в столбце 3. Общая сумма по этой колонке равна объему выборки . В таблицу, правда, не входят отдельно частоты Вместо этого приведена «группированная частота» выделенная как 2 в столбце частот 3. Это принятая практика в частотных таблицах — объединять таким образом малые частоты. В этой таблице только одна сгруппированная частота, но вообще их может быть и несколько.

Выборочный аналог п.р.в. Столбец 4 табл. 3.2.1 содержит величины относительных частот, выраженные в процентах от общего (Отмеченное звездочкой число 0,08 — это группированная частота выраженная в процентах от общего целого.) Таблица относительных частот — это выборочный аналог таблицы вероятностей [см. II, раздел 4.3.1] рассматриваемой случайной переменной R.

Накопленные частоты в столбце 5 являются частичными суммами столбца частот. Из-за группирования 12—14 пропадают значения но остается. Наконец, в последнем столбце приведены значения с в процентах от объема выборки. Естественно, последнее число здесь равно 100, поскольку 100% наблюдений удовлетворяют условию Этот столбец дает выборочный аналог ф.р. (функции вероятностей) [см. II, раздел 4.3.2] изучаемой случайной величины. (Столбец 1 нужен только ради нумерации строк.)

В рассмотренном примере мы имеем дело с 13 частотами, скажем где

и

Выборочное распределение [см. раздел 2.2] этого вектора с 13 компонентами — полиномиальное [см. II, раздел 6.4.2]. Следовательно, математическое ожидание [см. раздел 2.3.1] частоты равно , где — объем выборки, а — вероятность того, что наблюдение попадает в ячейку . Аналогично математическое ожидание относительной частоты равно . В нашем примере, где — число частиц, испущенных в случайно выбранный интервал времени продолжительностью , мы получаем:

В настоящем случае разумно предположить, что имеет пуассоновское распределение [см. И, раздел 5.4]. Если бы частотная таблица не содержала никаких группированных частот, подходящей оценкой пуассоновского параметра X было бы значение среднего выборки. Объединение в принципе усложняет задачу оценивания, но сгруппированные частоты столь малы по отношению к объему выборки (2 и 2608), что интуитивно ясно — влияние группировки частот на величину оценки будет незначительным. Подсчеты с применением метода максимального правдоподобия подробно описываются в примере 6.7.1.

Для наших целей с достаточной степенью точности мы вычисляем оценку, которая должна быть средним значением выборки, так, как будто каждое группированное наблюдение попадает в среднюю клетку, т. е. Оценка в этом случае равна 3,871.

Ниже сопоставляются исходные частоты и их ожидаемые значения в случае выбранного модельного (пуассоновского) распределения. Это показано в табл. 3.2.2, где ожидаемые частоты округлены до ближайшего целого:

причем

Видимое согласие между частотами и их ожидаемыми значениями служит хорошим подтверждением правильности выбора пуассоновского распределения. Такое же согласие обнаружилось бы и между относительными частотами и их ожидаемыми значениями это подтверждает, что относительные частоты служат естественным аналогом п.р.в. (Объективный критерий близости для наблюдаемого согласия рассмотрен в гл. 7.)

б) Столбцовые диаграммы и гистограммы для дискретных данных. Рассмотрим частотную таблицу, полученную на основе табл. 3.2.1 вычеркиванием строки, соответствующей ячейке 12. (Эту частотную таблицу мы получили бы, если бы не было зарегистрировано ни одного наблюдения, превышающего 11.) Такую частотную таблицу без группированных частот можно представить графически в виде столбцовой диаграммы, т. е. последовательностью вертикальных отрезков (ординат) длины с абсциссами Она представлена на рис. 3.2.1.

Для наглядности столбцы можно расширить до тех пор, пока они не станут касаться друг друга. Теперь частоту изображает прямоугольник высоты центр его основания — абсцисса левая и правая границы основания — [см. рис. 3.2.2]. Высота столбца численно равна площади прямоугольника: шкала высот превращается в шкалу площадей, так что полная частота события представляется суммой площадей прямоугольников с центрами в . Граф дает пример гистограммы для дискретных данных с равномерной группировкой.

Теперь предположим, что некоторые отдельные частоты объединены в группы (переход от табл.

3.2.3 к табл. 3.2.4). Здесь объединены ячейки, соответствующие равно как , а также r = 8, 9, и 11. Дополнительно включены данные для или 14, которые уже были сгруппированы в исходной частотной табл. 3.2.1. Для этой новой частотной таблицы с неравномерной группировкой графическая интерпретация сохраняет, насколько это возможно, основные черты рис. 3.2.2. Графическое представление объединенных

Рис. 3.2.1. (см. скан) Столбцовая диаграмма для табл. 3.2.3

Рис. 3.2.2. (см. скан) Столбцовая диаграмма для табл. 3.2.3, столбцы которой расширены

частот 57 и 203, соответствующих должно наглядно изображать слияние отдельных прямоугольников для в объединенный прямоугольник, высота которого равна среднему из отдельных высот. Кроме возможностей визуальной интерпретации, этот метод сохраняет удобную шкалу площадей рис. 3.2.3. Этот пример поясняет, как принятое ранее соглашение о том, как изображать гистограмму группированных дискретных данных, действует в случае неравномерной группировки. Гистограмма частотной табл. 3.2.4 показана на рис. 3.2.3.

Таблица 3.2.2. (см. скан) Сравнение частот с их ожидаемыми значениями [см. пример 3.2.1]

Рис. 3.2.3. (см. скан) Гистограмма для табл. 3.2.4

Таблица 3.2.3 (см. скан)

Таблица 3.2.4 (см. скан)

в) Непрерывные данные. Аналогичным образом, с чуть большей затратой труда, можно представить и непрерывные данные, т. е. наблюдения над непрерывной случайной величиной [см. II, раздел Чтобы образовать частотную таблицу по выборке из наблюдений над X, надо разделить отрезок значений выборки на ячеек, или интервалов разделенных границами

Первая, вторая ячейки есть интервалы Затем определяются частоты, т. е. количества наблюдений, попавших в различные ячейки:

Таблицы иногда строят по другому правилу: частота равна количеству наблюдений, для которых плюс половина числа наблюдений, которые (при принятой точности измерений) совпадали с или Примером может служить табл. 3.2.5.

Накопленные частоты определяются так:

Количество ячеек к и значения их границ в какой-то мере произвольны. В таблицах оно может быть результатом компромисса между требованиями экономии и точности. Часто размеры всех (или почти всех) интервалов группировки одинаковы, как в таблице, где рост измерен в дюймах, округленных до ближайшего целого числа. Неравные интервалы группировки тоже, впрочем, иногда оправданы. Например, в таблицах смертности от коклюша, где указан возраст умерших после достижения, скажем, 15 лет, многое зависит от возраста. Поэтому для возраста, превышающего 15 лет, оправданы широкие интервалы, например 5—10 лет. Напротив, высокая и заметно зависящая от возраста смертность малышей требует более узких интервалов: возможно, от 6 месяцев до 1 года.

Таблица 3.2.5. (см. скан) Частотная таблица, показывающая рост мужчин, интервалы группировки равные. Полуцелые частоты возникают, когда измерение попадает на границу интервала; по соглашению это увеличивает частоту интервала на 0,5 (воспроизведено с разрешения Macmillan Publishing Company. Statistical Methods for Research Workers. R. A. Fisher.

Примером частотной таблицы с неодинаковой шириной интервалов может служить табл. 3.2.6, полученная объединением ячеек табл.

3.2.4 (совместное выборочное распределение частот обсуждается в разделе 2.9.4).

Таблица 3.2.6. (см. скан) Таблица группированных частот с изменяющейся шириной интервалов. Данные взяты из табл. 3.2.5 и соответствуют разным способам выбора границ интервалов

Рис. 3.2.4. Гистограммы для таблицы частот, полученных группировкой непрерывных данных по интервалам неравной длины. Обе гистограммы построены по различным разбиениям одной и той же выборки (данные табл. 3.2.6)

Соответствующие гистограммы показаны на рис. 3.2.4.

г) Гистограммы для непрерывных данных. Наиболее информативной графической формой частотной таблицы является специальный график, называемый гистограммой. С ним мы впервые встретились на рис. 3.2.2 и 3.2.3 для дискретных данных. Чаще эта конструкция применяется к непрерывным данным. Гистограмма состоит из прямоугольников с основаниями высота которых пропорциональна Их площади, следовательно, пропорциональны частотам Поэтому площадь той части гистограммы, что лежит между абсциссами пропорциональна числу наблюдений х, таких, что Если выбрать единицу измерения так, чтобы общая площадь гистограммы оказалась равной 1, можно интерпретировать площадь между как грубую оценку Следовательно, гистограмма является выборочным аналогом графика плотности распределения вероятности

Примеры приведены на рис. 3.2.4.

д) Выборочный аналог функции распределения; вероятностная бумага. Подобно тому как в примере 3.2.1 относительные частоты представляют собой естественный выборочный аналог п.р.в., накопленные относительные частоты в том же примере образуют естественный выборочный аналог ф.р. [сокращения приведены в разделе 1.4.2]. Относительная накопленная функция r.c.f. частот определена для и равна:

Эту функцию называют также эмпирической функцией распределения. Редко привлекаемая в случае дискретных данных, она часто используется для непрерывных выборок как основа для глазомерных критериев и сравнений. С точностью до случайных колебаний эта функция совпадает (там, где она определена) с наблюдаемой случайной величины X [см. II, раздел 10.1.1].

Есть полезный графический прием, позволяющий судить о степени этого совпадения. Он основан на следующей идее. Поскольку — неубывающая функция, можно выбрать такую неоднородную шкалу на оси ординат, что график как функции х превратится в прямую линию. С помощью обычной равномерно разлинованной бумаги можно построить на оси ординат новую, уже не равномерную шкалу. Каждой точке оси ординат с координатой у из подходящего набора (скажем, ) приписываем значение в качестве ее метки. Затем строим график на этой, по-новому размеченной шкале. Если такова, что в ее явное выражение х входит в форме где — постоянные, то в указанном неравномерном масштабе график будет прямолинеен при любых Это очень удобно, поскольку график эмпирической функции распределения на таком планшете состоит из точек, лежащих вблизи прямой линии. Это позволяет (хотя и субъективно) каждому оценить на глаз, насколько хорошо ф.р. выборки приближается к гипотетической ф.р. [см. пример 3.5.1].

Бумага с подобной шкалой может использоваться для нормального (нормальная вероятностная бумага), логнормального (логарифмическая вероятностная бумага) и некоторых других распределений. Примеры работы с вероятностной бумагой приведены в книге [Hald (1952) — С].

1
Оглавление
email@scask.ru