Главная > Прикладная статистика: Основы моделирования и первичная обработка данных
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

10.1.3. Просмотр данных.

Очень существенно, чтобы собранные в статистическом исследовании данные были тщательно просмотрены и отредактированы прежде, чем к ним будет применена основная статистическая техника.

Ошибки в данных могут привести к неожиданным результатам, иногда интерпретируемым, иногда нет, но всегда неверным.

Просмотр данных преследует следующие цели:

1) обнаружение грубых ошибок в словаре исследования, а также ошибок, допущенных при кодировании, перфорации и вводе данных в ЭВМ;

2) указание возможных выбросов или аномальных, т. е. резко выделяющихся по своей величине наблюдений, которые могут быть нерепрезентативными для изучаемой популяции (более подробно см. § 11.5);

3) получение первого, грубого представления об одномерных и, частично, двумерных распределениях.

Укажем некоторые приемы, облегчающие проведение просмотра данных, или, как иногда говорят, скрининга.

Распечатка введенных в ЭВМ данных в табличной форме по объектам, иногда с их предварительной сортировкой по величине какого-либо признака. При этом проверяются наличие грубых ошибок при задании формата данных, правильность и удобочитаемость названия исследования и имен переменных, полнота введенного материала и отсутствие лишних данных, а также попадание численных значений переменных или их кодов в предусмотренный диапазон. Просмотр расположенных по столбцам переменных позволяет обычно сразу же выделить грубые ошибки. При желании столбцы можно просмотреть и на экране дисплея. Однако хорошо оформленная бумажная распечатка является удобным справочным документом и по другим вопросам, которые могут возникнуть на последующих стадиях анализа.

Построение одномерных распределений. Если ЭВМ строит гистограмму (см. § 10.3), то ее столбцьгудобно заполнять номерами наблюдений. В крайнем случае если наблюдений слишком много, то указывать отдельно номера наблюдений, вышедших за 5 %- и 95 %-ные квантили.

Указание номеров наблюдений удобно использовать и при построении двумерных распечаток. Если в одну точку попадает несколько наблюдений, на графике ставится специальный знак, а номера наблюдений печатаются ниже. Двумерные широкоформатные распечатки очень удобны для формирования предварительных содержательных гипотез о связи переменных. Математические вопросы построения эмпирических распределений рассматриваются в § 10.3.

Categories

1
Оглавление
email@scask.ru