Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
В.6. Основные этапы статистического исследования зависимостейВесь процесс статистического исследования интересующих нас зависимостей удобно разложить на основные этапы. Эти этапы ниже описаны в соответствии с хронологией их реализации, однако некоторые из них находятся, в плане хронологическом, в соотношении итерационного взаимодействия: результаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом добытой на предыдущих этапах новой информации) уже пройденных этапов (см., например, схему взаимодействия этапов 3,4, 5 и 6 на рис. В.8). Излагаемая ниже схема приспособлена в основном для исследования зависимостей между количественными переменными, однако с минимальными (и очевидными) модификациями она «работает» и при статистическом анализе связей между неколичественными и разнотипными переменными.
Рис. В.8. Схема хронологически-итерационных взаимосвязей основных этапов статистического исследования зависимостей Этап 1 (постановочный). Прежде всего исследователь должен определить: 1) элементарную единицу статистического обследования, или элементарный объект исследования О (это может быть страна, город, отрасль, предприятие, семья, индивидуум, пациент, технологический процесс, сложное техническое изделие и т. д.); 2) набор показателей
3) конечные прикладные цели исследования (см. § В.2), тип исследуемых зависимостей (см. § В.5) и желательную форму статистических выводов (а иногда и степень их точности); 4) совокупность элементарных объектов исследования, на которую мы хотим распространить справедливость действия выявленных в результате анализа статистических зависимостей (если, например, элементарная единица — семья, то анализируемой совокупностью могут быть семьи определенной социальной группы населения или семьи определенной республики и т. д.); 5) общее время и трудозатраты, отведенные на планируемое исследование и коррелированные с ними временная протяженность и объем необходимого статистического обследования (какую часть анализируемой совокупности подвергнуть статистическому обследованию, производить статистическое обследование в статическом или динамическом режиме и т. д.). Заметим, что именно на этом этапе решаются задачи в) и 1, описанные в § В. 1. В решении всех перечисленных вопросов первого этапа исследования главную роль, бесспорно, должен играть «заказчик», т. е. специалист той предметной области, для которой планируется проведение этого исследования. Этап 2 (информационный). Он состоит в проведении сбора необходимой статистической информации вида (В.1). При этом возможны две принципиально различные ситуации: 1) исследователь имеет возможность заранее спланировать выборочное обследование части анализируемой совокупности — выбрать способ отбора элементарных единиц статистического обследования (случайный, пропорциональный, расслоенный и т. д., см., например, [14, п. 5.4.3]), хотя бы по части объясняющих переменных 2) исследователь получает исходные данные такими, какими они были собраны без его участия (условия пассивного эксперимента). В любом случае «на выходе» этого этапа исследователь располагает исходными статистическими данными вида (В.1), т. е. каждому (t-му) из статистически обследованных элементарных объектов исследования О поставлен в соответствие конкретный вектор характеризующих его «входных» и «выходных» показателей:
(здесь Говоря о проведении сбора статистических данных, мы не включаем сюда разработку методологии и системы показателей отображаемого объекта: эта работа предполагает профессионально-предметное (экономическое, техническое, медицинское и т. д.) изучение сущности решаемых задач статистического исследования зависимостей, поэтому относится к компетенции соответствующей предметной статистики (экономической и т. д.) и входит в задачи 1-го этапа исследований. Этап 3 (корреляционный анализ). Этот этап нацелен на решение задачи 2 (см. § В.1), он позволяет ответить на вопросы, имеется ли вообще какая-либо связь между исследуемыми переменными, какова структура этих связей и как измерить их тесноту? Описанию методов, с помощью которых проводится такой статистический анализ, посвящены гл. 1—4. Поскольку перечисленные выше вопросы решаются с помощью вычисления и анализа соответствующих корреляционных характеристик, содержание этапа можно определить как проведение корреляционного анализа. Этап достаточно полно оснащён необходимым математическим аппаратом и программным обеспечением, поэтому может быть почти полностью автоматизирован. Этап 4 (определение класса допустимых решений). Главной целью исследователя на этом этапе является определение общего вида, структуры искомой связи между Y и X, или, другими словами, описание класса функций F, в рамках которого он будет производить дальнейший поиск конкретного вида интересующей его зависимости (см. задачи а) и 3 в § В.1). Чаще всего это описание дается в форме некоторого параметрического семейства функций Следует отметить, что, являясь узловым, в определенной мере решающим звеном во всем процессе статистического Существует подход к исследованию моделей регрессии, не требующий предварительного выбора параметрического семейства функций F в рамках которого проводится дальнейший анализ. Речь идет о так называемых непараметрических (или частично-параметрических) методах исследования регрессионных зависимостей, которым посвящена гл. 10. Однако возникающие при их реализации проблемы (необходимость иметь очень большие объемы исходных статистических данных, выбор сглаживающих функций — «окон» и параметров масштаба, выбор порядка сплайна, числа и положения «узлов» и т. п.) сопоставимы по своей сложности с проблемами, возникающими при реализации этапа 4. Следующие два этапа — 5-й и 6-й — связаны с проведением определенного объема вычислений на ЭВМ и реализуются, по существу, параллельно. Этап 5 (анализ мультиколлинеарности предсказывающих переменных и отбор наиболее информативных из них.) Под явлением мультиколлинеарности в регрессионном анализе понимается наличие тесных статистических связей между предсказывающими переменными а) в реализации на ЭВМ необходимых вычислительных процедур и, в частности, в крайней неустойчивости получаемых при этом числовых характеристик анализируемых моделей (так, коэффициенты при объясняющих переменных в моделях типа (В. 12), (В. 13) и др. могут изменяться в несколько раз и даже менять знак при добавлении (или исключении) к массиву исходных статистических данных одного-двух объектов или одной-двух объясняющих переменных); б) в содержательной интерпретации параметров анализируемой модели, что играет решающую роль в ситуациях, когда конечной целью исследования является цель типа 3 («выявление причинных связей» и т. д., см. § В.2, соотношения (В.9) и Поэтому исследователь старается перейти к такой новой системе предсказывающих переменных (отобранных из числа исходных переменных Этап проводится в основном силами математиков-статистиков с подключением (в самом его конце) специалистов соответствующей предметной области для выбора из нескольких предложенных вариантов набора объясняющих переменных, наиболее легко и естественно интерпретируемого. Рекомендации по проведению этого этапа даны в гл. 8. Этап 6 (вычисление оценок неизвестных параметров, входящих в исследуемое уравнение статистической связи). Итак, в результате проведения предыдущих этапов были решены, в частности, следующие задачи: а) определены результирующие и объясняющие переменные и тип исследуемой зависимости (В, С или D, см. § В.5); б) собрана и подготовлена к счету на ЭВМ исходная статистическая информация вида (В.1); в) изучены характер и теснота статистических (корреляционных) связей между исследуемыми переменными; г) выбран класс допустимых решений F, т. е. класс (или параметрическое семейство) функций f (X), в рамках которого будет подбираться наилучшая (в определенном смысле) аппроксимация Теперь можно приступать к определению этой наилучшей аппроксимации
где функционал Эта часть исследования хорошо оснащена необходимым математическим аппаратом и соответствующим программным обеспечением (см. гл. 7—10). Этап 7 (анализ точности полученных уравнений связи). Исследователь должен отдавать себе отчет в том, что найденная им в соответствии с (В.24) аппроксимация Соответственно на данном этапе приходится решать следующие основные задачи анализа точности полученной регрессионной зависимости: 1) в случае
с вероятностью, не меньшей, чем Р (здесь 2) при заданных доверительной вероятности Р, объеме выборки
с вероятностью, не меньшей, чем Р (здесь 3) при заданных доверительной вероятности
с вероятностью, не меньшей, чем Р (здесь Описанию методов анализа точности исследуемых регрессионных моделей посвящена гл. 11 настоящего издания. Заметим в заключение, что часть исследования, объединяющая этапы 4, 5, 6 и 7, принято называть регрессионным анализом.
|
1 |
Оглавление
|