В.4. Основные этапы в решении задач классификации и снижения размерности
Целью данного параграфа является конкретизация сформулированных в [12, п. 1.1.3] общих рекомендаций по методике проведения всякого статистического анализа данных. В этой конкретизации будем опираться на описанную выше специфику задач классификации и снижения размерности, и в частности на имеющуюся теперь возможность выбора подходящего типа практической задачи и соответствующих ему конечных прикладных целей исследования (см. § В.2), а также подбора необходимого математического инструментария (см. § В.3).
Представим весь процесс решения задач классификации и снижения размерности в виде следующей схемы (рис. В.1) и прокомментируем ее.
(см. скан)
Рис. В.1. Схема поэтапного процесса решения задач классификации и снижения размерности
Этап 1 (установочный). На этом этапе главную роль играет «заказчик», т. е. специалист той предметной области (экономики, социологии, геологии, медицины и т. д.), к которой относится решаемая задача На предметно-содержательном уровне должна быть сформулирована постановка задачи, включающая в себя характер научных или практических выводов, которые требуется получить «на выходе» задачи (диагностический, прогнозный, аналитически и т. п.), описание предмета исследования, объектов статистического обследования, выделяемые для решения задачи ресурсы (время, трудозатраты) и т. д.
Этап 2 (постановочный) На этом этапе необходимо тесное сотрудничество «заказчика» и «инструментальщика», т. е. специалиста по прикладной статистике Отправляясь от выработанной на этапе 1 предметно-содержательной установки на главные цели исследования, они должны сформулировать эти цели в терминах основных типов прикладных задач, рассматриваемых в теории статистических методов классификации и снижения размерности (см. § В 2). Необходимым условием успешной реализации этого этапа (и соответственно всего последующего статистического анализа) является полное взаимопонимание и согласие «заказчика» и «инструментальщика» в принятом решении (что достигается далеко не просто).
Этап 3 (информационный) Состоит в выработке и реализации плана сбора исходной статистической информации (если ее не представил «заказчик» уже на этапе 1), в подробной аттестации этой информации (объяснение способа сбора, формы представления и т. п.), в вводе исходных данных в ЭВМ, их выверке и редактировании
Этап 4 {априорный математико-постановочный). На базе выводов и информации, полученных в результате реализации этапов 1—3, требуется осуществить предварительный (априорный, т. е. до проведения каких-либо расчетов) выбор базовых математических моделей, которые целесообразно использовать в математической постановке данной конкретной задачи (см. § В 3). При этом факторами, от которых решающим образом зависит выбор, являются, как уже знаем, характер конечных прикладных целей исследования, природа и форма исходных статистических данных.
Этап 5 (разведочный анализ). Этот этап составляют всевозможные методы предварительной статистической обработки, «прощупывания» исходных данных с целью выявления специфики их вероятностной и геометрической природы ([12, гл. 10 и 11], а также гл. 18—21 данной книги).
«На выходе» этапа должны быть уточненные сведения о физическом механизме генерирования наших исходных данных, а значит, о базовой математической модели этого механизма.
Этап 6 (апостериорный математике-постановочный). На этом этапе уточняется математическая постановка решаемой задачи с учетом выводов, полученных на предыдущем этапе.
Этап 7 (вычислительный). Производится вычислительная реализация намеченного использования выбранного на предыдущем этапе математического инструментария в решении задачи. При этом желательно воспользоваться типовым программным обеспечением (см. гл 21).
Этап 8 (итоговый). Анализируются и интерпретируются результаты проведенной статистической обработки (классы, факторы и т.п.). В зависимости от результатов этого анализа (достигнуты ли все намеченные на этапе 2 прикладные цели исследования, насколько естественно интерпретируемы полученные результаты, степень их достоверности и т. п.) либо формулируются окончательные научные или прикладные выводы, либо даются уточнения и дополнения к заданию и возвращаются к одному из предыдущих этапов обычно к этапу 3, 4 или 5).