Глава 21. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ЗАДАЧ СОКРАЩЕНИЯ РАЗМЕРНОСТИ И КЛАССИФИКАЦИИ
Задачи сокращения размерности и классификации часто возникают при обработке данных в различных областях науки и техники. К настоящему времени разработано и продолжает развиваться обширное программное обеспечение (ПО) для решения этих задач.
Подробный обзор программных средств для решения подобных задач, а также для обеспечения других разделов статистического анализа приведен в [143], где рассмотрено значительное число программных продуктов, разработанных у нас в стране и за рубежом. Сведения о программных средствах, полезных в данном разделе статистического анализа, имеются в [12]. Почти все описанные там пакеты и системы статистической обработки данных имеют в своем составе процедуры для сокращения размерностей и классификации. (см. также [66, 75, 89, 95, 120, 203, 204, 249, 256].)
В настоящей главе основное внимание уделено программному обеспечению для персональных ЭВМ (при этом рассматривается программное обеспечение не только для задач сокращения размерностей и классификации, ной для других разделов статистического анализа), а также развитию экспертных систем в статистике.
Рассматриваются также программные средства, предназначенные для таких сравнительно новых подходов в статистическом анализе, как визуализация многомерных данных, разведочный анализ.
21.1. Программное обеспечение прикладного статистического анализа для ПЭВМ
Рассмотрим статистическое ПО в основном для ПЭВМ типа IBM PC и совместимых с ними. В настоящее время статистическое ПО ПЭВМ является весьма развитым. Обзор его по состоянию на 1985 г. приведен в [309]. Здесь же ограничимся рассмотрением сравнительно небольшого списка программных средств, которые, судя по литературным источникам [255] и некоторому нашему личному опыту, представляются наиболее интересными. Данные по ПО сосредоточены в нескольких таблицах, которые представляют характеристики ПО по следующим позициям
Использование ресурсов. В табл. 21.1 представлены характеристики рассматриваемых пакетов. Следует учесть, что разные версии одного и того же пакета могут так же сильно отличаться друг от друга, как и разные пакеты. В графе RAM (random access memory) приведен минимальный объем внутренней памяти, необходимый для работы пакета. В графе «Твердый диск» приводятся две цифры: первая — минимальная память на диске
необходимая для работы пакета, и вторая — максимальная, запрашиваемая для работы только некоторых программ.
Таблица 21.1
Знак
означает необходимость диска,
— желательность его,
— ненужность.
В графе «Сопроцессор» знак
указывает на необходимость сопроцессора Intel 8087 для работы пакета, «0» — его использование носит опциональный характер. Заметим, что использование сопроцессора повышает скорость обработки в среднем в 3 раза.
В графе «Максимальное число объектов» буква D означает, что объектов может быть столько, сколько их размещается на диске, число килобайт (К) указывает, что объектов может быть столько, сколько поместится в области памяти такого объема (при заданном числе переменных).
Здесь рассматриваются две версии пакета BMDP — базисная (basis) и полная (full), две версии пакета SRSS/PC + (basis и full) и две версии пакета STATA (basis и full).
Базисная версия BMDP содержит 6 программ, а полная — 28 программ. Базисная версия SPSS/PC + не включает некоторые программы по многомерному анализу данных и имеет существенно сокращенные возможности графического анализа данных.
Базисная версия STATA, в отличие от полной, не содержит графических средств анализа.
Управление пакетом и данными. Некоторые сведения, связанные с этими характеристиками, приведены в табл. 21.2. В графе «Способ управления» указано, каким образом осуществляется управление пакетом — с помощью системы меню или команд. С одной стороны, использование меню проще для пользователя-неспециалиста, с другой
развитая система команд позволяет создавать подготовленному пользователю сложные схемы обработки. В графе «Импорт/экспорт» пакеты оцениваются по их возможности взаимодействовать по данным с другими широко используемыми ПО для ПЭВМ — интегрированными пакетами, «spreed sheet» (типа Lotus 1—2—3), базами данных
II/III и т. д.). Здесь, как и в других графах этой таблицы,
означает хорошо развитый и легко доступный для пользователя обмен,
удовлетворительный уровень,
-возможность имеется, но реализация достаточно трудна. В графе «Манипуляция» приведены оценки возможностей пакетов по работе с файлами
слияние и разделение файлов по переменным и объектам. В четвертой графе в аналогичной шкале оцениваются возможности, предоставляемые пользователю для создания новых переменных, преобразования переменных, перекодировки данных и т.д.
Таблица 21.2
В графе «Пропуски» оцениваются возможности по работе с пропусками в данных, присвоения весов объектам. В последней графе оценивается уровень документированности и консультаций (help).
Возможности статистической обработки. Данные о реализации в пакетах процедур статистической обработки приведены в табл. 21.3, 21.4 Знак «-» в этих таблицах указывает на отсутствие соответствующей процедуры, «-» — наличие ее, а знак
— на то, что имеются ограниченные возможности. Так, для пакета STATGRAPHICS имеется лишь одна кластер-процедура (метод A-средних) и та реализована для небольшого числа объектов
.
Следует отметить, что все пакеты хорошо приспособлены для получения дескриптивной статистики одномерных данных и коэффициентов ассоциации (корреляций разных типов, корреляционных отношений,
-статистик и т.д.). Наименьшими возможностями в этом отношении обладает пакет ABC.
Наиболее полный набор статистических процедур предоставляет пакет BMDP/PC (full). Самым гибким в отношении управления данными является пакет P-STAT.
STATGRAPHICS — сравнительно медленно работающий пакет, и его лучше использовать на более мощных ЭВМ типа IBM АТ.