9. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ С ПРОПУСКАМИ
9.1. СОВРЕМЕННОЕ СОСТОЯНИЕ ПРЕДМЕТА
Основным инструментом прикладной статистической обработки данных служат пакеты программ, библиотеки и другие программные продукты. Можно констатировать, что современное статистическое программное обеспечение анализа данных с пропусками в целом находится на уровне 60-х годов (в этом разделе мы не затрагиваем методы анализа в рамках теории надежности и т. п., имея в виду лишь те задачи, в которых механизм порождения пропусков не представляет прямого интереса для исследователя). Практически все статистические программные средства, в которых предусмотрена возможность наличия пропусков в данных, содержат лишь простые методы — исключение некомплектных наблюдений, заполнение пропусков средними, заполнение с помощью регрессии или главных компонент, вычисление ковариационной матрицы и вектора средних парными методами и т. д., т. е. методы, которые были реализованы еще в первых версиях пакетов SSP, IMSL, BMD (BMDP). Как было показано выше (см. гл. 3, а также дополнение), эти методы, как правило; неудовлетворительны. В связи с этим не имеет смысла подробно рассматривать состав методов анализа данных с пропусками, реализованных к настоящему времени в программных средствах, относящихся к прикладной статистике (их насчитывается несколько сотен [см. Сильвестров (1988)]).
Достаточно указать читателю краткий обзор И. С. Енюкова в [Айвазян, Енюков, Мешалкин (1983)], где представлены возможности пакетов BMDP 3-й и 4-й версий, SPSS, ППСА, ОГЭКС, ПНП (развитие библиотеки SSP), DIAS по обработке неполных данных. В этих и практически во всех других программных средствах прикладного статистического анализа реализовано лишь некоторое подмножество указанных простых методов или их модификаций (за исключением пакета ОТЭКС, в котором важное место отводится алгоритму обсуждавшемуся в разделе 7).
Тем не менее разработка статистического программного обеспечения, основанного на новых подходах, рассмотренных в данной книге, началась, и, видимо, через несколько лет многие статистические программные средства будут содержать реализации современных, теоретически обоснованных методов.
Одним из первых общестатистических пакетов, представляющих новые методы, описанные в настоящей книге, будет пакет BMDP последней, шестой версии, выпуск которого планируется в 1990 г. В этом пакете предполагается реализовать, например, методы анализа для многих из моделей, связанных с многомерным нормальным распределением и порождаемых структурами из раздела 8.5.
В нашей стране в Центре статистических методов и информатики (ЦСМИ) разрабатывается статистическое программное обеспечение, в состав которого включены современные методы обработки неполных данных, в том числе описанные в данной книге и в дополнении.
Один из программных продуктов ЦСМИ - диалоговая статистическая система ДИСАН (разработана под руководством О. М. Черномордика), которая, по сути, является специализированным средством обработки таблиц данных типа «объект-признак» с пропусками. Все разделы этой системы рассчитаны на наличие пропусков. В системе реализованы методы проверки случайности пропусков. В мощном экранном редакторе, входящем в ее состав, каждая таблица исходно считается состоящей из пропусков. Каждый пропуск может иметь два состояния — «отсутствующее» и «стертое» значение. Отсутствующие или стертые значения отображаются на экране как пустые ячейки, поэтому пользователю не нужно кодировать пропуск числовым значением.
Система не предлагает методы заполнения, которые, могли бы стать источником искаженных выводов. Если в какой-либо задаче существует несколько корректных вариантов обработки пропусков, то вычисления проводятся для всех вариантов (если при этом не требуется слишком больших вычислительных затрат). Система «помогает» пользователю избежать ошибочных выводов, связанных с наличием пропусков. Так, например, в регрессионном анализе для метода комплектных наблюдений проводится дисперсионный анализ регрессии, а для ЕМ-алгоритма выводятся только соответствующие оценки.