12.1.4. Возможности обработки данных при наличии пропущенных значений.
Рассмотрим возможности пакетов программ для обработки данных с пропусками. Соответствующие методы, на которые мы будем ссылаться, в основном описаны в § 11.4. Рассмотрим следующие способы и средства работы с пропущенными данными:
1. Кодирование пропусков с помощью специальных числовых «кодов пропущенных значений».
2. Удаление объектов с пропущенными значениями.
Таблица 12.2
3. Оценивание матрицы ковариаций и вектора средних:
а) по формулам (11.69), т. е. с учетом всех измеренных значений пар признаков (для недиагональных элементов ковариационной матрицы) и всех измеренных значений признака для оценивания среднего и дисперсии;
б) другие способы оценивания матрицы ковариаций без предварительного заполнения пропусков в матрице данных.
4. Заполнение пропусков в матрице данных:
а) с помощью главных компонент;
б) с помощью линейной регрессии на измеренные переменные;
в) с помощью других алгоритмов (например, алгоритма ZET);
г) средними значениями.
5. Дополнительные возможности обработки пропусков.
Пакеты СОД-ГС, СОРРА-1 вообще не имеют средств обработки пропущенных данных. С другой стороны, для пакета ОТЭКС заполнение пропусков на основе алгоритма ZET в матрице данных является одной из основных задач.
Таблица 12.3
Данные по наличию средств обработки пропусков согласно вышеуказанному перечню приведены в табл. 12.3.
Остановимся подробнее на некоторых дополнительных средствах обработки пропусков, реализованных в пакетах BMDP79 и ППСА. Как указано в § 11.4, оценка матрицы корреляций (ковариаций), полученная по способу 1 (см. формулу (11.69)), может не быть неотрицательно определенной. В пакетах BMDP 79 и ППСА предусмотрена возможность проверки неотрицательной определенности матрицы S, для чего определяются ее собственные числа (или собственные числа соответствующей корреляционной матрицы). Если среди собственных чисел будут отрицательные по величине, то можно получить неотрицательно определенную оценку матрицы корреляций (ковариаций) с помощью процедуры «сглаживания», которая заключается в том, что вычисляются сначала все собственные числа и векторы полученной корреляционной матрицы В и строится матрица , где U — матрица собственных векторов, соответствующих положительным собственным числам матрицы R, a L — диагональная матрица из положительных собственных чисел. Затем из матрицы А стандартной нормировкой получается корреляционная матрица R.
Если далее необходимо использовать ковариационную матрицу S, то она получается из R умножеййем столбцов и строк на оценки стандартных отклонений. Очевидно, как матрица R, так и матрица S будут неотрицательно определенными, но могут быть матрицами неполного ранга. Так как, однако, ранг этих матриц, а также собственные числа и векторы матрицы R известны, нетрудно получить, при необходимости, обобщенную обратную матрицу (см. [73]) для целей регрессионного и дискриминантного анализа.