11.4.1. Оценивание неизвестных параметров при наличии пропущенных данных.
Один из самых старых и простых способов обработки данных с пропусками состоит в замене пропущенных значений признака его средним арифметическим значением, которое оценивается по имеющимся реализациям.
Далее заполненная матрица данных обычным образом используется, например, для оценивания элементов ковариационной матрицы (см. 10.21). Получаемая при этом оценка ковариационной матрицы будет, очевидно, смещенной, в частности, диагональные элементы (дисперсии) будут смещены в сторону уменьшения. Смещение дисперсий легко устраняется оцениванием их только по измеренным значениям соответствующих признаков. С другой стороны, смещение недиагональных элементов нельзя учесть без дополнительных предположений о распределении пропусков в матрице данных.
Приведем один результат в этом направлении, полученный В. П. Булыгиным [32].
Предположим, что возникновение пропуска значения признака есть случайное событие, статистически независимое от измерения других признаков у данного объекта и от измерения на других объектах. Пусть есть оценка элемента ковариационной матрицы, полученная после подстановки средних значений. Тогда несмещенная оценка для элемента будет:
где
Однако независимость возникновения пропусков редко имеет место в практических ситуациях. Поэтому более надежным является оценивание вектора средних значений и матрицы ковариаций только по имеющимся измерениям. В качестве оценки среднего значения и дисперсии признака как и ранее, используются среднее арифметическое и средний квадрат отклонения, оцененные пр имеющимся измерениям этого признака, а недиагональные элементы ковариационной матрицы оцениваются по всем объектам, у которых измерена соответствующая пара признаков
(11.68)
Очевидно, для получения оценки недиагонального элемента необходимы по крайней мере два объекта с измеренной парой значений признаков . Оценка (11.69) несмещена и будет состоятельна, если все стремятся к бесконечности с ростом n.
Важной величиной, характеризующей достоверность и точность оценок (11.68), (11.69), являются числа степеней свободы соответствующих этим оценкам. Число можно интерпретировать как эффективный объем выборки, по которому оценена матрица ковариаций, т. е. можно сказать, что оценка (11.69) имеет такую же точность, как оценка матрицы ковариаций, полученная по выборке объема без пропущенных значений. Аналогичный смысл имеет величина для вектора средних значений.
В [99] предложено использовать следующие значения для
(11.70)
т. е. величины, обратные среднему геометрическому числу объектов из Величины (11.70) следует подставлять, например, в критерии проверки гипотез согласия и однородности в многомерном случае (см. п. 11.2.7).
Как оценка (11.67), так и оценка (11.69) для матрицы ковариаций в отличие от стандартной оценки (10.21) могут не быть неотрицательно определенными при малых объемах выборок. В частности, они могут иметь отрицательные собственные числа.
Другие оценки матрицы ковариаций и вектора средних значений, получающиеся одновременно с заполнением пропусков, рассмотрены в п. 11.4.3.