11.4.4. Непараметрический подход к оценке пропусков в матрице данных.
Рассмотренный в предыдущем пункте «метод неподвижной точки» требует аналитического задания вида закона распределения, из которого извлечена обрабатываемая матрица данных, что сужает область его применения. Существуют, однако, методы заполнения пропусков в матрице данных, которые не требуют знания закона распределения, а основаны на использовании расстояния между парами объектов (в некоторой метрике), определяемого по значениям признаков, измеренных у обоих объектов. Считается, что если два объекта близки в пространстве измеренных признаков, то из этого следует и их близость по неизмеренным признакам [35]. Метрика и пороговое значение расстояния, определяющее близость объектов, вводятся в зависимости от условий конкретной задачи
шкал, в которых признаки измерены, количества пропусков и т. д. Одна из возможных конкретизаций этого подхода в общих чертах такова. Пусть у объекта требуется оценить значение пропущенного признака т. е. оценить элемент в матрице данных X. Для этого из матрицы X формируется подматрица столбцов (объектов) с измеренными значениями признака из которой далее выделяется однородная группа объектов, наиболее близких к в пространстве измеренных у этого объекта признаков. Затем неизмеренное значение заменяется средним по выделенной однородной группе объектов значением признака
Такая схема реализована в алгоритме «ZET», подробное описание которого дано В [35]. Как следует из примеров, приведенных в [35], применение этого алгоритма дает хороший результат.
Рассмотрим теперь вопрос оценки качества заполнения пропусков, который относится не только к алгоритму «ZET», но и к ранее рассмотренным методам. Ввести формализованную меру качества восстановления пропущенных элементов довольно трудно. Однако существует приближенный способ оценки [35], который состоит в том, что из матрицы данных X случайным образом исключается часть измеренных значений и далее эти пропуски заполняются тем или иным способом. Мера отклонения (например, сумма квадратов отклонений) истинных значений от значений, полученных в результате заполнения, и является мерой качества применения данного алгоритма заполнения к обрабатываемой матрице данных.