Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

7. МЕТОДЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ И ИХ СВОЙСТВА. ЛОКАЛЬНОЕ ЗАПОЛНЕНИЕ

Обобщенно говоря, методам заполнения пропусков присущи следующие два принципиальных недостатка.

1. Как правило, параметры для алгоритма заполнения пропусков вычисляются по присутствующим данным, что вносит

зависимость между наблюдениями. Конечно, такой искусственной зависимости не возникает, если проводится заполнение константой или случайными значениями, не зависящими от присутствующих наблюдений в выборке, или методом «подстановки без подбора» (см. раздел 4.5 книги). На практике эти методы представляют малую ценность. Зависимости можно также избежать, разделяя исходную выборку на две подвыборки и вычисляя подстановки (например, средневыборочные значения) для анализируемой подвыборки по значениям наблюдений во второй подвыборке. При таком подходе жертвуется часть информации, чтобы заполнить пропущенные значения.

2. Распределение данных после заполнения будет отличаться от истинного, даже если пренебречь зависимостью, указанной выше. Этот факт особенно нагляден для простых методов заполнения — средневыборочными, по регрессии и т. п. (см. раздел 3.4 книги или [Basilevsky et al. (1985)]). Так, заполнение средневыборочными по присутствующим значениям даст распределение в виде смеси, одной из компонент которой является истинное распределение по присутствующим значениям (соответствующее комплектным наблюдениям), а остальными компонентами — распределения, соответствующие некомплектным наблюдениям с различными структурами пропусков и вырожденные в

где множество признаков с пропусками структуры, число наблюденных структур пропусков. Различные варианты методов заполнения с помощью регрессии, главных компонент и аналогичных методов снова приведут к смеси истинного и вырожденных распределений с вырождением на гиперплоскостях, на которых располагаются предсказываемые значения.

Анализ таких «полных» данных стандартными методами неправомерен и приводит к недостаткам, подробно обсуждавшимся в разделе 3.4: несостоятельность, смещенность оценок параметров. Качество оценок ухудшается с ростом доли пропусков. Аналогичные явления (несостоятельность, искажение номинального уровня значимости) характерны и для статистических критериев проверки гипотез, применяемых к заполненным данным.

Рассмотрим теперь метод, который естественно назвать методом локального заполнения пропусков. Он сходен по идее с одним из методов подстановки с подбором, применяемых для задачи оценивания среднего одномерной переменной в конечной популяции

(см. гл. 4), — с методом «ближайшего соседа». Разберем такой вариант метода локального заполнения.

Пусть -мерное евклидово пространство. Примем, что вероятность комплектного наблюдения больше нуля. Пусть функция распределения случайного вектора X (соответствующая выборка независимых наблюдений с пропусками. Допустим, что распределение абсолютно непрерывно относительно некоторой меры на так что существует плотность относительно этой меры.

Допустим, что в наблюдении отсутствуют переменные и присутствуют Вычислим евклидовы расстояния между и всеми комплектными наблюдениями в подпространстве, соответствующем присутствующим в переменным:

Пусть подмножество индексов с минимальным значением расстояния (21). Если в входит только один объект то берут подстановку Если то из извлекают случайным образом индекс и полагают

Обозначим через эмпирическую функцию распределения, построенную по заполненной этим методом выборке.

Теорема 7. При и условии ОПС

Приведенное утверждение означает, что при неограниченном увеличении объема выборки локальное заполнение обеспечивает совпадение распределения заполненной выборки с истинным.

Из теоремы вытекает, в частности, что оценки, непрерывные в F в равномерной метрике [см. Боровков (1984), с. 26], а к ним относятся очень многие «разумные» оценки, состоятельные при полных данных, будут состоятельны и для данных с пропусками после локального заполнения.

Описанный простейший способ можно обобщить в нескольких направлениях. Во-первых, можно использовать самые разные расстояния — метрики Махаланобиса, Хемминга, Колмогорова, их комбинации, взвешивание переменных, неметрические расстояния и т. д. Во-вторых, возможны варианты, не ограничивающиеся подбором по комплектным объектам, например заполнение по наблюдениям с возрастающим числом присутствующих переменных с

«накоплением» значений (такой вариант более «равномерно» использует присутствующую в выборке информацию). При этом для справедливости (22), однако, обязательна вложенность подмножеств переменных с присутствующими значениями в последовательности объектов.

В общем случае, когда распределение пропусков может не подчиняться условию ОПС, наблюдениям со структурой при заполнении описанным способом будет соответствовать плотность

в предположении существования соответствующих плотностей, где плотность, условная по присутствию комплектного наблюдения, плотность, условная по присутствию наблюдения со структурой В результате предельное распределение заполненной выборки имеет плотность

При условии для всех (в правой части этого равенства стоит маргинальная плотность распределения что отвечает результату (22).

Обратимся теперь к известному алгоритму [Загоруйко, Елкина, Тимеркаев (1976)]. Внешне он сходен с методом локального заполнения. Однако с точки зрения математика его нельзя признать удовлетворительным. Провести сколько-нибудь строгое исследование свойств алгоритма практически невозможно, так как он представляет собой последовательность достаточно сложных эвристических процедур. Вместо этого мы продемонстрируем на простых примерах действие механизмов, которые будут приводить в общем случае к искажениям исходного распределения при заполнении пропусков алгоритмом ZET. Обсуждаемые ниже явления надо учитывать также при конструировании локальных методов заполнения.

Рассмотрим более подробно последнюю модификацию алгоритма алгоритм ZETM [Загоруйко и др. (1986), гл. 2]. В этом алгоритме пропуски заполняются величиной, которая является линейной комбинацией (взвешенным средним) регрессионных оценок пропущенного значения. Оценки вычисляются по предсказывающей подматрице исходной таблицы «объект-признак». Размеры подматрицы малы (в примере, сопровождающем описание алгоритма, фигурируют значения от до Конкретный способ

вычисления в [Загоруйко и др. (1986)] не указан, однако при любом разумном толковании (используется ли простая или множественная регрессия и т. п.) будут задействованы следующие механизмы.

1. Если в вычислении подстановок используется не один, а несколько объектов, то усреднение прогнозируемых значений может привести к неприятным последствиям, даже если число этих объектов мало. Рассмотрим неполную выборку двумерных векторов в которой часть объектов комплектна, а часть объектов содержит значения и пропуски у. Будем проводить заполнение по методу «двух ближайших соседей»: подбирать для объекта с пропуском два комплектных объекта с минимальными расстояниями и заполнять пропуск значением Тогда в пределе при для распределений, непрерывных по условная дисперсия подстановок у при заданном будет в 2 раза меньше истинной условной дисперсии у. Значит, если зависимость между х и у не очень сильна, то занижение дисперсии будет заметно уже при сравнительно небольшой доле пропусков. Свойство (22) будет верно в общем случае только при (Заполнение по регрессии не изменит характер рассматриваемых искажений.)

2. Отбор признаков связан с еще одной опасностью. Это проще всего проиллюстрировать на примере выборки независимых трехмерных бинарных векторов которую можно представить в виде трехфакторной таблицы сопряженности Пусть распределение сосредоточено в трех точках и (1,0,1) с массами 1/3 каждая. Пусть часть наблюдений содержит пропуски в переменной По-прежнему будем считать верным условие ОПС. Заполняя пропуски локальным методом (т. е. подбирая ближайший объект и случайно выбирая значения, если число таких объектов с минимальным расстоянием более одного), но используя только переменную и игнорируя значения у, мы получим, что в заполненной выборке часть наблюдений имеет недопустимые значения: (0,0,1) и (0,1,0). В пределе эта часть составляет

То, что в алгоритме ZETM «столбцы» (признаки) отбираются по степени близости друг к другу [см. Загоруйко и др. (1986), с. 20], может уменьшить подобный эффект, но, конечно, не устранит его полностью (за исключением случая строгой линейной зависимости). В приведенном примере столбцы х и у одинаково близки к столбцу в евклидовой метрике, используемой в

3. Сходной природой обладает и еще один возможный источник искажений. Речь идет о таком способе поиска подстановок. Пусть требуется заполнить пропуск признака объекта, Если вычислять подстановки по подмножеству наблюдений с присутствием признака и это подмножество формируется независимо от аналогичных подмножеств, образуемых для заполнения

пропусков в других признаках, то такой подход тоже может приводить к «выбросам» — объектам с неестественным сочетанием значений признаков, а также к другим искажениям. Этот подход был реализован в алгоритме ZET.

4. В алгоритме ZETM имеется итеративный режим вычисления новых значений подстановок с учетом значений, вычисленных и подставленных на предыдущем шаге [Загоруйко и др. (1986), с. 21, 115], что может вносить дополнительную искусственную зависимость между объектами выборки и усиливать «центростремительные тенденции», особенно если доля пропусков велика.

В разделе 4.5.1 книги упомянуты еще два подхода к заполнению пропусков. Для обоих свойство (22) в общем случае не выполняется. В первом (пункт е), см. также [Titterington, Jiang (1983); Little, Smith (1987)]) к подстановке для пропуска, вычисляемой по регрессионному уравнению, добавляют случайное значение, сгенерированное согласно распределению, условному по присутствующим значениям, со значением параметра, равным его текущей оценке §. Распределение подстановок будет «подгонять» истинное распределение к распределению выбранной параметрической модели со значением параметра в. Составной метод (пункт ) также не удовлетворителен: ясно, что при различном распределении отклонений от регрессии для различных значений независимых переменных добавление к регрессионному предсказанию случайно выбранных остатков может заметно исказить исходное распределение.

Более приемлемо выглядит вариант, близкий к одному из предложений в [Little, Smith (1987)], - комбинация регрессионного и локального заполнения, при которой к регрессионному прогнозу пропущенных значений добавляют остаток от регрессии для ближайшего (в пространстве известных переменных) комплектного наблюдения. Свойства такого метода будут близки к описанному выше простому методу локального заполнения, в частности, при ОПС будет выполняться (22). Вопрос о том, какой из этих двух подходов предпочтительнее (и в каких условиях), остается открытым.

Что касается свойств методов заполнения, описанных в книге в разделе 4.5.3, то они близки к свойствам описанного простого локального метода. Заметим, что методы из гл. 4 предназначены для решения частной задачи — оценивания характеристики скалярной переменной, поэтому здесь ситуация проще В частности, вести подбор по полному подмножеству «сопеременных» не обязательно в отличие от локального заполнения в общем многомерном случае.

В заключение раздела коротко обсудим, как заполнение пропусков влияет на характер выводов при так называемых методах анализа данных, и назовем некоторые альтернативные подходы. К этим методам относятся методы кластерного анализа, многомерного шкалирования, разведочные методы (например, визуализация данных). Их применение обычно не опирается на какую-либо вероятную модель, поэтому бессмысленно характеризовать их свойства в статистических терминах состоятельности, (не)смещенности критериев и оценок параметров, устойчивости и эффективности. Тем не менее и для этих методов заполнение, как правило, искажает природу данных и характер выводов. Так, если пропуски не зависят от значений признаков, то заполнение средними, по регрессии или аналогичными методами приведет к искусственному увеличению доли объектов со значениями признаков в центре совокупности (выборки) или на соответствующих гиперплоскостях. Искусственно компактными будут классы в кластер-анализе после заполнения пропусков внутригрупповыми средними или с помощью алгоритма При этом степень искажения также увеличивается с ростом доли пропусков. Поэтому в методах анализа данных желательно искать методы обработки пропусков, не связанные с их заполнением (а при отсутствии таковых обращаться к локальному заполнению).

К методам невероятностного анализа данных с пропусками без их заполнения относится подход, описанный в гл. 5 книги Э. Дидэ с соавторами «Методы анализа данных. Подход, основанный на методе динамических сгущений» (М.: Финансы и статистика, 1985), для кластер-анализа эталонного типа (обобщение алгоритма типа Для методов анализа данных, основанных на матрице расстояний между объектами (иерархический кластер-анализ, многомерное шкалирование), можно «заполнять» не пропуски, а те компоненты расстояний, которые невозможно вычислить из-за пропусков наблюдений, т. е. добавлять к расстоянию вычисленному в подпространстве возможно большей для каждой пары объектов размерности, средневыборочное расстояние в дополнении до полного пространства (такой способ реализован в одном из пакетов ЦСМИ, см. раздел 9), или это же расстояние, умноженное на величину, пропорциональную В многомерном шкалировании при наличии пропусков естественно минимизировать сумму по всем парам объектов, исходное, модельное расстояния для пары, когда в вводится множитель, монотонно возрастающий при увеличении числа признаков, участвовавших в вычислении расстояния Все эти подходы требуют изучения.

1
Оглавление
email@scask.ru