Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
7. МЕТОДЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ И ИХ СВОЙСТВА. ЛОКАЛЬНОЕ ЗАПОЛНЕНИЕОбобщенно говоря, методам заполнения пропусков присущи следующие два принципиальных недостатка. 1. Как правило, параметры для алгоритма заполнения пропусков вычисляются по присутствующим данным, что вносит зависимость между наблюдениями. Конечно, такой искусственной зависимости не возникает, если проводится заполнение константой или случайными значениями, не зависящими от присутствующих наблюдений в выборке, или методом «подстановки без подбора» (см. раздел 4.5 книги). На практике эти методы представляют малую ценность. Зависимости можно также избежать, разделяя исходную выборку на две подвыборки и вычисляя подстановки (например, средневыборочные значения) для анализируемой подвыборки по значениям наблюдений во второй подвыборке. При таком подходе жертвуется часть информации, чтобы заполнить пропущенные значения. 2. Распределение данных после заполнения будет отличаться от истинного, даже если пренебречь зависимостью, указанной выше. Этот факт особенно нагляден для простых методов заполнения — средневыборочными, по регрессии и т. п. (см. раздел 3.4 книги или [Basilevsky et al. (1985)]). Так, заполнение средневыборочными
где Анализ таких «полных» данных стандартными методами неправомерен и приводит к недостаткам, подробно обсуждавшимся в разделе 3.4: несостоятельность, смещенность оценок параметров. Качество оценок ухудшается с ростом доли пропусков. Аналогичные явления (несостоятельность, искажение номинального уровня значимости) характерны и для статистических критериев проверки гипотез, применяемых к заполненным данным. Рассмотрим теперь метод, который естественно назвать методом локального заполнения пропусков. Он сходен по идее с одним из методов подстановки с подбором, применяемых для задачи оценивания среднего одномерной переменной в конечной популяции (см. гл. 4), — с методом «ближайшего соседа». Разберем такой вариант метода локального заполнения. Пусть Допустим, что в
Пусть Обозначим через Теорема 7. При и условии ОПС
Приведенное утверждение означает, что при неограниченном увеличении объема выборки локальное заполнение обеспечивает совпадение распределения заполненной выборки с истинным. Из теоремы вытекает, в частности, что оценки, непрерывные в F в равномерной метрике [см. Боровков (1984), с. 26], а к ним относятся очень многие «разумные» оценки, состоятельные при полных данных, будут состоятельны и для данных с пропусками после локального заполнения. Описанный простейший способ можно обобщить в нескольких направлениях. Во-первых, можно использовать самые разные расстояния — метрики Махаланобиса, Хемминга, Колмогорова, их комбинации, взвешивание переменных, неметрические расстояния и т. д. Во-вторых, возможны варианты, не ограничивающиеся подбором по комплектным объектам, например заполнение по наблюдениям с возрастающим числом присутствующих переменных с «накоплением» значений (такой вариант более «равномерно» использует присутствующую в выборке информацию). При этом для справедливости (22), однако, обязательна вложенность подмножеств переменных с присутствующими значениями в последовательности объектов. В общем случае, когда распределение пропусков может не подчиняться условию ОПС, наблюдениям со структурой
в предположении существования соответствующих плотностей, где
При условии Обратимся теперь к известному алгоритму Рассмотрим более подробно последнюю модификацию алгоритма вычисления в [Загоруйко и др. (1986)] не указан, однако при любом разумном толковании (используется ли простая или множественная регрессия и т. п.) будут задействованы следующие механизмы. 1. Если в вычислении подстановок используется не один, а несколько объектов, то усреднение прогнозируемых значений может привести к неприятным последствиям, даже если число этих объектов мало. Рассмотрим неполную выборку двумерных векторов 2. Отбор признаков связан с еще одной опасностью. Это проще всего проиллюстрировать на примере выборки независимых трехмерных бинарных векторов То, что в алгоритме ZETM «столбцы» (признаки) отбираются по степени близости друг к другу [см. Загоруйко и др. (1986), с. 20], может уменьшить подобный эффект, но, конечно, не устранит его полностью (за исключением случая строгой линейной зависимости). В приведенном примере столбцы х и у одинаково близки к столбцу 3. Сходной природой обладает и еще один возможный источник искажений. Речь идет о таком способе поиска подстановок. Пусть требуется заполнить пропуск пропусков в других признаках, то такой подход тоже может приводить к «выбросам» — объектам с неестественным сочетанием значений признаков, а также к другим искажениям. Этот подход был реализован в алгоритме ZET. 4. В алгоритме ZETM имеется итеративный режим вычисления новых значений подстановок с учетом значений, вычисленных и подставленных на предыдущем шаге [Загоруйко и др. (1986), с. 21, 115], что может вносить дополнительную искусственную зависимость между объектами выборки и усиливать «центростремительные тенденции», особенно если доля пропусков велика. В разделе 4.5.1 книги упомянуты еще два подхода к заполнению пропусков. Для обоих свойство (22) в общем случае не выполняется. В первом (пункт е), см. также [Titterington, Jiang (1983); Little, Smith (1987)]) к подстановке для пропуска, вычисляемой по регрессионному уравнению, добавляют случайное значение, сгенерированное согласно распределению, условному по присутствующим значениям, со значением параметра, равным его текущей оценке §. Распределение подстановок будет «подгонять» истинное распределение к распределению выбранной параметрической модели со значением параметра в. Составной метод (пункт Более приемлемо выглядит вариант, близкий к одному из предложений в [Little, Smith (1987)], - комбинация регрессионного и локального заполнения, при которой к регрессионному прогнозу пропущенных значений добавляют остаток от регрессии для ближайшего (в пространстве известных переменных) комплектного наблюдения. Свойства такого метода будут близки к описанному выше простому методу локального заполнения, в частности, при ОПС будет выполняться (22). Вопрос о том, какой из этих двух подходов предпочтительнее (и в каких условиях), остается открытым. Что касается свойств методов заполнения, описанных в книге в разделе 4.5.3, то они близки к свойствам описанного простого локального метода. Заметим, что методы из гл. 4 предназначены для решения частной задачи — оценивания характеристики скалярной переменной, поэтому здесь ситуация проще В частности, вести подбор по полному подмножеству «сопеременных» В заключение раздела коротко обсудим, как заполнение пропусков влияет на характер выводов при так называемых методах анализа данных, и назовем некоторые альтернативные подходы. К этим методам относятся методы кластерного анализа, многомерного шкалирования, разведочные методы (например, визуализация данных). Их применение обычно не опирается на какую-либо вероятную модель, поэтому бессмысленно характеризовать их свойства в статистических терминах состоятельности, (не)смещенности критериев и оценок параметров, устойчивости и эффективности. Тем не менее и для этих методов заполнение, как правило, искажает природу данных и характер выводов. Так, если пропуски не зависят от значений признаков, то заполнение средними, по регрессии или аналогичными методами приведет к искусственному увеличению доли объектов со значениями признаков в центре совокупности (выборки) или на соответствующих гиперплоскостях. Искусственно компактными будут классы в кластер-анализе после заполнения пропусков внутригрупповыми средними или с помощью алгоритма К методам невероятностного анализа данных с пропусками без их заполнения относится подход, описанный в гл. 5 книги Э. Дидэ с соавторами «Методы анализа данных. Подход, основанный на методе динамических сгущений» (М.: Финансы и статистика, 1985), для кластер-анализа эталонного типа (обобщение алгоритма типа
|
1 |
Оглавление
|