Главная > Статистический анализ данных с пропусками
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

9.2. МЕТОДЫ АНАЛИЗА ДАННЫХ С ПРОПУСКАМИ В ОБЩЕСГАТИСГИЧЕСКОМ ПАКЕТЕ

В данном разделе описывается примерный набор методов обработки данных с пропусками, которые целесообразно включать в настоящее время в общестатистические пакеты, исходя из современного уровня их развития и обоснованности. Совокупность описанных ниже функций близка к набору методов, реализованных в диалоговой системе статистического анализа данных с пропусками Центра статистических методов и информатики.

Для каждого метода указывается один или более приемлемых способов обработки пропусков, а также соответствующие условия на распределение пропусков. Используются следующие сокращения: АКН - анализ комплектных наблюдений, ПМ - парный метод. Если не оговаривается особо, то условием на распределение пропусков для АКН и ПМ является условие ОПС, а для ЕМ-алгоритма — условие ОС.

1. Работа с данными. Ввод и редактирование данных с пропусками. Возможность удаления значений и восстановление «стертых» значений. Удаление по условию. Стандартные средства манипулирования данными.

2. Проверка случайности пропусков и исследование распределения пропусков. Простейшие методы проверки по одномерным распределениям. Проверка условий ОПС и ОС с помощью условных

многомерных перестановочных критериев по статистикам типа Колмогорова-Смирнова, омега-квадрат, с помощью критерия отношения правдоподобия для многомерного нормального распределения. Проверка гипотез о равной вероятности пропусков в переменных и о зависимости между пропусками в различных переменных.

3. Статистика одномерных случайных величин. Вычисление выборочных характеристик (среднего арифметического, дисперсии, коэффициента вариации, размаха), их погрешностей (ошибки среднего, дисперсии, коэффициента вариации и т. д.), доверительных границ. Проверка нормальности. Непараметрический одномерный анализ (вычисление медианы, квантилей, межквартильного расстояния, моды). Робастные оценки характеристик. Построение гистограммы и оценки функции распределения. Парзеновская оценка плотности.

Проверка однородности двух независимых выборок с помощью критериев Крамера-Уэлча, Стьюдента, обобщенного критерия Смирнова. Обнаружение эффекта воздействия (проверка однородности двух связанных выборок): критерий Стьюдента, непараметрические критерии знаков, критерий Смирнова симметрии распределения и другие.

Способ обработки пропусков — исключение пропусков из выборки (при проверке однородности двух связанных выборок — исключение пары, в которой отсутствует хотя бы одно из наблюдений). Условия на распределение пропусков зависят от вида анализа: для большинства параметрических задач игнорировать пропуски допустимо в общем случае лишь при ОПС (или ОС, что эквивалентно в одномерном случае при независимых наблюдениях). Для непараметрического анализа условия слабее. Так, при точечном и доверительном оценивании медианы достаточно равенства вероятностей пропуска относительно точки при проверке однородности — одинакового распределения пропусков в выборках (условие (13)).

4. Проверка однородности двух независимых многомерных выборок с помощью критериев Хотеллинга, Беннета [см. Андерсон (1963)] (метод обработки пропусков — АКН), отношения правдоподобия (для этого критерия вычисления основаны на ЕМ-алгоритме).

Проверка гипотез о значении среднего многомерного нормального распределения с помощью критериев Хотеллинга (АКН) и отношения правдоподобия (используется соответствующий вариант ЕМ-алгоритма). Проверка однородности двух связанных многомерных выборок с помощью этих критериев (при этом в каждой паре наблюдший вычисляются разности значений только для одновременно присутствующих переменных, в противном случае разность считается пропуском).

Проверка однородности нескольких многомерных выборок с помощью непараметрических критериев (см. раздел 5 дополнения, условие (13)).

5. Оценка матрицы парных (АКН, ПМ, ЕМ-алгоритм) и частных (АКН, ЕМ-алгоритм) коэффициентов корреляции, коэффициентов Кендалла и Спирмена (ПМ). Проверка гипотез о значении коэффициентов корреляции: парных (АКН, ПМ), частных (АКН). Проверка независимости двух случайных величин по коэффициентам корреляции Кендалла и Спирмена (условия (18)).

6. Регрессионный анализ. Множественная линейная регрессия, нелинейная регрессия, непараметрическая регрессия, многофакторный дисперсионный анализ (оценивание — АКН, ЕМ-алгоритм; проверка гипотез — АКН).

7. Классификация. Линейный дискриминантный анализ АКН, ЕМ-алгоритм). Кластер-анализ (метод обработки пропусков описан в конце раздела 7). Анализ смесей распределений (ЕМ-алгоритм). Метод к ближайших соседей (для этого метода возможны, например, такие подходы. В первом поиск ближайших соседей ведется среди тех объектов обучающих выборок, у которых присутствуют все переменные, имеющиеся у классифицируемого объекта из контрольной выборки, во втором — только среди тех объектов обучающих выборок, у которых структура пропусков такая же, как у данного классифицируемого объекта. При условии ОПС качество первого классификатора, естественно, будет выше, в то время как второй подход применим при следующем слабом условии на распределение пропусков: пропуски не зависят от класса (можно построить разумный классификатор, отказавшись даже от этого условия), в остальном распределение произвольно.)

8. Снижение размерности и визуализация данных. Факторный анализ (АКН, ЕМ-алгоритм), метод главных компонент, проекции на плоскость любых главных компонент (АКН). Диаграммы рассеивания (ПМ). Двумерное шкалирование (метод обработки пропусков описан в конце раздела 7).

1
Оглавление
email@scask.ru