18.5. Основные типы данных и методы, используемые в разведочном анализе данных
РАД применяется к данным, заданным в одной из следующих форм: матрица данных (МД) типа «объект — признак» с переменными, измеренными в количественных шкалах (МДК);
МД с переменными, измеренными в ординальной шкале (МДО);
МД с переменными, измеренными в номинальной шкале (МДН);
МД с переменными, измеренными в шкалах разной природы (гетерогенная МД, МДГ);
таблица данных типа «объект — объект» (будем рассматривать только случай матрицы расстояний (МР)); таблица сопряженностей (ТС).
Процедуры статистической обработки, используемые в РАД, могут быть разбиты на следующие группы в зависимости от целей анализа и типа обрабатываемых данных.
1. Вычисление основных статистических характеристик для матрицы типа МДК [101.
2. Преобразования переменных для МДК с целью линеаризации связей и (или) «нормализации» данных симметризации (см. § 18.3).
3. Преобразование переменных (оцифровка) для МДК, МДО, МДН, МДГ по различным критериям (см. § 17.4, 18.3).
4. Сокращение размерности данных с помощью линейных отображений: главные компоненты (ГК) (см. гл. 13), целенаправленное проецирование (гл. 19).
5. Нелинейные методы отображения данных типа МДК, МДО, МДН, МДГ (последние три матрицы в метрике Хемминга) (см. гл. 13).
6. Метрическое шкалирование для матриц типа МР (см. гл. 16).
7. Множественный анализ соответствий для МДО, МДН и МДГ, ТС (см. гл. 17).
8. Классификационные методы: кластер-анализ для таблиц МДК, МДО, МР, МДН, разделение смесей распределений, дискриминантный анализ (см. гл. 6—12).
9. Типологический анализ главных компонент (см. гл. 7). Анализ древообразной структуры зависимостей для МДК (см. гл. 2).
10. Кластер-анализ переменных МДК, МДО, МДН, МДГ, ТС. Пошаговый метод анализа структуры зависимостей переменных для МДО, МДН, ТС.
11. Анализ регрессионных зависимостей (метод целенаправленного проецирования, линейная модель) (см. гл. 19).