18.3. Преобразования данных в разведочном анализе данных
В данном параграфе речь идет о нелинейных преобразованиях исходных данных, представленных в виде матрицы «объект — признак». Нелинейные преобразования могут быть использованы в РАД: а) для линеаризации зависимостей между переменными, б) для упрощения структуры данных.
Линеаризация зависимостей между переменными. Цель использования таких преобразований состоит в переходе к новому набору переменных, зависимость между которыми является, возможно, более близкой к линейной. Если такое преобразование удается найти, то дальше к новой матрице данных можно с большим основанием применять такие линейные статистические методы, как главные компоненты, факторный анализ, линейную регрессию и т. д.
Будем рассматривать только преобразования вида
где
— функции из некоторого класса допустимых функций Ф.
В качестве критерия, по которому ищется преобразование, можно использовать, например, критерий
аналогичный критерию (17.30). Получить приближенное решение можно, если переменные
предварительно градуировать (область значения переменной
разбить на градаций) и дальше использовать алгоритм из § 17.3.
Естественно, после градуирования для получения преобразований
можно использовать и множественный анализ соответствий.
Дальше, в § 19.6, будет необходим случай максимизации (18.5), когда число переменных
Из регрессионного анализа известно [12, гл. 5], что, когда имеются две случайные величины
и наилучшим, в смысле средней квадргплческой ошибки, регрессором вида
для случайной величины
(т. е. для регрессии вида
)
будет условное математическое ожидание этой случайной величины при
и, следовательно, функция
имеет максимальный коэффициент корреляции с
. Аналогично верно и для регрессии
на
Поэтому функции
должны удовлетворять уравнениям
Константы с, и
не влияют на коэффициент корреляции. Кроме подхода, связанного с предварительным градуированием переменных, можно использовать и некоторые семейства монотонных преобразований, например преобразования Бокса — Кокса [196]:
или более обширное двухпараметрическое семейство
Коэффициенты корреляции
являются теперь функциями от
и задача (18.5) есть задача максимизации по этим параметрам.
Упрощение структуры данных. В этом случае стремятся получить преобразования, после применения которых распределение становится максимально похожим на многомерное нормальное. Используется некоторый класс преобразований, например (18.17), (18.8), но параметры
и
оцениваются уже не на основе максимизации критерия (18.5), а при максимизации функции правдоподобия.
Рассмотрим случай преобразования (18.7). Если предположим, что векторная случайная величина
подчинена многомерному нормальному распределению
, то для функции правдоподобия имеем следующее выражение:
где
;
— число объектов;
- якобиан преобразования.
Оценки параметров
получаются из решения задачи
Можно использовать и логарифм функции правдоподобия.