19.7. Регрессия на основе целенаправленного проецирования
Пошаговая аддитивная процедура аппроксимации функции регрессии. Подход для аппроксимации функции регрессии с использованием ЦП предложен в работе [229].
Пусть имеется выборка объема
из
-мерного распределения вектора Y и необходимо восстановить функцию регрессии
компоненты на
первых компонент вектора. Далее для упрощения формул будем употреблять обозначение у вместо
для вектора, составленного из
первых компонент вектора Y. Предположим, что функцию регрессии можно представить в виде
(19.46)
где
— неизвестные функции:
— неизвестные векторы; q — число проекций, которое также неизвестно.
Уравнение (19.46) может рассматриваться как развитие обобщенной линейной модели [121.
Вычислительная процедура состоит в следующем.
На первом шаге ищут такую функцию
и вектор
чтобы
(19.47)
Этот поиск осуществляется следующим образом. Задавая некоторую проекцию
ищут непараметрическую оценку функции
например с помощью сплайн-аппроксимации, минимизирующую
. Далее при фиксированной функции
ищут новый вектор
Затем снова настраивается функция
и т. д. до тех пор, пока значение
не стабилизируется. После этого от величин
переходят к остаткам
Поиск вектора
и функции
проводится теперь из условия минимизации величины
описанным выше способом.
Данный процесс итерируется до тех пор, пока остаточная сумма квадратов
для некоторого q не станет меньше порогового значения. Доказано [6311, что регрессия в форме (19.46) точно восстанавливает истинную функцию регрессии, если последняя имеет вид полинома некоторой степени от компонент X. В качестве примера в [229] рассмотрен случай, когда
и истинная зависимость между у и
имеет вид
Тогда легко проверить, что
за
точно восстанавливают функцию регрессии.
Этот же пример использован и для иллюстрации работы предлагаемого алгоритма при наличии выборки.
Другие возможные подходы. В отличие от работы [229], где делается попытка прямой аппроксимации функции регрессии, будем искать подпространство
для которого достигает максимума значение ПИ:
(19.48)
где
— плотность совместного распределения случайных величин
маргинальная плотность распределения только
— маргинальная плотность распределения у, — матрица ковариаций
ПИ (19.48) инвариантен относительно линейных преобразований Z, поэтому без ограничения общности можно считать, что компоненты вектора Z некоррелированы, В случае махаланобисовой метрики в пространстве
это эквивалентно обычной попарной ортогональности векторов
поэтому без ограничения общности можно считать, что
.
ПИ (19.48) является мерой расхождения модели «случайная величина у независима от Z» с ситуацией, имеющей место на самом деле. Максимизируя (19.48), ищут подпространство, где это расхождение максимально, т. е. такое, где у наиболее сильно зависит от