§ 5. Восстановление регрессии в классе полиномов
Задача определения числа членов разложения по ранжированной системе функций является одной из центральных в теории регрессии.
Частная ее постановка составляет задачу восстановления полиномиальной регрессии. Суть задачи заключается в следующем: пусть статистическая модель, связывающая величину у с переменной х, есть
где полином неизвестной степени, помеха, не зависящая от х, математическое ожидание которой равно нулю, а дисперсия ограничена.
Требуется, наблюдая пары
восстановить полином близкий к Близость понимается в смысле метрики
где та же самая плотность, согласно которой выбирались значения х.
Существует традиционный путь решения этой задачи: сначала определить степень искомого полинома а затем в классе функций, разложимых по системе ортонормальных с весом полиномов, восстановить регрессию. Таким образом, основное содержание проблемы здесь сводится к определению степени полиномиальной регрессии.
Определение степени полиномиальной регрессии осуществляется с помощью стандартных приемов математической статистики. Наиболее просто реализуются эти приемы в схеме Гаусса—Маркова, т. е. в условиях, когда величины х фиксированы (см. § 2 гл. V). Пусть они равны В этом случае, не ограничивая общности, будем считать, что функция разложима по системе ортонормальных на полиномов
Система ортонормальных полиномов замечательна тем, что с ее помощью регрессия может быть представлена в виде
где
Оценка параметров вычисленная с помощью метода наименьших квадратов, оказывается равной
Таким образом, проблема определения степени регрессии заключается в том, чтобы на основании информации о величинах
где невязка (величина минимума эмпирического риска), вычисленная для полиномов степени также распределена согласно х-распределению Фишера.
Таким образом, в случае нормально распределенной помехи используя невязки вычисленные для полиномов степени можно с помощью -критерия Фишера (8.34) установить степень полиномиальной регрессии.
Однако классическая схема восстановления полиномиальной регрессии — выяснение истинной степени регрессии и приближение к регрессии в классе полиномов этой степени приводит к успеху лишь при использовании больших выборок. Только для достаточно больших объемов выборки можно утверждать, что наилучшее приближение будет достигнуто на функции, минимизирующей эмпирический риск в классе полиномов, степень которых равна истинной степени регрессии. Для малых выборок вопрос о том, какова наиболее подходящая степень приближения, остается открытым.
Ниже мы применим метод упорядоченной минимизации для решения этой задачи, но прежде, чем приступить к построению соответствующих алгоритмов, обратим внимание читателя на то, что по существу задача будет решаться в более общей постановке, чем классическая. Мы не будем полагать, что регрессия есть полином — она может быть любой интегрируемой с квадратом функцией но приближать регрессию будем полиномом. Требуется в этих условиях отыскать подходящее приближение.
Итак, будем решать задачу методом упорядоченной минимизации риска. Для этого зададим структуру на множестве полиномов. Заметим, что уже в самой постановке задачи содержится указание на особенность задания! структуры
Множество состоит из полиномов, степень которых не превосходит Такое упорядочение полиномов является «естественным» (но не единственьым). Оно соответствует упорядочению по числу членов разложения ряда,
составленного из элементов
расположенных в порядке возрастания степени . Однако возможен другой порядок расположения элементов ряда, например следующий:
Упорядочение полиномов в соответствии с разложением по первым членам ряда (8.37) приведет к иному заданию структуры на множестве полиномиальных зависимостей.
Итак, рассмотрим структуру (8.35), заданную разложением по первым членам ряда, ранжированного согласно (8.36).
Пусть, кроме того, известно, что выполнено ограничение
Тогда, согласно теореме 7.6, с вероятностью одновременно для всех полиномов степени (всех полиномов принадлежащих выполнится неравенство
Неравенство (8.38) выполняется и для полинома минимизирующего на эмпирический риск.
Выберем в качестве приближения к регрессии функцию, минимизирующую эмпирический риск на таком элементе структуры для которого достигается минимум правой части оценки (8.38).
Пусть минимум достигается на функции а и равен Тогда справедливо утверждение
Использование метода упорядоченной минимизации риска для восстановления полиномиальной регрессии в условиях малой выборки весьма эффективно на практике.
Рис. 6.
На рис. 6 показан результат восстановления регрессии, заданной полиномом пятой степени на отрезке Восстановление проводилось по измерениям функции, осуществленным в 20 случайно взятых точках интервала Измерение осуществлялось с помехой, распределенной равномерно на интервале , где а — максимальное значение регрессии на интервале На рисунке показаны эмпирические данные (крестики) и регрессия (жирная кривая). Наилучшее приближение в классе полиномов пятой степени — белые точки, кривая 1, приближение, полученное методом упорядоченной минимизации риска — полином четвертой степени, черные точки, кривая 2. Видно, что кривая 2 лучше приближает регрессию,
чем кривая 1. На рис. 7 приведен пример восстановления неполиномиальной регрессии (жирная линия) в классе полиномов (тонкая линия) по 20 измерениям (крестики).
Рис. 7.
Функции восстанавливались с помощью алгоритма 12-1, приведенного в глаъе XII.