10.3.4. Гребневая регрессия и регрессия по Марквардту
В процессе работы итеративного алгоритма возможны три ситуации на уровне каждого класса:
матрица
некоторого класса необратима, поскольку число индивидуумов меньше числа объясняющих переменных;
матрица
плохо обусловлена, что может быть, когда число индивидуумов незначительно больше числа объясняющих переменных. Оценки в этих случаях плохи тем, что их дисперсии велики;
матрица
хорошо обусловлена (обратима) и параметры можно оценивать по классическому методу наименьших квадратов.
Чтобы получить решение в первых двух случаях, мы пользуемся методом гребневой регрессии и псевдообращением. В дальнейшем мы предполагаем, что объясняющие переменные центрированы и нормированы, равно как и переменная, которую надо объяснить.
Гребневая регрессия [11], [3], [4]. В случае неортогональных объясняющих переменных матрица корреляций «далека» от единичной матрицы.
Вектор оценок, получаемый по методу наименьших квадратов, имеет, как правило, завышенную норму, а компоненты его могут иметь даже неправильный знак. В самом деле, пусть модель имеет вид
Метод наименьших квадратов дает оценку
Вычислим расстояние между
и
поскольку
Итак,
откуда
Следовательно,
Пусть
собственных значений матрицы
тогда
собственные значения обратной матрицы
Следовательно,
и если
Если близко к нулю, то расстояние между
велико, качество оценивания плохое. Тем не менее можно улучшить качество оценки, если отказаться от поиска решения по методу наименьших квадратов в пользу решения, гарантирующего меньшие значения
Чтобы решить эту задачу, мы сейчас введем понятие гребневой регрессии. Для избежания искаженного восстановления объясняемой переменной в гребневой регрессии ставится дополнительное условие, чтобы вектор
имел не слишком большую норму. Вектор
ищут из условия
где а фиксировано априори.
Согласно методу Лагранжа эта задача эквивалентна поиску вектора, минимизирующего функционал
где
множитель Лагранжа. Дифференцируя по
получаем Для экстремального вектора
уравнения
Таким образом,
и
где x находится из условия
Предложение 7. Для каждого
матрица
обратима, и поэтому вектор
определяется однозначно. Матрица
лучше обусловлена, чем
каждое ее собственное значение на х больше соответствующего собственного значения матрицы
Доказательство. Положим
Имеем
где
матрица, составленная из ортонормированных собственных векторов,
— диагональная матрица собственных чисел матрицы А. С учетом того, что
получаем
Следовательно, собственные вектора матрицы
являются собственными векторами матрицы
диагональная матрица собственных чисел матрицы
Так как
неотрицательно определенная матрица, ее собственные числа
неотрицательны, и поэтому собственные числа
и матрицы
положительны для любого
т. е. для любого
матрица
регулярна.
Предложение 8. Ковариационная матрица оценок параметров имеет вид
Доказательство. Пусть
оценка по методу гребневой регрессии и
оценка по методу наименьших квадратов. Имеем
откуда
Но
следовательно,
Определение величины х. Для определения величины х можно использовать итерационный процесс, в котором вектор
оценивается последовательно для различных значений
;
Останавливаются, как только значения оцениваемых коэффициентов стабилизируются, т. е. когда для каждой компоненты вектора
относительное приращение, соответствующее изменению х, становится
меньше фиксированного порога. Эта процедура полезна, когда заранее не знают, какое значение придать а. Она оправдана тем, что норма
является убывающей функцией в положительной части окрестности нуля и тем, что минимум ее достигается для положительного значения х (см. [3], [4]).
Псевдообращение. Согласно Марквардту оценка регрессии методом псевдообращения особенно интересна в случае, когда одно или несколько собственных значений корреляционной матрицы равны нулю; гребневая регрессия более приспособлена к случаю, когда собственные значения этой матрицы близки к нулю.
Напомним метод вычисления псевдообратной матрицы, при котором используется вычисление собственных значений. Положим, как и выше,
Пусть
диагональная матрица упорядоченных собственных значений
матрица соответствующих ортонормированных собственных векторов матрицы А. Имеем
где
Предположим, что А имеет ранг
так что последние
диагональных элементов
равны нулю. Положим
где
-матрица,
-матри-ца,
где
и
-диагональные матрицы. Если
то по определению
откуда
или
где
собственный вектор матрицы А, соответствующий собственному значению Для выбора
можно использовать следующий критерий.
Проверяют величину Если
где, например, со
то полагают
если нет, то сравнивают
с
Если
то полагают
противном случае продолжают итерации. На
шаге, если
то
если нет, то переходят к шагу
Геометрическая интерпретация определения псевдообратной малицы по Марквардту. Пусть А — квадратная
-матрица ранга для которой хотят найти псевдообратную. Пусть
эндоморфизм пространства задаваемый матрицей А. Рассмотрим
Ограничение
на
в ортонормированном базисе, порожденном первыми
собственными векторами
записывается с помощью матрицы
в этом базисе является на
обратным
преобразованием
ограничение которого на
есть эпиморфизм. Таким образом,
совпадает с преобразованием
из
записанным в исходном базисе пространства
Для задания оператора
на всем
следует иметь в виду, что поскольку
то
можно продолжить на все
как композицию
(ортогональная проекция на
и тогда
Итак, оператор А у является псевдообратным к
откуда получаем следующий результат.
Предложение 9. Когда матрица X имеет неполный ранг, метод Марквардта дает решение по методу наименьших квадратов, ортогональное к
(аффинному многообразию решений
если вектор
фиксирован, иначе говоря, единственное решение с минимальной нормой, отыскиваемое методом гребневой регрессии при варьировании х.
Доказательство. В самом деле,
есть прообраз при отображении
ортогональной проекции вектора
на
векторное подпространство в
размерности
Аффинное многообразие
параллельно подпространству
поскольку
и имеет ту же размерность
так как
Итак,
следовательно,
Практический способ выбора
Выбор параметра
сводится к анализу главных компонент на строках массива X, т. е. на сгущении из
векторов объясняющих переменных
я. В качестве объясняющих переменных оставляют лишь
первых факторов (или главных компонент), критерий, по которому отбрасывают
последних факторов, основан на доле инерции, объясняемой множеством отброшенных факторов. Этот метод, следовательно, родственный методам ортогональной регрессии.
Предложение 10. Матрица ковариаций решения по методу Марквардта равна:
Доказательство. Имеем
и если
решение по методу наименьших квадратов
то
и
Поскольку
то
Замечание о сходимости алгоритма. Сходимость алгоритма, как правило, имеет место. Она может нарушаться, по-видимому, только в том случае, когда применяют операции псевдообращения по Марквардту к матрице
класса
ранг которой больше
и если уменьшение остаточных дисперсий в других классах не компенсирует возрастание остаточной дисперсии в этом классе
Выбор конкретного псевдообращения или оценки гребневой регрессии для одного или нескольких классов во время одной итерации влияет посредством функции назначения на строение следующего разбиения. Возможно, что выбор другого псевдообращения позволит получить лучший локальный минимум.