3. Если движение в итерационной процедуре уточнения значений оценок параметров осуществляется непосредственно в направлении антиградиента, то процедуру относят к алгоритмам градиентного спуска. Подобные алгоритмы обеспечивают (при определенных ограничениях на минимизируемую функцию) сходимость последовательности
со скоростью геометрической прогрессии (линейная сходимость). Из-за того, что реальная скорость сходимости таких алгоритмов резко снижается при приближении
к предельному значению 0, градиентный спуск целесообразно применять лишь на начальных этапах минимизации, используя найденные в результате сравнительно небольшого числа итераций величины
в качестве начальных приближений для более сложных методов, обладающих большей скоростью сходимости.
4. В методе Ньютона значения неизвестных параметров на каждой следующей итерации
находятся из условия минимума квадратичного полинома, аппроксимирующего исходную критериальную функцию в окрестности точки
При этом соответствующая процедура будет менее чувствительна к выбору начального приближения (в частности, будет менее подвержена эффекту «раскачки» при его неудачном выборе), если использовать ее вариант с регулировкой шага. При определенных условиях метод Ньютона обеспечивает квадратичную скорость сходимости последовательности
к
.
5. Используя линейную (по параметрам) аппроксимацию исследуемой функции регрессии в окрестности точки
можно прийти к модификации метода Ньютона — методу Ньютона—Гаусса. Он существенно проще в вычислительном плане, однако бывает слишком чувствительным к эффекту слабой обусловленности используемых в нем матриц
Скорость сходимости этого метода в зависимости от условий, накладываемых на регрессионную функцию и свободные параметры алгоритма, может быть линейной, сверхлинейной или квадратичной.
6. Существенным недостатком методов квазиградиентного типа, в том числе метода Ньютона, метода Ньютона—Гаусса и других, является необходимость подсчета производных от искомых регрессионных функций на каждой итерации. Основная идея, на которую опираются методы, позволяющие обходиться без подсчета производных, заключается в использований на
итерации информации, полученной на предыдущих s итерациях, для построения разумных аппроксимаций для элементов матриц, определяющих выбор направления и шаг движения к решению
.
7. Первостепенное значение для скорости сходимости используемых итерационных процедур решения оптимизационной задачи метода наименьших квадратов имеет удачный выбор начального приближения
. Для реализации этого выбора используется ряд приемов: «поиск на сетке» (п. 9.6.1), вспомогательное преобразование (линеаризующее) модели (п. 9.6.2), разбиение Имеющейся выборки на подвыборки (п. 9.6.3), разложение регрессионной функции в ряд Тейлора (п. 9.6.4).
8. При вычислительной реализации метода наименьших квадратов в нелинейном (по оцениваемым параметрам 0) случае приходится исследовать вопросы существования и единственности решения. Необходимо помнить, что используемые (в том числе все описанные выше) методы оптимизации приводят в лучшем случае лишь к локальному минимуму критериальной функции. Проверка того, является ли этот минимуму глобальным, является следующей, зачастую не менее трудоемкой, вычислительной операцией.