7b. Численные методы для отыскания оценок условного максимального правдоподобия
Было предпринято несколько попыток использования стандартных процедур оптимизации для численного отыскания точек максимума функций
или
Однако такие попытки не увенчались особенным успехом в многомерном случае, в первую очередь из-за большой размерности задачи и связанной с этим ее сложности. В этих стандартных процедурах не используется вся наличная информация об оптимизируемой функции. Для итерационной оптимизации нужны градиентные методы или методы Ньютона — Рафсона, в которых учитывается частный вид функции потерь. Имеется ряд алгоритмов, зависящих от того,
максимизируется ли функция
или
и вычисляются ли градиенты с использованием непосредственно данных наблюдений или же преобразованных по Фурье наблюдений (Хеннан, 1969; Акаике, 1973). Мы опишем здесь один частный метод, который оказался очень успешным на практике. Другие варианты, такие как алгоритмы Дурбина (1959) и Уолкера (1962), обсуждаются в обзорных статьях Кашьяпа, Нэсбурга (1974) и Кашьяпа, Рао (1973).
7b.1. Один метод вычисления ...
Будем искать точку максимума функции
с помощью итераций. Пусть (
обозначает оценку для
на
итерации. Мы построим последовательность
сходящуюся к требуемой оценке (
С использованием оценки
полученной в конце
итерации, оценка
вычисляется в следующие два шага:
Шаг
Используя оценку
полученную на
итерации, вычислить последующую оценку
так, чтобы выполнялось
Для выполнения этого условия напомним выражение для
где
Поэтому локальная максимизация функции
относительно 0 эквивалентна локальной минимизации функции
относительно 0. Последняя операция выполняется итерациями методом Ньютона — Рафсона. Это дает следующее выражение для
где с — подходящая постоянная, например 1 или 0,5, и
Шаг (II). Используя
вычислить
максимизирующее
относительно
В результате получается
Шаги (I) и (II) определяют вычисления, необходимые для
итерации.
Чтобы вычислить производные
вначале получаем для них разностные уравнения, рассматривая разностное уравнение для
и дифференцируя его в зависимости от обстоятельств один раз или дважды по соответствующему элементу или элементам вектора 0. Например, пусть уравнение для
записывается следующим образом:
Тогда разностные уравнения для различных градиентов имеют вид
Аналогично можно записать также разностные уравнения для вторых производных. Уместно напомнить, что размерность
вектора 0 относительно велика даже в простых задачах. Например, для системы с
имеем
Вычисление вектора первых производных
включает вычисление
градиентов
для каждого
Подобным же образом, если мы не делаем упрощений или приближений, для определения
потребуется вычисление
вторых производных, являющихся элементами матриц
Ясно, что вычислительная задача становится трудной, если не принять упрощающих предположетий относительно матрицы вторых производных.
Теперь покажем, что первый член в
стремится к нулю, если
стремится к бесконечности и
Из уравнений
видно, что
зависят только от собственных прошлых значений и от
следовательно, они не зависят от
для всех
Первый
член в правой части
равен
Так как
не зависит от
вышеприведенное математическое ожидание равно нулю, если значение 0 не слишком удалено от
следовательно, можно пренебречь первым членом в правой части
Такая аппроксимация не приводит к затруднениям при обращении соответствующей матрицы, поскольку второй член в правой части
есть положительно определенная матрица вне зависимости от выполнения равенства
Далее, эта аппроксимация не должна приводить к затруднениям при осуществлении метода Ньютона — Рафсона, поскольку, как известно, алгоритм Ньютона — Рафсона работает удовлетворительно, даже если значения вторых производных известны только приближенно. Таким образом, алгоритм Ньютона — Рафсона в
можно записать в следующей форме, не содержащей вторых производных
:
где
соответственно
Таким образом, мы избегаем вычисления
вторых производных
для всех
Требуемый алгоритм содержится в уравнениях
и кратко излагается ниже.
Алгоритм. (I) Начать итерации с пары
которая либо выбирается произвольно, либо получается относительно простым способом типа метода наименьших квадратов или рекуррентного метода наименьших квадратов (Кашьяп, Нэсбург, 1974).
(II) Используя величину
получаемую в результате
итерации, вычислить величины
методами Фурье или методами во временной области (описанными в п. 7b.2). (III) Получить
по формулам
(IV) Остановить итерационный процесс, если абсолютные значения разностей между оценками 0 на последовательных итерациях меньше, чем заранее заданное малое число. Или же итерационный процесс заканчивается, если абсолютное значение суммы компонент вектора производных
меньше, чем заданное малое число.
Замечание. Все градиентные или связанные с ними методы очень чувствительны к выбору начальных значений оценок в итерационном процессе, т. е. градиентные процедуры сходятся к истинной точке минимума только тогда, когда начальные значения
Таблица 7.b.1.1. (см. скан) Результаты применения алгоритма максимизации функции
оценок не «слишком далеки» от истинных значений. Не является исключением из этого общего правила также и вычислительная процедура получепия оценок максимального правдоподобия. Проиллюстрируем это явление на примере одного смоделированного процесса.
Пример
Пусть процесс
является процессом скользящего среднего:
где
последовательность независимых случайных
-величин. Это уравнение моделировалось на цифровой вычислительной машине и были прогенерированы 150 наблюдений
Эти наблюдения использовались для определения оценок максимального правдоподобия посредством вычислительной процедуры, описанной в данном пункте. Для алгоритма выбирались различные начальные значения, и алгоритмическая процедура заканчивалась, когда абсолютное значение изменения оценки при переходе от одной итерации к последующей было меньше, чем 0,001 (т. е. выполнялось условие
для каждого
). В большинстве случаев процедура сходилась к правильному результату. Однако в табл. 7b.1.1 отражено несколько случаев, когда процедура либо вообще не
сходилась, либо сходилась к ошибочному значению. В таблице приведены конечные значения оценок на последней итерации перед окончанием процедуры, начальные значения и число итераций до окончания процедуры. В случае 5 процедура расходится, т. е. абсолютное (числовое) значение одной из оценок осциллирует. В случае 4 процедура сходится к ошибочному значению. Начальным значением в случае 1 служит оценка, даваемая рекуррентным алгоритмом Панушки (1969). Отметим, что для сходимости в этом случае требуется наименьшее число итераций.
В заключение можно констатировать, что, наверное, целесообразно вычислять оценки максимального правдоподобия для более чем одного начального значения в итерационной процедуре, чтобы устранить возможность получения ложных точек экстремума.