Главная > Линейная и нелинейная регрессии
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

4.4. Метод группировки

Этот метод был впервые предложен А. Вальдом для случая парной регрессии [193]. Суть его заключается в том, что наблюдения разбиваются на две группы, а оценкой регрессии является прямая линия, проходящая через центры групп. Итак, допустим

Схема (4.28) соответствует общей схеме (4.1) для со свободным членом Разобьем пар наблюдений на две группы число элементов группы обозначим через через Найдем центры этих групп:

Соединим центры прямой; угловой коэффициент этой прямой берем в качестве оценки метода группировки свободный коэффициент прямой оценка параметра (рис. 4.3). Очевидно, В дальнейшем будем интересоваться только оценкой

углового наклона В [193] доказано, что если группировка не зависит от ошибок и

где

то оценка состоятельна. Доказательство весьма простое. Ниже мы его проведем для более общего случая. А. Вальд построил доверительные интервалы для параметра [1931.

Рис. 4.3. Оценка Вальда,

М. Бартлетт, например, предложил вместо двух групп рассмотреть три [81]. Он разбивает пар наблюдений на три группы: с соответственным числом элементов В качестве оценки Бартлетт рассмотрел

Обозначим числитель (4.30) через знаменатель — аналогично

легко проверить, что Докажем, что при условии (4.29) оценка состоятельна. Для этого покажем, что

Поскольку в разных группах независимы, то

если при Далее, если предел в знаменателе не равен нулю, т. е. если

что совпадает с условием (4.29) для двух групп. Условие (4.31) означает, что средние х для разных групп должны быть асимптотически различимы. Интуитивно понятно, что в противном случае информация основывалась бы только на случайных ошибках и ожидать состоятельности трудно.

Условия (4.31) и независимость при разбиениях на группы — довольно жесткие условия. Например, разбиение на группы не может быть случайным: условие (4.31) при этом нарушится. Формально нельзя воспользоваться разбиением на группы после ранжирования так как при этом будут зависимыми

Оптимальному выбору групп разбиения посвящен ряд работ 1110, 190, 155]. Авторы их сходятся на том, что оптимальным разбиением является разбиение на три равные группы. Приведем табл. 4.3 из [155].

Способ группировки, основанный на ранжировании, предложен в [166], где рассмотрена структурная схема, т. е. случайны, причем одинаково распределены имеет функцию распределения Итак, пусть ранжированы; авторы предлагают две оценки для Первый метод: допустим, известны такие два числа что Определим две группы следующим образом:

Оценка при таком разбиении приводит нас к оценке Второй метод: пусть заданы два положительных числа

Таблица 4.3 (см. скан)


Группы определяются следующим образом:

Соответствующую оценку обозначим В [166] доказаны следующие теоремы о состоятельности оценок

Теорема 4.2. Пусть такие, что Тогда состоятельна тогда и только тогда, когда

Теорема 4.3. Пусть и -квантили распределения Тогда состоятельна тогда и только тогда, когда

Как видно из теорем, основным условием состоятельности оценок является ограниченность ошибок и истинных значений Эти условия не выполняются, когда ошибки распределены по нормальному закону.

В [177] предлагается групповая оценка МНК. Для ее нахождения выборку разбивают на группы, для каждой группы находят среднюю, а затем, используя эти средние, находят оценку МНК. Очевидно, разбиение на две группы приводит к оценке Вальда. В той же работе приводится плотность распределения групповой оценки МНК, эта плотность совпадает с плотностью обычной оценки МНК.

В статье С. А. Айвазяна и И. М. Богдановского [2] также рассматривается случай оценивания парной зависимости (4.28), однако их условия ограничительны. Так, требуется, чтобы истинные значения были упорядочены: оценки дисперсий и известны независимо от схемы (4-28), разброс ошибок был меньше разности В этих условиях доказывается асимптотическая нормальность оценки метода группировки, на основе которой строятся доверительные интервалы и проверяются статистические гипотезы.

Нетрудно обобщить метод группировки на общий случай множественной регрессии.

Метод группировки для многомерного случая. Допустим, аххп Разобьем векторов на групп Пусть число элементов группы равно Найдем центр каждой группы: Проведем через точки в пространстве гиперплоскость Векторы принадлежат этой плоскости, поэтому

Обозначим — первый вектор-столбец матрицы Тогда есть оценка метода группировки.

Найдем оценку метода группировки для регрессии-примера (1.5). Для этого 15 наблюдений разобьем на 4 группы. Пусть в первую группу войдут первые четыре наблюдения, во вторую — вторые четыре, в третью — третьи четыре, в четвертую — последние три наблюдения. Матрица С и вектор с при таком разбиении будут следующими:

Оценка группового метода для равна (0,229; 1,49; 4,93), оценка т. е.

Оценка группового метода отличается от оценки МНК. Каковы основные преимущества и недостатки группового метода? Преимущества два: 1) простота, 2) при некоторых условиях разбиения этот метод дает состоятельные оценки. Однако групповой метод имеет один серьезный недостаток: эффективность его резко зависит от разбиения наблюдений на группы. В частности, не любое разбиение ведет к состоятельным оценкам.

Для того чтобы разбиение было эффективным, необходима дополнительная априорная информация о значениях

Рис. 4.4. Пример неудовлетворительного разбиения на группы

На рис. 4.4 показана ситуация плохого разбиения: полученная прямая при таком разбиении, очевидно, является неудовлетворительной.

Иногда, в особенности для временных рядов, реальным является наличие в ряде тренда. В этом случае априорная информация заключается в том, что ряд «в среднем»

можно считать монотонным. Удовлетворительным тогда является следующее разбиение:

пытаясь быть строгими в рассуждениях, покажем, что если возрастают с большой вероятностью, то условие состоятельности (4.31) при указанном разбиении на группы выполняется. В силу возрастания ряда для каждого поэтому приблизительно

и условие (4.31) заведомо выполняется.

Упражнения 4.4

(см. скан)

1
Оглавление
email@scask.ru