3.2.2. Определение степени полиномиального тренда

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

3.2.2. Определение степени полиномиального тренда

Из теории наименьших квадратов известно, что является несмещенной оценкой для несмещенной оценкой для . Дисперсия оценки равна

а сами величины некоррелированы. Будем предполагать, что у. нормально распределены. При этом независимы и нормально распределены, а отношение имеет распределение степенями свободы и не зависит от так что можно использовать обычные критерии и доверительные интервалы. Например, при проверке гипотезы против альтернативы с уровнем значимости 8 нулевая гипотеза отвергается, если

где

-двусторонняя -процентная точка -распределения с степенями свободы. Нулевая гипотеза здесь состоит в том, что полином, о котором известно, что его степень не больше на самом деле имеет степень меньшую, чем Указанный критерий для проверки гипотезы в предположении нормальности является наилучшим при уровне значимости 8 в следующем смысле. Он является: равномерно наиболее мощным несмещенным критерием; равномерно наиболее мощным инвариантным критерием (инвариантным относительно преобразования изменения масштаба и сдвигов ; равномерно наиболее мощным критерием, имеющим мощность, зависящую только от равномерно наиболее мощным симметричным (относительно подобным критерием; равномерно наиболее мощным подобным критерием с мощностью, зависящей только от (т. е. не зависящей от знака [См. Леман (1959, гл. 5, разд. 2) и упр. 11 из гл. 6)].

Часто исследователь не знает заранее, какой степени полином следует подбирать. Поэтому он не просто интересуется тем, является ли степень полинома величиной, не превосходящей некоторого натурального числа а стремится выбрать подходящую степень полинома среди некоторого множества возможных степеней. При этом определенные преимущества имеет выбор полинома более низкой степени. График его более гладкий, проще допускаемое толкование, более экономична запись функции. Однако если среднее значение наблюдаемой переменной плохо описывается полиномом низкой степени, то исследователь может оказаться вынужденным использовать полином более высокой степени. (В терминах статистики недостатком выбора слишком низкой степени является наличие смещения при оценивании тренда, а недостатком выбора слишком высокой степени — большая вариабельность при оценивании тренда.) Будем предполагать, что существует некоторое число (возможно, что ), которое является минимально возможной степенью полинома, и что степень полинома не может превосходить некоторого допуская при этом, что исследователь имеет какую-то априорную информацию подобного рода.

Таким образом, исследователь сталкивается с задачей со многими решениями. Именно, он должен решить, равна ли степень полинома или Мы формализуем эту задачу, считая, что необходимо решить, к какому из следующих непересекающихся множеств принадлежит параметрическая точка

Принадлежность параметрической точки множеству означает, что полином имеет степень Альтернативная постановка задачи состоит в том, что необходимо решить, какие из следующих нулевых гипотез верны (и верна ли хотя бы одна из них):

Если некоторая гипотеза из (17) верна, то предшествующие ей гипотезы также должны быть верны. Если же она неверна, то неверны

Рис. 3.1. Семейства множеств в задаче с несколькими решениями.

и все последующие гипотезы. Таким образом, Семейства множеств (16) и (17) связаны соотношениями

(См. рис. 3.1.)

Предположим, что исследователь намеревается ограничить вероятности ошибок, связанных .с принятием решений о том, что коэффициенты отличны от нуля, в то время как на самом деле они равны нулю. Иными словами, ограничить вероятности ошибок, связанных с выбором степени полинома более высокой, чем это необходимо. При заданных значениях этих вероятностей он стремится минимизировать вероятности принятия решений о том, что коэффициенты равны нулю, в то время как на самом деле они отличны от нуля, т. е. минимизировать вероятности выбора степени полинома, меньшей чем требуемая. Мы предполагаем, что исследователь приписывает каждой из нулевых гипотез определенный уровень значимости:

где Поскольку каждая нулевая гипотеза включает в себя последующую (т. е. каждая последующая нулевая гипотеза является более сильной), то последовательность вероятностей отклонения в правых частях (19) берется монотонно неубывающей (т. е. вероятность отклонения более сильной нулевой гипотезы, когда она верна, не меньше, чем аналогичная вероятность для менее сильной гипотезы). Используя семейство попарно непересекающихся множеств запишем указанное разнесение гипотез по уровням значимости в виде

Пусть {принять ). Посредством соотношений (20) исследователь приписывает определенные значения вероятностям принятия решений об использовании полинома степени когда на самом деле степень полинома меньше (для каждого

Нерандомизированная статистическая процедура для этой задачи со многими решениями состоит в следующем. Имеется набор областей, которые мы обозначим попарно непересекающихся и составляющих полную группу в пространстве значений (или в исходном пространстве Если выборочная точкапопадает в то принимается гипотеза Приписывание уровней значимости приводит к тому, что эти области становятся «подобными» в том смысле, что при вероятности попадания выборочной точки в равны соответственно (независимо от Другими словами, если степень полинома меньше то вероятность ошибки от приписывания ему степени не зависит от того, какова его истинная (меньшая чем ) степень.

Во многих случаях исследователь стремится определить только, равен ли некоторый коэффициент нулю или отличен от нуля. При этом его не интересует знак коэффициента. Естественно в таком случае требовать, чтрбы вероятности, связанные с указанной

процедурой, не меняли своих значений при изменении знака соответствующих коэффициентов, т. е. чтобы эти вероятности зависели от параметров только через дальнейшего будет видно, что такое ограничение можно заменить присвоением ненулевым коэффициентам определенных знаков.)

Зафиксировав указанные ограничения, потребуем, чтобы области были наилучшими, т. е. чтобы вероятности попадания в при условии, что верна гипотеза были максимально возможными. Следует отметить, что мы хотим одновременно максимизировать вероятности попадания в различных областей (каждую для всех отличных от нуля значений соответствующего параметра). Далее будет показано, что при указанных выше условиях при подборе одной области с целью максимизации вероятности попадания в эту область не имеет значения то, как выбираются остальные области. Этот факт позволяет оптимизировать области одновременно. Следует только подчеркнуть, что возможность этого основана на предположении о нормальности

Как было отмечено выше, критерий с областью отклонения (14) является оптимальным для проверки гипотезы обозначаемой нами через и являющейся дополнительной к Отсюда следует, что наилучшая область определяется соотношением (14) с Наилучшая процедура для проверки гипотезы с уровнем значимости в предположении, что состоит в ее отклонении при

где

Заметим далее, что если подобная область размера для проверки гипотезы т. е. если

для всех то выделяет условную вероятность на почти всех комбинациях значений и (достаточных статистик для при ). Иначе говоря,

почти всюду (с вероятностью 1). Именно такой, как говорят, «неймановской» структурой подобных областей и определяются

оптимальные свойства -критерия, отмеченные выше. [См. Леман (1959, гл. 4) или упр. 10.1 Из требований (20) [или эквивалентных им требований (19)] вытекает, что такую структуру имеет Кроме того, такую структуру имеет - область отклонения гипотезы когда она верна. Мы используем этот факт для того, чтобы показать, что выбор допущении не влияет на выбор в том смысле, что вероятность попадания в (являющаяся функцией от ) при не зависит от того, какими были выбраны Отметим, что значение интересует нас только в том случае, когда

Если же какое-нибудь из отлично от нуля (т. е. если степень полинома больше то вопроса о том, отлично от нуля или нет, не возникает.

Лемма 3.2.1. Пусть множество в пространстве значений таково, что

и пусть - множество, определяемое значениями Тогда

где множество, дополнительное к

Доказательство. Требование (25) означает, что — подобная область (по отношению к ). В силу этого

для почти всех Пусть характеристическая функция множества если аргумент принадлежит в противном случае). Тогда

что и доказывает лемму, поскольку это соотношение совпадает с

(26). [Отметим, что это доказывает независимость -критериев в ]

Смысл леммы состоит в том, что каким бы образом ни выбирались при условии (20), из которого следует (25) для вероятность попадания в область определенную как пересечение будет зависеть только от и не будет зависеть от (когда верна гипотеза

Пусть теперь область, определяемая соотношением (21) при

Лемма 3.2.2. Пусть удовлетворяет соотношению (25), а произвольное непересекающееся с множество, для которого

Тогда

Доказательство. Предположим, что для некоторого значения параметра неравенство (31) нарушается. Покажем, что это противоречит приведенному выше утверждению о том, что равномерно наиболее мощный критерий с подобными областями для проверки гипотезы с мощностью, не зависящей от знака Критические области имеют один и тот же размер. В то же время мощность второго критерия для указанного значения при сделанном предположении больше. Полученное противоречие доказывает лемму.

Из доказанных двух лемм вытекает, что какими бы ни были наилучший выбор множества состоит в том, что это должно являться частью множества не содержащей точек из . При таком выборе вероятность

не зависит от выбора

Теорема 3.2.1. Пусть полная группа непересекающихся областей в выборочном пространстве,

таких, что

где

Тогда для каждого значения вероятность (34) принимает максимальное значение на множестве определяемом как пересечение множества (21) при и дополнения к множеству

Оптимальной является, таким образом, следующая процедура:

Эта процедура по сути дела сводится к следующему. Поочередно проверяются гипотезы до тех пор, пока либо какая-то из гипотез не будет отвергнута, например гипотеза и будет решено, что верна либо будут приняты все гипотезы вплоть до Таким образом, указанная процедура является последовательной. Это обусловливается требованием независимости вероятности правильного решения о том, что степень полинома меньше заданного натурального числа, от истинной степени полинома.

У -критерия имеется целый ряд оптимальных свойств, пять из которых мы отметили выше. Использование нескольких из них и приводит к утверждению сформулированной теоремы. Условие подобия (33) можно заменить условием несмещенности, а именно условием

поскольку из несмещенности вытекает подобие соответствующих областей, и требованием независимости от знаков величин вероятностей попадания в эти области. [См. Леман (1959, гл. 4, разд. 1).]

Мы не останавливались еще на вопросе о том, как следует выбирать Если все , фиксированы и равны, например, Намерение не завышать степень полинома следует сбалансировать с чувствительностью процедуры к ненулевым коэффициентам. При разумном подходе следует устанавливать значение довольно большим, но полагать для значений близких к весьма малыми. Если влияние степени сравнительно велико, то при таком выборе будет иметься возможность это определить. Вероятность же принять решение о необходимости использования высоких степеней в том случае, когда этого не требуется, при указанном выборе мала. Например, пусть Тогда приближенно равно

Описанная процедура не нова. Отличие здесь только в подходе. Другая процедура, предложенная для оценивания степени полиномиальной регрессии, также является последовательностью критериев значимости, но взятой в обратном порядке. Сначала с помощью -критерия проверяется гипотеза . Если она отклоняется, то проверяется гипотеза . В результате либо некоторая гипотеза принимается, либо все гипотезы вплоть до отклоняются. Недостатком этой процедуры является то, что если некоторое очень велико, то велика и вероятность слишком заниженного оценивания степени полинома. Например, если значение велико, а значение мало, то будет относительно велика вероятность того, что

То есть с относительно большой вероятностью будет принята гипотеза и решено, что степень полинома равна нулю. (Следует отметить, что эта процедура не удовлетворяет (19) или (20) при

Практическое неудобство процедуры, которая в нашей формулировке является наилучшей, состоит в том, что она требует вычисления и вследствие этого вычисления до значения выбранного заранее. В то же время во второй упомянутой последовательной процедуре вычисление производится последовательно и только до тех пор, пока гипотезы отвергаются. Однако отмеченное неудобство не очень существенно, поскольку коэффициенты регрессии при ортогональных полиномах относительно просто вычислять с помощью таблиц полиномов. К тому же обычно приходится использовать лищь небольшие значения поскольку в случаях,

требующих использования высоких степеней, применение ортогональных полиномов не приносит особой пользы. (На практике, если принимается следует дополнительно вычислять для проверки правильности выбора Как было указано ранее, при наличии быстродействующих вычислительных машин можно использовать и регрессию по степеням Заметим, что коэффициенты при ортогональных полиномах, используемые в процедуре, определяются в любом методе накопления ведущих элементов.

В § 2.3 было отмечено, что критерий проверки гипотезы о равенстве некоторого коэффициента регрессии нулю не изменится, если совершить линейное преобразование независимых переменных, оставляющее этот коэффициент без изменения в выражении регрессии с помощью новых переменных. Частным случаем такого преобразования является последовательная ортогонализация переменных, при которой интересующая нас переменная ортогонализируется в последнюю очередь. Таким образом, критерий для проверки гипотезы в предположении в точности совпадает с критерием для проверки гипотезы в предположении, что (здесь а у — коэффициенты при степенях в выражении (1) для полиномиального тренда). Приведенная выше процедура со многими решениями может поэтому выполняться на основе регрессионного анализа полиномиального тренда. (В действительности эта процедура применима к любому упорядоченному множеству независимых переменных.) Как было указано в § 2.3, критерий для проверки гипотезы о равенстве нулю некоторого регрессионного коэффициента требует только прямого решения нормальных уравнений. При выполнении процедуры со многими решениями прямое решение достаточно получить лишь для полной совокупности переменных, поскольку прямое решение для каждого подмножества, получаемого вычеркиванием последней переменной, является частью полного прямого решения.

Прогнозирование значения для может быть произведено, как указано в § 2.5, т. е. в качестве прогноза можно брать Однако обычно прогнозирование с использованием подобранного полиномиального тренда рискованно. Дело в том, что полином является лишь приближением к реальному тренду и поэтому нельзя быть уверенным, что это приближение останется удовлетворительным вне множества значений на котором производился подбор полинома.

Пример 3.1. В табл. 3.1 приведены данные о количестве мяса, потреблявшегося в США на душу населения, за период с 1919 по

(см. скан)

Продолжение табл. 3.2 (см. скан)

1941 г. (Т = 23). В ней же даны значения ортогональных полиномов до пятой степени включительно [из Р. Л. Андерсона и Хаузмана (1942)]. Приведены также множители Вычисления коэффициентов регрессии и -отношений сведены в табл. 3.2.

В этом случае подходящую степень полинома определить нетрудно. Возьмем Если только берется не слишком близким к 1, то в соответствии с результатами вычислений мы принимаем гипотезу Если, далее, ненамного больше, чем 1/3, то мы принимаем гипотезу Если, наконец, не слишком мало, то мы принимаем гипотезу . Таким образом, мы выбираем степень, равную трем. В последней колонке табл. 3.1 приведены значения соответствующего кубического приближения.

Наблюдаемый ряд и подобранный тренд графически изображены на рис. 3.2. Следует заметить, что выравнивающая кривая дает хорошее согласие, причем большинство точек лежит близко от нее. Мы интерпретировали бы данную кривую как ожидаемое, или нормальное потребление мяса, если бы не возникающие год от года

Рис. 3.2. Ежегодное потребление мясных продуктов на душу населения в США с 1919 по 1941 г. и подобранный кубический тренд.

нерегулярности. Должно быть ясно, что изображенный полином третьей степени не дает хорошего прогноза. Во всяком случае, его можно использовать в этом качестве лишь для достаточно близкого будущего. Для значений же, расположенных значительно правее приведенных, этот полином растет, причем возрастает и его производная. Однако, даже без учета влияния войн, представляется не очень правдоподобным, чтобы потребление мяса на душу населения возрастало неограниченно и при все увеличивающемся темпе роста.

<< Предыдущий параграф

Следующий параграф >>

Оглавление