Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
5.4. ИСПОЛЬЗОВАНИЕ «ФИКТИВНЫХ» ПЕРЕМЕННЫХ В МНОЖЕСТВЕННОЙ РЕГРЕССИИОбщая концепция «фиктивных» переменных и пример их использованияФакторы, применяемые в регрессионных задачах, обычно могут принимать значения из какого-либо непрерывного интервала. Иногда мы можем вводить фактор, который имеет два или более различных уровня. Например, данные можно получать на трех машинах, или на двух фабриках, или с помощью шести операторов. В таком случае мы не можем построить непрерывную шкалу для факторов «машина», или «фабрика», или «оператор». Мы можем приписать этим факторам некоторые уровни по порядку, учитывая тот факт, что различные машины, фабрики или операторы могут иметь независимые детерминированные эффекты в отклике. Переменные такого типа обычно называют фиктивными переменными. Обычно (но не всегда) они не связаны с физическими уровнями, которые могут существовать у факторов сами по себе. Первый пример фиктивной переменной — это дополнительная переменная Фиктивные переменные для разбиения данных на блокиДопустим, мы хотим отразить в модели представление о том, что два типа машин (скажем, тип А и тип В) дают различные уровни отклика в дополнение к вариации, обусловленной другими факторами. Один путь состоит в том, чтобы включить в модель фиктивную переменную одновременно с оцениванием
Фактически годятся любые два различных значения
и
то соответствующие столбцы матрицы X будут ортогональны к «столбцу (Примечание. Если желательно рассматривать три разные машины, то потребуются две фиктивные переменные:
и модель будет включать дополнительные члены
где В общем, при продолжении такой процедуры мы можем прийти к Теперь приведем пример такого использования фиктивных переменных. Пример 1. Данные в табл. 5.12 представляют собой вес
Рис. 5.4. Данные об индейках. Остатки для модели Если бы мы построили регрессию
Тогда получится уравнение
Таблица 5.12. Данные об индейках
Оценки
Экспериментальные данные и три прямые, подобранные методом наименьших квадратов, приведены на рис. 5.5. Все три линии параллельны, но имеют разные свободные члены. Дисперсионный анализ модели можно представить так, как показано в табл. 5.13. Оба значения F-критерия весьма значимы, и это указывает, что введение фиктивных переменных явно оправданно и что линии имеют определенно не нулевой наклон. Это уравнение объясняет
Рис. 5.5. График для данных об индейках и три прямые, подобранные методом наименьших квадратов Если угодно, можно построить (абсолютное значение) которого надо сравнить с процентной точкой
Этот результат сравнивается с Таблица 5.13. Дисперсионный анализ для примера с индейками
Представление фиктивных переменных не единственноКак можно понять из того, что сказано выше, для данной регрессионной задачи существует не единственный способ выбора фиктивных переменных, а в большинстве случаев путей их представления превеликое множество. Это обстоятельство может оказаться выгодным, если мы сумеем использовать его для объяснения некоторых особенностей, проявляющихся в наших данных. Правда, должна быть уверенность в том, что выбранное представление действительно сработает, т. е. даст возможность сосчитать результат для всех уровней (категорий) фиктивного фактора, не приводя к вырожденности матрицы Пример 2. Ниже приведена схема фиктивного фактора. Пригодна ли она, если иметь в виду возможные различия в уровнях для шести групп?
Ответ утвердительный. Вспомните, что наша схема базисных векторов для описываемого случая, записанная ниже со столбцом
Сразу видно, что:
Таким образом, система столбцов Пример 3. Другая вполне пригодная схема в том же контексте, что и в примере 2, могла бы содержать столбцы
Члены с взаимодействиями, включающие фиктивные факторыПоложим, для определенности, что мы имеем два аналогичных набора данных об отклике
Нужно выяснить, можно ли использовать для обоих множеств данных одну и ту же модель и если можно, то как подобрать ее коэффициенты? Один из путей подхода к этой задаче заключается в том, чтобы одновременно подбирать модель для обоих наборов данных в виде
где 1. Гипотеза 2. Если гипотеза 3. Если гипотеза Могли бы быть выбраны и другие последовательности проверок, если бы это было разумно в контексте решаемой задачи. Выбранная последовательность представляет естественный порядок различий, который часто разумен. В принципе нет никаких проблем, препятствующих распространению такого подхода на ситуации с большим числом наборов данных и с другими моделями, включающими больше предикторов, Если бы для одного набора данных основная модель была бы
то по всем данным мы могли бы построить модель
где Мы должны получить такие же ответы, как если бы мы обрабатывали каждый набор данных отдельно. Так, если
и мы можем ее представить, скажем, так:
Преимущество использования взаимодействий с фиктивными факторами заключается в том, что появляется возможность простой формализации и естественный способ применения критериев дополнительной суммы квадратов. Пример 4. Проиллюстрируем сказанное на примере с индейками. Для построения трех отдельных прямых (см. табл. 5.12) мы возьмем модель
т. е.
Тогда получится следующее уравнение
А вот три отдельных уравнения прямых линий:
Эти линии, которые в точности те же, что получились бы при подборе уравнений для каждого набора данных в отдельности, несколько отличаются от тех линий, что приведены на рис. 5.5, в чем читатель может убедиться, если построит их на графике или просто сравнит с уравнениями (5.4.3). Таблица дисперсионного анализа для этих данных имеет вид:
Эти три подобранные прямые были бы идентичны, если бы была верна нуль-гипотеза
(Величина 26,20 представляет собой сумму квадратов относительно регрессии для общего уравнения; она ранее не использовалась.) Соответствующее значение
что превышает табличное значение Можно проверить гипотезу о существовании трех параллельных линий, т. е.
где величина 38,61 представляет собой сумму второй Как показывает наш пример, использование взаимодействия с фиктивными факторами упрощает построение подходящих критериев и получение правильных статистик для проверки гипотез. Быть может, это наиглавнейшее достоинство данного метода.
|
1 |
Оглавление
|