Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
1.5. НЕАДЕКВАТНОСТЬ И «ЧИСТАЯ» ОШИБКАМы уже отмечали, что построенная линия регрессии — это расчетная линия, основанная на некоторой модели или предположениях. Но предположения мы не можем принимать слепо, а должны рассматривать их как предварительные. При некоторых обстоятельствах (условиях) можно проверить, корректна ли наша модель. Прежде всего мы можем изучить проявления предполагаемой некорректности модели. Вспомним, что информацию относительно того, почему построенная модель недостаточна правильно объясняет наблюдаемый разброс значений зависимой переменной
где
Величина
и это верно независимо от того, будет ли модель правильна Можно показать, что
имеет математическое ожидание, или среднее значение Однако если модель не корректна, т. е. В простом случае подбора прямой обычно можно определить ошибку смещения, непосредственно исследуя график с данными (см., например, рис. 1.10). Если модель более сложна и (или) включает больше переменных, то это невозможно. Если существует априорная оценка (Примечание. Важно понимать, что повторение опытов может быть в некотором смысле верным и неверным. Пусть, например, мы будем пытаться применять регрессионный метод к зависимости Когда в данных содержатся повторные опыты, нам нужны дополнительные обозначения для множества наблюдений к
Всего получается
наблюдений. Вклад суммы квадратов, связанной с «чистой» ошибкой для
Объединяя внутренние суммы квадратов для всех серий повторных опытов, мы получим общую сумму квадратов «чистых» ошибок в виде
со степенями свободы
Отсюда средний квадрат «чистых» ошибок равен:
и он служит оценкой (Примечание. Если имеются только два наблюдения
Это удобная форма для вычислений. Такая Таким образом, сумма квадратов «чистых» ошибок фактически оказывается частью остаточной суммы квадратов, что мы теперь и покажем. Остаток для
воспользовавшись тем обстоятельством, что все повторные точки при любом
Рис. 1.9. Разложение остаточной суммы квадратов на суммы квадратов, обусловленные неадекватностью и «чистой» ошибкой Слева в уравнении (1.5.8) стоит остаточная сумма квадратов. Первый член в правой части — это сумма квадратов чистых ошибок. Последний член мы называем суммой квадратов неадекватности. Отсюда следует, что сумму квадратов, обусловленную «чистой» ошибкой, можно ввести в таблицу дисперсионного анализа, как показано на рис. 1.9. Обычный прием — это сравнение отношений 1) значимым, то это показывает, что модель, по-видимому, неадекватна. Можно попытаться изучить, когда и как встречается неадекватность. (См. комментарии к различным графикам остатков в гл. 3. Заметим, однако, что графики остатков — стандартная процедура, которая должна применяться в любом регрессионном анализе, а не только в тех случаях, когда неадекватность может быть продемонстрирована с помощью этого критерия.); 2) незначимым, то это показывает, что, по-видимому, нет оснований сомневаться в адекватности модели и что как средний квадрат, связанный с «чистой» ошибкой, так и средний квадрат, обусловленный неадекватностью, могут использоваться как оценки Мы уже отмечали выше, что повторные опыты должны быть действительно повторными. Если же это не так, то Пример. Так как предыдущий пример, который включал данные из приложения А, не содержал параллельных опытов, мы рассмотрим специально построенный пример (табл. 1.6), иллюстрирующий материал этого параграфа о неадекватности и «чистой» ошибке. По следующим данным была оценена линия регрессии Таблица 1.6. Двадцать четыре наблюдения с частичными повторами
Таблица 1.7. Таблица дисперсионного анализа для данных из табл. 1.6
1. 2.
Теперь можно переписать данные дисперсионного анализа, как показано в табл. 1.8. Отношение Таблица 1.8. Дисперсионный анализ (демонстрация неадекватности)
Этот последний 1. Подобрать модель, составить простую таблицу дисперсионного анализа с двумя входами: регрессией и остатком. Но для общей регрессии пока не использовать 2. Вычислить сумму квадратов, связанную с «чистой» ошибкой и разложить остаточную сумму квадратов, как на рис. 1.9. (Ну а если «чистой» ошибки нет, то остается проверять неадекватность посредством анализа графиков остатков (см. гл. 3).) 3. Применить 4а. Значимая неадекватность. Прекратить анализ подобранной модели и искать пути улучшения модели методами анализа остатков (см. гл. 3). Не применять 46. Неадекватность не значима. Снова объединить суммы квадратов для «чистых» ошибок и неадекватности в остаточную сумму квадратов. Использовать остаточный средний квадрат Заметим, что если модель «проходит через все барьеры», это еще не означает, что она правильна; просто нет оснований считать ее неадекватной имеющимся данным. Если неадекватность обнаружена, то может понадобиться другая модель, возможно, квадратичная вида Влияние повторных опытов на R2Как мы отмечали в параграфе 1.4, невозможно, чтобы величина Для демонстрации этого в нашем последнем примере напомним, что сумма квадратов, обусловленная «чистой» ошибкой, равна 12,470 при 11 степенях свободы. То, что модель подогнана к этим данным, не имеет значения, все равно величина 12,470 остается неизменяемой и необъясняемой. Следовательно, максимум
(кликните для просмотра скана) или 54,68 %. Однако то значение
Иными словами, мы можем объяснить «Чистая» ошибка в многофакторном случаеПриведенные выше для случая одной переменной формулы применимы и в общем, сколько бы предикторов
дают повторные опыты. Однако 4 точки
уже не дают повторных опытов, поскольку координаты Приблизительные повторыНекоторые наборы данных не имеют или имеют очень мало повторных опытов, зато в них есть приблизительные повторы, т. е. множества опытов, которые очень близки друг к другу в пространстве X по сравнению с общим разбросом точек в этом пространстве. В таких случаях мы можем воспользоваться этими псевдоповторами так, как будто они обычные повторы и вычислить по ним приближенную сумму квадратов, связанную с «чистой» ошибкой. Тогда ее можно использовать в анализе стандартным способом. Пример такого использования приведен в упражнении 12 из гл. 1.
|
1 |
Оглавление
|