6.5. ОЦЕНКА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ КОЭФФИЦИЕНТОВ ЛИНЕЙНОЙ РЕГРЕССИИ
6.5.1. ПОНЯТИЕ «РЕГРЕССИЯ»
Читателя, не знакомого со статистикой, возможно, удивит использование в статистике термина «регрессия», который в обычном смысле понимается как «обратное движение, возврат к исходной точке или месту» [см. Oxford English Dictionary]. Этот термин в статистике был введен в XIX в. в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что неудивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения сыновей к среднему росту, т. е. регресс. Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближенно) легли на прямую с положительным углом наклона меньше
важно, что регрессия была линейной.
Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных
. Прямая линия в плоскости
была выборочным аналогом функции
В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть не что иное, как условное математическое ожидание случайной переменной У при «условии», что другая случайная переменная X приняла значение х. Если, например, пара (X, Y) имеет двумерное нормальное распределение с
то можно показать, что условное распределение У при
также будет нормальным с математическим ожиданием, равным
и дисперсией
[см. II, раздел 13.4.6]. В этом примере регрессия
является линейной функцией.
В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Можно, например, рассмотреть совместное распределение трех случайных переменных
тогда регрессия
на
представляет собой функцию
Особое значение имеет линейная регрессия. С линейной регрессией мы встречаемся, например, когда распределение тройки
нормально.
Статистические проблемы регрессии связаны прежде всего с оцениванием неизвестных параметров регрессии и другими статистическими выводами (доверительное оценивание, проверка гипотез и т. п.). В типичной двумерной задаче оценивания регрессии, в частности в рассмотренном выше примере, где оценивалась регрессия роста сыновей на рост отцов, данные выборки могут быть записаны так, как представлено в табл. 6.5.1.
Таблица 6.5.1. Запись данных в векторной форме в задаче оценивания регрессии Y на X
(см. скан)
(Значения х здесь, конечно, округлены. Например, до целого числа дюймов.)
Если значения у тоже округляются или группируются, то данные могут быть представлены в виде таблицы частот.
Таблица 6.5.2. (см. скан) Запись данных в виде таблицы частот в задаче оценивания регрессии Y на X
(Числовые значения приведены в табл. 6.5.3, а их анализ — в примере 6.5.1.)
Название «регрессия» в дальнейшем было распространено на ситуации, в которых значения независимой переменной х обозначили заранее указанные уровни управляемой переменной. В подобных ситуациях значение у часто называют откликом системы на управление. Типичный пример такой регрессии: независимая переменная представляет собой количество удобрения, вносимого на поле (управление), а откликом (зависимая переменная) служит размер урожая, собранного на этом поле.
В обоих вариантах регрессионной модели обычно предполагают, что переменная у, соответствующая данному значению х (которое обозначим через
), представляет собой реализацию нормальной случайной величины с параметрами
при этом является известной функцией от
.
Одна из распространенных форм регрессионных моделей — полиномиальная модель, для которой
где
задано (целое), а коэффициенты регрессии
неизвестны и подлежат оцениванию на основе имеющихся данных. В частном случае, когда
говорят о «линейной регрессии». Тогда