11.1.3. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ
Простой пример с биномиальной логистической кривой дает представление о вероятностной структуре линейной модели и о том, для чего она может применяться.
Основной интерес заключается в выявлении связи между переменной
зависимой переменной, и другой переменной или набором переменных
известных как объясняющие переменные.
Зависимая переменная
есть случайная переменная с функцией плотности вероятности
которая, по предположению, является членом
экспоненциального семейства плотностей [см. раздел 1.4.2] и зависит самое большее от двух параметров:
линейного предиктора и
- «мешающего» параметра. Функция плотности может быть записана как
где линейный предиктор представляет собой линейную комбинацию объясняющих переменных
, т. е.
а
— константа, не зависящая от объясняющих переменных. Предполагается, что имеется функциональная зависимость (функция связи) между ожидаемым значением зависимой переменной
и линейным предиктором
Функция
известна как функция связи.
В примере с биномиальной логистической моделью
— число смертей в группе из пяти мышей; имеется одна объясняющая переменная х, доза лекарства; функция плотности для
биномиальная и является членом экспоненциального семейства. Линейный предиктор есть
. Мешающий параметр отсутствует, а функция связи
.
В этом примере все составляющие части (плотность, функция связи, предиктор) рассматриваются как известные, и модель готова для использования. В реальной ситуации, когда относительно зависимости между зависимой переменной и объясняющими переменными доступна лишь информация, содержащаяся в
наблюдениях над переменными, вероятностная структура неизвестна, она может даже не существовать. В теории линейных моделей мы идем на некоторый компромисс и предполагаем, что функция
известна с точностью до параметров
Хотя такое предположение может быть ощибочным, оно очень удобно на практике. Знание ситуации (контекста), порождающей данные, обычно позволяет сделать выбор функций плотности и связи относительно безошибочным, в то время как свобода в подборе подходящих значений параметров обеспечивает гибкость в приложении модели к различным совокупностям данных. В примере с биномиально-логистической моделью это означает, что параметры
в линейном предикторе
оцениваются из данных. С другой стороны, структура модели не меняется.
Анализ «доза—смертность» с применением другой функции связи проведен в разделе 6.6. В этом случае зависимой переменной
соответствует случайная переменная
индуцированная числом насекомых
погибших в группе из
насекомых при применении дозы инсектицида на
уровне [см. табл. 6.6.1]. Снова имеется одна объясняющая переменная
, где х — назначенная доза инсектицида. Мешающий параметр отсутствует, функцией плотности
зависимой переменной
будет
где
. [Здесь через Ф обозначена стандартная нормальная функция распределения, так что
Линейный предиктор есть
, а функция связи
задается как
Итак,
(Здесь
обозначает функцию, обратную к Ф.)