11.3.3. МОДЕЛИ С КАЧЕСТВЕННЫМИ ДАННЫМИ
Линейные модели объясняют значения зависимой переменной посредством линейной комбинации объясняющих переменных (линейного предиктора). Предположим, мы заинтересованы в выяснении связи между весом и ростом детей школьного возраста. Априорно такая связь зависит от пола ребенка, так что модель должна учитывать это
обстоятельство. Сначала рассмотрим трудности, связанные с пониманием смысла линейной комбинации типа
так как пол
в отличие от роста
не может быть измерен в количественной шкале.
Фактор. Количественная переменная, которая принимает конечное число нечисловых значений, будет называться фактором, а ее значения называются уровнями. Итак, пол — фактор с двумя уровнями (мужской и женский). Аналогично если деревья классифицировать по видам, то вид является фактором, имеющим столько уровней, сколько существует видов.
Различие между факторами и количественными переменными обычно достаточно очевидно. Однако бывают переменные, занимающие некоторое промежуточное положение. Например, если рост грубо определить как низкий, средний и высокий, то его можно рассматривать либо как фактор, либо как количественную переменную со значением, например, —1, 0, 1.
Предположим, что
— фактор с четырьмя уровнями, обозначенными как
а В и С — факторы с двумя уровнями
и
Каждый объект принимает один и только один уровень каждого фактора. Пусть
и часть массива данных содержит следующую информацию:
Эта информация может быть представлена с помощью индикаторных векторов:
Индикаторный вектор
есть индикатор уровня
фактора А, который наблюдается у второго и третьего объектов. С помощью индикаторного вектора
указывается, что уровень
фактора С наблюдается у объектов 2, 4, 6.
В этом контексте индикаторные векторы удовлетворяют некоторым очевидным правилам.
В нашем примере
Кроме того, покоординатное умножение двух индикаторных векторов для одного и того же фактора есть нулевой вектор
Результат покоординатного произведения двух индикаторных векторов от различных факторов указывает уровни обоих факторов и сам является индикаторным вектором. Например, вектор
указывает, что только первый объект имеет уровень
для А и уровень
для В. Аналогично
указывает объекты с уровнями
соответствующих факторов. Скалярное произведение
дает число объектов для каждого уровня. Так
Более формально пусть А — фактор с
уровнями и
— соответствующие им индикаторные векторы. Аналогично определим фактор В с числом уровней
и индикаторные векторы
Тогда легко проверить, что
а также
Линейный предиктор. Мы имеем теперь достаточный формальный аппарат, чтобы вернуться к моделям, содержащим качественные данные. Предположим, что было обследовано шесть детей, из которых три девочки, каждая весом в 40 кг, и три мальчика, каждый весом в 45 кг. Если А — фактор пола, то он имеет два индикаторных вектора:
для девочек с компонентами
для мальчиков с компонентами
Положив
получим вектор (40, 40, 40, 45, 45, 45), который воспроизводит веса как для девочек, так и для мальчиков. Здесь линейный предиктор представляет собой линейную комбинацию индикаторных векторов
Этот пример дает представление о том, как можно работать с произвольными факторами. Прибегнем теперь к небольшой модификации, упрощающей дальнейшее рассмотрение. Линейный предиктор в этом примере может быть представлен также в виде линейной комбинации 1 и
Коэффициент при 1 равен значению предиктора на первом уровне
(девочки). Коэффициент индикаторного вектора
определяет теперь различие между значениями предиктора на первом и втором уровнях. Здесь
Вообще, если А — фактор с
уровнями, интересной является модель, для которой предиктор
Например, для сравнения урожайности четырех различных сортов картофеля может быть предложен предиктор
Тогда урожайность для первого сорта будет 20, для воторого — 22, для третьего — 16, для четвертого — 21. Если бы различий между сортами не было и урожайность для всех сортов была бы 20, то
так что
Проверка различий между уровнями фактора А эквивалентна сравнению моделей
Символ А обозначает фактор (качественную переменную). Без затруднений его можно использовать и для обозначения подпространства, порожденного соответствующими индикаторными векторами:
Это позволяет ссылаться на соответствующее подпространство, избегая громоздкого перечисления образующих его векторов. Также без каких-либо затруднений будем использовать