11.3.3. МОДЕЛИ С КАЧЕСТВЕННЫМИ ДАННЫМИ
Линейные модели объясняют значения зависимой переменной посредством линейной комбинации объясняющих переменных (линейного предиктора). Предположим, мы заинтересованы в выяснении связи между весом и ростом детей школьного возраста. Априорно такая связь зависит от пола ребенка, так что модель должна учитывать это
обстоятельство. Сначала рассмотрим трудности, связанные с пониманием смысла линейной комбинации типа так как пол в отличие от роста не может быть измерен в количественной шкале.
Фактор. Количественная переменная, которая принимает конечное число нечисловых значений, будет называться фактором, а ее значения называются уровнями. Итак, пол — фактор с двумя уровнями (мужской и женский). Аналогично если деревья классифицировать по видам, то вид является фактором, имеющим столько уровней, сколько существует видов.
Различие между факторами и количественными переменными обычно достаточно очевидно. Однако бывают переменные, занимающие некоторое промежуточное положение. Например, если рост грубо определить как низкий, средний и высокий, то его можно рассматривать либо как фактор, либо как количественную переменную со значением, например, —1, 0, 1.
Предположим, что — фактор с четырьмя уровнями, обозначенными как а В и С — факторы с двумя уровнями и Каждый объект принимает один и только один уровень каждого фактора. Пусть и часть массива данных содержит следующую информацию:
Эта информация может быть представлена с помощью индикаторных векторов:
Индикаторный вектор есть индикатор уровня фактора А, который наблюдается у второго и третьего объектов. С помощью индикаторного вектора указывается, что уровень фактора С наблюдается у объектов 2, 4, 6.
В этом контексте индикаторные векторы удовлетворяют некоторым очевидным правилам.
В нашем примере
Кроме того, покоординатное умножение двух индикаторных векторов для одного и того же фактора есть нулевой вектор
Результат покоординатного произведения двух индикаторных векторов от различных факторов указывает уровни обоих факторов и сам является индикаторным вектором. Например, вектор
указывает, что только первый объект имеет уровень для А и уровень для В. Аналогично указывает объекты с уровнями соответствующих факторов. Скалярное произведение дает число объектов для каждого уровня. Так
Более формально пусть А — фактор с уровнями и — соответствующие им индикаторные векторы. Аналогично определим фактор В с числом уровней и индикаторные векторы Тогда легко проверить, что
а также
Линейный предиктор. Мы имеем теперь достаточный формальный аппарат, чтобы вернуться к моделям, содержащим качественные данные. Предположим, что было обследовано шесть детей, из которых три девочки, каждая весом в 40 кг, и три мальчика, каждый весом в 45 кг. Если А — фактор пола, то он имеет два индикаторных вектора: для девочек с компонентами для мальчиков с компонентами Положив
получим вектор (40, 40, 40, 45, 45, 45), который воспроизводит веса как для девочек, так и для мальчиков. Здесь линейный предиктор представляет собой линейную комбинацию индикаторных векторов
Этот пример дает представление о том, как можно работать с произвольными факторами. Прибегнем теперь к небольшой модификации, упрощающей дальнейшее рассмотрение. Линейный предиктор в этом примере может быть представлен также в виде линейной комбинации 1 и
Коэффициент при 1 равен значению предиктора на первом уровне (девочки). Коэффициент индикаторного вектора определяет теперь различие между значениями предиктора на первом и втором уровнях. Здесь
Вообще, если А — фактор с уровнями, интересной является модель, для которой предиктор Например, для сравнения урожайности четырех различных сортов картофеля может быть предложен предиктор
Тогда урожайность для первого сорта будет 20, для воторого — 22, для третьего — 16, для четвертого — 21. Если бы различий между сортами не было и урожайность для всех сортов была бы 20, то
так что
Проверка различий между уровнями фактора А эквивалентна сравнению моделей
Символ А обозначает фактор (качественную переменную). Без затруднений его можно использовать и для обозначения подпространства, порожденного соответствующими индикаторными векторами:
Это позволяет ссылаться на соответствующее подпространство, избегая громоздкого перечисления образующих его векторов. Также без каких-либо затруднений будем использовать