Главная > Справочник по прикладной статистике. Том 2
НАПИШУ ВСЁ ЧТО ЗАДАЛИ
СЕКРЕТНЫЙ БОТ В ТЕЛЕГЕ
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO

11.3.3. МОДЕЛИ С КАЧЕСТВЕННЫМИ ДАННЫМИ

Линейные модели объясняют значения зависимой переменной посредством линейной комбинации объясняющих переменных (линейного предиктора). Предположим, мы заинтересованы в выяснении связи между весом и ростом детей школьного возраста. Априорно такая связь зависит от пола ребенка, так что модель должна учитывать это

обстоятельство. Сначала рассмотрим трудности, связанные с пониманием смысла линейной комбинации типа так как пол в отличие от роста не может быть измерен в количественной шкале.

Фактор. Количественная переменная, которая принимает конечное число нечисловых значений, будет называться фактором, а ее значения называются уровнями. Итак, пол — фактор с двумя уровнями (мужской и женский). Аналогично если деревья классифицировать по видам, то вид является фактором, имеющим столько уровней, сколько существует видов.

Различие между факторами и количественными переменными обычно достаточно очевидно. Однако бывают переменные, занимающие некоторое промежуточное положение. Например, если рост грубо определить как низкий, средний и высокий, то его можно рассматривать либо как фактор, либо как количественную переменную со значением, например, —1, 0, 1.

Предположим, что — фактор с четырьмя уровнями, обозначенными как а В и С — факторы с двумя уровнями и Каждый объект принимает один и только один уровень каждого фактора. Пусть и часть массива данных содержит следующую информацию:

Эта информация может быть представлена с помощью индикаторных векторов:

Индикаторный вектор есть индикатор уровня фактора А, который наблюдается у второго и третьего объектов. С помощью индикаторного вектора указывается, что уровень фактора С наблюдается у объектов 2, 4, 6.

В этом контексте индикаторные векторы удовлетворяют некоторым очевидным правилам.

В нашем примере

Кроме того, покоординатное умножение двух индикаторных векторов для одного и того же фактора есть нулевой вектор

Результат покоординатного произведения двух индикаторных векторов от различных факторов указывает уровни обоих факторов и сам является индикаторным вектором. Например, вектор

указывает, что только первый объект имеет уровень для А и уровень для В. Аналогично указывает объекты с уровнями соответствующих факторов. Скалярное произведение дает число объектов для каждого уровня. Так

Более формально пусть А — фактор с уровнями и — соответствующие им индикаторные векторы. Аналогично определим фактор В с числом уровней и индикаторные векторы Тогда легко проверить, что

а также

Линейный предиктор. Мы имеем теперь достаточный формальный аппарат, чтобы вернуться к моделям, содержащим качественные данные. Предположим, что было обследовано шесть детей, из которых три девочки, каждая весом в 40 кг, и три мальчика, каждый весом в 45 кг. Если А — фактор пола, то он имеет два индикаторных вектора: для девочек с компонентами для мальчиков с компонентами Положив

получим вектор (40, 40, 40, 45, 45, 45), который воспроизводит веса как для девочек, так и для мальчиков. Здесь линейный предиктор представляет собой линейную комбинацию индикаторных векторов

Этот пример дает представление о том, как можно работать с произвольными факторами. Прибегнем теперь к небольшой модификации, упрощающей дальнейшее рассмотрение. Линейный предиктор в этом примере может быть представлен также в виде линейной комбинации 1 и

Коэффициент при 1 равен значению предиктора на первом уровне (девочки). Коэффициент индикаторного вектора определяет теперь различие между значениями предиктора на первом и втором уровнях. Здесь

Вообще, если А — фактор с уровнями, интересной является модель, для которой предиктор Например, для сравнения урожайности четырех различных сортов картофеля может быть предложен предиктор

Тогда урожайность для первого сорта будет 20, для воторого — 22, для третьего — 16, для четвертого — 21. Если бы различий между сортами не было и урожайность для всех сортов была бы 20, то

так что

Проверка различий между уровнями фактора А эквивалентна сравнению моделей

Символ А обозначает фактор (качественную переменную). Без затруднений его можно использовать и для обозначения подпространства, порожденного соответствующими индикаторными векторами:

Это позволяет ссылаться на соответствующее подпространство, избегая громоздкого перечисления образующих его векторов. Также без каких-либо затруднений будем использовать

1
Оглавление
email@scask.ru