Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
Глава 9. ДИСПЕРСИОННЫЙ АНАЛИЗ9.1. Классификация по одному признаку9.1.1. Представление в виде регрессионной моделиВ примере 4.2 из разд. 4.1.3 мы показали, как общую теорию регрессии можно применить к задаче сравнения средних двух нормальных совокупностей, когда дисперсии этих совокупностей равны. Теперь мы распространим эту теорию на случай сравнения I нормальных совокупностей Пусть
Для того чтобы использовать общую теорию регрессии, объединим имеющуюся информацию в модель
или
где Интересующая нас нулевая гипотеза имеет вид
или
Для отыскания RSS надо минимизировать
и
Для отыскания RSS минимизация
Последнее выражение легко преобразуется к виду
(сумма со смешанными произведениями равна нулю), и поэтому
Таким образом, (9.4) принимает вид
Если гипотеза Я верна, то эта статистика имеет распределение Заметим, наконец, что модель (9.1) можно представить также в виде
где 9.1.2. ВычисленияНа практике различные суммы квадратов принято располагать в виде таблицы (табл. 9.1). Таблица 9.1 (см. скан) Таблица дисперсионного анализа для классификации по одному признаку При этом строки, расположенные ниже строки "скорректированная полная" (имеется в виду "полная сумма квадратов, скорректированная относительно среднего"), часто опускаются. Терминология для сумм, используемых в столбце "источник" (т. е. источник дисперсии, изменчивости. Перев.), в различных работах бывает разной. Так, вместо термина "между совокупностями" употребляется термин "между группами", а также термин "между способами обработки". Сумма квадратов, расположенная в строке "ошибки", иногда называется суммой квадратов "внутри групп", "внутри совокупностей" или "остаточной" суммой квадратов. Эта сумма дает оценку для Если вычисления производятся на настольном калькуляторе, то полезно использовать соотношения
где
Формулы (9.6) и (9.7) требуют вычисления только полных сумм и их квадратов. При этом ошибки округления, связанные с делением, сводятся к минимуму. В то же время необходимо проявлять достаточную осторожность, вычисляя разность двух величин (особенно приблизительно равных). Если при подобных вычислениях использовать слишком мало десятичных знаков, то полученное значение разности может оказаться весьма далеким (в смысле относительной погрешности. Перев.) от действительного. По этой причине в программах для ЭВМ предпочтительнее непосредственно использовать разности Стоит, наверное, отметить простой способ запоминания приведенных двух формул. Рассмотрим первую из них. Вид суммируемых квадратов сумм. Например, сумму
Эксперименты, используемые для проведения классификации по одному признаку, обычно называются однофакторными экспериментами. Так, например, может возникнуть задача сравнения эффективности шести различных лекарств или эффективности одного и того же лекарства, но даваемого в шести различных дозах. При этом данное лекарство является фактором, и имеется шесть различных уровней этого фактора. 9.1.3. Математические ожиданияИз общей теории (теорема 4.1) нам известно, что
и
При выводе этих выражений мы воспользовались тем, что необходимые нам степени свободы известны из анализа рангов матриц, связанных с исходной моделью регрессии из разд. 9.1.1. С другой стороны, в ряде планов эксперимента найти степени свободы непосредственно на основании рангов довольно трудно. В таких случаях эти степени свободы можно найти, используя общую формулу
в которой
9.1.4. Перепараметризация моделиУстановив возможность использования для проверки интересующей нас линейной гипотезы общей теории регрессии, мы затем отыскиваем выражения для RSS и
где
так что
Возведем обе части последнего равенства в квадрат и просуммируем полученные выражения по
и
Учитывая теперь, что
Из этого разложения для
Если верна гипотеза Я, то (9.13) принимает вид
и
Хотя указанная перепараметризация и не приводит здесь к реальному упрощению вычисления 9.1.5. Геометрический анализПредставляется интересным более внимательно рассмотреть геометрическую сущность разложения (9.12). Соответственно структуре вектора 8, образованного элементами
Векторы
а это и есть соотношение (9.12). Если
и
Это показывает, что при справедливости гипотезы Я статистика (9.5) имеет Интересно отметить, что взаимную независимость указанных квадратичных форм можно доказать и непосредственно следующим образом. Повторным применением теоремы 1.5 (для одномерных векторов, т. е. для скалярных величин) находим
так что 9.1.6. Идентифицирующие ограниченияЗаметим, что перепараметризованная модель
имеет неполный ранг, поскольку. первый столбец 9.1.7. Доверительные интервалыЕсли в результате применения
где Если нас интересуют сразу несколько сравнений, выбранных априори, до обращения к данным, мы сталкиваемся с задачей одновременного (совместного) интервального оценивания, обсуждавшейся в гл. 5. Там были описаны три метода построения доверительных интервалов, причем наиболее узкими оказываются
не содержит нуля (т. е. ненулевым оказывается хотя бы одно из сравнений Таким образом, если Если интерес для нас представляют только разности вида
или
где средние не будут значимо отличаться друг от друга. Например, если
то Другим методом разбиения средних по группам является критерий множественного ранжирования Дункана [Miller (1966, с. 81)]. Хотя эта процедура весьма популярна среди исследователей, тем не менее она не стала общепринятой среди статистиков. Особенно много споров вызвал непостоянный уровень значимости этой процедуры [ONeill, Wetherill (J971, с. 226- 227)]. Имеются еще два подхода к задаче сортировки средних, представляющихся весьма многообещающими. Поскольку мы, по существу, имеем дело с вопросом принятия решений, то естественно поставить задачу именно в контексте теории принятия решений. Подобную формулировку задачи дали Waller, Duncan (1969). С другой стороны, задачу сортировки средних можно рассматривать как задачу отнесения точек выборки (представляющих выборочные средние) к одному из нескольких кластеров. Относительно техники кластер-анализа, которая может оказаться полезной в этом смысле, см. Scott, Knott (1974). Различные процедуры попарных сравнений, подобные упомянутым выше, сопоставляются в статье Carmer, Swanson (1973) с помощью численного моделирования. При этом наилучшими для выполненных экспериментов оказались так называемый метод минимальной значимой разности, основанный на простых попарных -сравнениях
(которые производятся только в случае, когда величина Л-статистики оказывается значимой), и байесовская процедура Waller, Duncan (1969). 9.1.8. Исходные предположенияВ разд. 6.3.2 мы видели, что квадратично сбалансированные проверить ее на квадратичную сбалансированность. Надо просто, взяв числитель и знаменатель этой статистики, посмотреть, будет ли в каждом случае коэффициент при Вопрос устойчивости рассмотрен довольно подробно также в книге Scheffe (1959, гл. 10). Там показано, что
и соответствующему изменению числа степеней свободы. Для проверки равенства дисперсий совокупностей имеется целый ряд процедур. Среди них можно отметить, в частности, приближенный При неравенстве дисперсий совокупностей можно использовать модификацию совместных доверительных интервалов Шеффе [Spjotvoll (1972b)]. Если нас интересует лишь один доверительный интервал, скажем для 9.1.9. Неравные числа наблюдений на каждое среднееЕсли мы имеем гипотезы
В разд. 9.1.2 в соотношениях (9.6) и (9.7) величины
так что имеет место (9.12). Однако соотношение (9.13) уже не будет справедливым, потому, например, что
Однако последнее можно обойти. Для этого надо просто выбрать другое идентифицирующее ограничение, а именно Хотя при классификации по одному признаку перепараметризация модели имеет в основном лишь теоретический интерес, она, как мы увидим позднее, дает по крайней мере подходящую процедуру для проведения классификации по большому числу признаков. Трудности, с которыми мы встретились в случае неравных чисел наблюдений, оказываются на практике типичными и при классификации по двум и более признакам при неравных числах наблюдений на каждое среднее. Заметим, что и здесь можно использовать совместные доверительные интервалы Шеффе и Тьюки [Spjotvoll, Stoline (1973)]. Последние рекомендуются, если основной интерес заключается в попарном сравнении средних и если значения гипотезы
где
|
1 |
Оглавление
|