Главная > Многомерный дисперсионный анализ
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10. ШКАЛИРОВАНИЕ ПРИЗНАКОВ КАК ПОДГОТОВИТЕЛЬНЫЙ ЭТАП МНОГОМЕРНОГО АНАЛИЗА (однофакторная классификация)

Для многих признаков, которые должны быть исследованы с помощью дискриминантного или дисперсионного анализов, важное значение имеет выбор адекватной шкалы измерений, или шкалирования. Особенно важен и затруднителен этот выбор для качественных признаков (порядковых или номинальных).

В этой главе излагается метод количественного выражения, или оцифровки, качественных признаков и шкалирования заново уже имеющихся количественных признаков. Он соответствует задаче многомерного исследования. Этот метод обладает следующими основными свойствами:

а) Признак оцифруют так, что одномерный дистант достигает своего максимального значения.

б) Для двух любых распределений признака линейный дискриминантный анализ, проведенный после предварительного шкалирования, — наилучший среди всех способов разделения.

в) Шкалирование можно реализовать с помощью простого вычислительного алгоритма.

г) При шкалировании не возникает нормально распределенных переменных.

Представленную здесь процедуру можно найти также в [47], [43], [42], а также в [33, гл. 33].

10.1. СВЕДЕНИЕ ЗАДАЧИ ШКАЛИРОВАНИЯ К ПРОБЛЕМЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ

Рассмотрим номинальный признак который может принимать К различных значений (категории, состояния, уровни) и используется в многомерном анализе при разделении индивидов на групп. Пусть каждая группа представлена случайной выборкой. Тогда результаты измерений этого качественного признака можно описать матрицей частот причем строк соответствуют группам, а К столбцов — категориям. Элемент матрицы показывает, сколько раз среди наблюдений группы встретилась категория Через обозначим суммы по строкам матриды через суммы по столбца, а через общую сумму всех частот. Сумма это число индивидов группы общее число всех индивидов.

Предположим, что ни одна из строчных или столбцовых сумм не равна нулю.

При оцифровке категориям надо приписать определенные числовые значения признаков к так, чтобы одномерное -отношение (7.7), выражающее различие между группами, стало максимальным. Следовательно, стараются добиться малого рассеяния внутри групп и большого различия между группами.

Взяв за основу матрицу частот и какой-либо вектор получим выражение для -отношения:

Здесь квадратные матрицы порядка К с элементами

диагональная матрицах элементами по главной диагонали и Как обычно, элементы единичной матрицы.

Матрица А представляется в виде

причем с элементами

Квадратичные формы в числителе и знаменателе -отношения обращаются в нуль, когда все числа совпадают. Предположим, что квадратичная форма в знаменателе ни при каких других условиях в нуль не обращается. Этому соответствует то условие, что матрицу частот нельзя представить в виде

где нулевые матрицы и нельзя добиться такого ее представления путем перестановки строк и столбцов. Значит, все категории и группы должны быть «тесно сцеплены».

Другая предпосылка заключается в том, что не все строки матрицы должны быть кратны первой строке, т.е. ранг должен быть по крайней мере равен 2; распределение наблюдений не должно быть одинаковым для всех групп.

Из этих предпосылок следует, что

Применяя теорему (2.66а), находим вектор у, или соответственно у, максимизирующий -отношение (10.1). Квадратная матрица С порядка К с элементами

удовлетворяет требованиям, сформулированным в теореме, а именно

Таким образом, приходим к проблеме собственных значений

С помощью простого преобразования из (10.9) получим

где

Используя (10.4) и теорему (2.64), получаем две эквивалентные задачи о собственных значениях

Порядок первой задачи совпадает с числом категорий К, второй — с числом групп Оба характеристических уравнения в равной степени пригодны для решения проблемы шкалирования. Они имеют одинаковые (отличные от нуля) собственные значения а соответствующие им собственные векторы (длины которых приведены к 1) связаны простым соотношением

По формуле получаем вектор у! искомых числовых значений. Оптимальное значение отношения равно:

Если желать, чтобы при последующем статистическом анализе оценки признака дали внутригрупповую дисперсию, равную 1, можно использовать соотношение

Поскольку согласно (10.10)

дисперсия этой оценки

Во многих практических случаях нормирование оценок играет второстепенную роль. При этом можно вместо матрицы частот взять кратную ей матрицу Если хотят исключить влияние различия в объемах выборок на результаты шкалирования, то в процедуре шкалирования вместо используют матрицу относительных частот

Пример. (Профессор С. Ничков, Центральный институт сердечнососудистых заболеваний и регулирования кровообращения Академии наук ГДР.)

Для диагностики артериальной гипертонии наряду со многими другими показателями используется рентгенограмма аорты. В табл. 9 представлено распределение 400 пациентов по степени тяжести заболевания от I до IV.

Наилучшую оцифровку трех категорий: «норма», «расширение сосудов» и «склероз сосудов» (с дисперсией 1) — получаем при числовых значениях (2.41; —1,57; —2,46).

Известно, что два патологических состояния: «расширение сосудов» и «склероз сосудов» — мало отличаются одно от другого по сравнению с нормальным состоянием. Соответствующее собственное значение Его можно интерпретировать как дистант оцифрованного признака.

Таблица 9. (см. скан) Частотное распределение пациентов по степени тяжести заболевания гипертонией I—IV в зависимости от вида рентгенограммы аорты (таблица частот)

1
Оглавление
email@scask.ru