14.3.3. Метод корреляционных плеяд.
Задача разбиения признаков на группы часто имеет и самостоятельное значение. Например, в ботанике для систематизации вновь открытых растений делают разбиение набора признаков на группы так, чтобы 1-я группа характеризовала форму листа, 2-я группа — форму плода и т. д. В связи с этим и возник эвристический метод корреляционных плеяд [48, 1511.
Метод корреляционных плеяд, так же как и метод экстремальной группировки, предназначен для нахождения таких групп признаков - «плеяд», когда корреляционная связь, т. е. сумма модулей коэффициентов корреляции между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (меж-плеядная) — мала. По определенному правилу по корреляционной матрице признаков образуют чертеж — граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, и образуют плеяду.
Рассмотрим корреляционную матрицу , исходных признаков. Нарисуем кружков; внутри каждого кружка напишем номер одного из признаков. Каждый кружок соединяется линиями со всеми остальными кружками; над линией, соединяющей элементы (ребром графа), ставится значение модуля коэффициента корреляции Полученный таким образом чертеж рассматриваем как исходный граф.
Задавшись (произвольным образом или на основании предварительного изучения корреляционной матрицы) некоторым пороговым значением коэффициента корреляции исключаем из графа все ребра, которые соответствуют коэффициентам корреляции, по модулю меньшим
Затем задаем некоторое и относительно него повторяем описанную процедуру. При некотором достаточно большом граф распадается на несколько подграфов, т. е. таких групп кружков, что связи (ребра графа) между кружками различных групп отсутствуют. Очевидно, что для полученных таким образом плеяд внутриплеядные коэффициенты корреляции будут больше , а межплеядные — меньше .
В другом варианте корреляционных плеяд [481 предлагается упорядочивать признаки и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.
Упорядочение производится на основании принципа максимального корреляционного пути все признаков связываются при помощи () линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находят наибольший по абсолютной величине коэффициент корреляции, например (коэффициенты на главной диагонали матрицы, равные единице, не рассматриваются).
Рисуем кружки, соответствующие параметрам и и над «связью» между ними пишем значение Затем, исключив находим наибольший коэффициент в столбце матрицы (это соответствует нахождению признака, который наиболее сильно после ) «связан» с и наибольший коэффициент в строке матрицы (это соответствует нахождению признака, наиболее сильно после ) «связанного» с . Из найденных таким образом двух коэффициентов корреляции выбирается наибольший — пусть это будет . Рисуем кружок соединяем его с кружком и проставляем значение Затем находим признаки, наиболее связанные с и выбираем из найденных коэффициентов корреляции наибольший. Пусть это будет Требуем, чтобы на каждом шаге получался новый признак, поэтому признаки, уже изображенные на чертеже, исключаются, следовательно,
Далее рисуем кружок, соответствующий и соединяем его с и т.д. На каждом шаге находятся параметры, наиболее сильно связанные с двумя последними рассмотренными параметрами, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после шага; граф оказывается состоящим из кружков, соединенных () ребром.
Затем задается пороговое значение а все ребра, соответствующие меньшим, чем , коэффициентам корреляции, исключаются из графа.
Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что во втором варианте метода корреляционных плеяд допускается построение только незамкнутых графов, а в первом варианте такое ограничение отсутствует. Поэтому разбиения на плеяды, полученные разными способами, могут не совпадать.
В работе [97] приводятся результаты экспериментальной проверки алгоритмов экстремальной группировки параметров, а также сравнение полученных результатов с результатами, даваемыми методом корреляционных плеяд.
Эксперимент проводился на физиологическом материале: исследовались влияния шумов и вибрации на работоспособность и самочувствие. Регистрировались 33 признака из них 7 параметров, характеризующих температуру тела; 4 — кровяное давление; 14 — аудиометрию (порог слышимости на заданной частоте); 2 — дыхание; 4 — силу и выносливость рук и 2 (особенных параметра) — пульс и скорость реакции.
С точки зрения физиолога «идеальным» было бы разбиение, при котором все характеристики температур образовали бы отдельную группу; параметры, характеризующие давление — свою отдельную группу и т.д., обособленные параметры образовали бы группы, состоящие из одного элемента. Наиболее близким к «идеальному» оказалось разбиение, полученное вторым алгоритмом экстремальной группировки, хотя алгоритм и присоединяет обособленные параметры к другим группам. Наименее точные (среди трех сравниваемых алгоритмов) результаты дал метод корреляционных плеяд.
Исторически раньше возникшие различные варианты метода корреляционных плеяд являются в действительности несколько упрощенными эвристическими версиями более совершенных в математическом плане алгоритмов исследования структуры связей между компонентами многомерного признака, использующими графы-деревья (см. [12, гл. 4).