12.4. Средства, помогающие интерпретации результатов
Предположим теперь, что в результате применения той или иной процедуры кластер-анализа или разделения смесей получена группировка исходных объектов на k групп. На дальнейшем этапе задачей исследователя является интерпретация (объяснение) полученного разделения на группы в терминах некоторого причинно-следственного механизма.
При интерпретации применяются обычно следующие средства.
Анализ состава объектов, попавших в одну группу.
Изучение статистических характеристик распределений переменных для объектов внутри каждой из групп. Для количественных переменных такими характеристиками для каждой переменной являются характеристики положения (медиана, мода, средняя величина) и рассеивания вокруг выбранной характеристики положения (обычно внутригруп- повое стандартное отклонение, но может использоваться, например, и абсолютное отклонение). В качестве характеристики совместного распределения переменных внутри группы используется корреляционная матрица.
В качестве переменных-индикаторов, полезных для интерпретации группы, в первую очередь ищут такие, для которых их внутригрупповое стандартное отклонение или дисперсия много меньше стандартного отклонения (дисперсии) по всей совокупности объектов. Некоторую интерпретирующую информацию можно получить из сравнения коэффициентов корреляции между переменными для разных групп. Вспомогательным, но полезным простым средством для одновременного анализа разброса значений какой-либо переменной вокруг средних значений в каждой группе и их взаимного расположения служит линейная диаграмма. Это прямая линия, на которой расположены координаты центров групп поданной переменной с указанием интервала разброса этой переменной вокруг каждого из центров (обычно ± о — одно внутригрупповое стандартное отклонение).
Если среди переменных имеются неколичественные, то как индикаторы используются частоты градаций этих переменных. Если для некоторой переменной частота ее градации в группе существенно выше, чем по всей выборке в среднем, то она может использоваться для интерпретации.
Использование дополнительных (иллюстративных) переменных. Кроме переменных, которые непосредственно использовались при получении классификации (активных переменных), полезно включать в рассмотрение и переменные, которые будут использованы только на этапе интерпретации. Для этих переменных в целях интерпретации оцениваются внутригрупповые статистические характеристики аналогично тому, как это делается для активных. Другое возможное их применение состоит в проведении дискриминантного анализа.
Использование дискриминантного анализа. Полученные группы объектов можно использовать как обучающие выборки для дискриминантного анализа в пространстве активных или иллюстративных переменных.
Проведение ДА в пространстве активных переменных можно использовать, с одной стороны, для целей оценки устойчивости классификации, для чего, например, подсчитывается такая характеристика, как частота ошибочной классификации (полная и попарные частоты) при применении метода скользящего экзамена. С другой стороны, для целей интерпретации можно выделить информативные переменные (пошаговый дискриминантный анализ) и использовать в интерпретации коэффициенты линейных дискриминантных функций.
Проведение ДА в пространстве иллюстративных переменных добавляет еще один аспект. Если в этом случае результаты ДА будут хорошими (низкая частота ошибок), то это будет служить дополнительным доводом в пользу предположения, что полученная группировка не случайна, а отражает некоторые существенные свойства структуры данных.