Глава 14. ПЕРЕКРЕСТНАЯ КЛАССИФИКАЦИЯ С ПОМОЩЬЮ ТАБЛИЦЫ СОПРЯЖЕННОСТИ
Пусть имеется таблица сопряженности
двух множеств
требуется найти разбиение
множества
классов и разбиение
множества
на
классов, такие, чтобы коэффициент Пирсона
для вновь полученной таблицы сопряженности был максимальным. Существует много методов решения этой задачи, например алгоритм обмена Ренье.
В этой главе рассматривается построение последовательности разбиений
которая получается поочередным применением метода динамических сгущений к множествам
14.1. ПОСТАНОВКА ЗАДАЧИ
Пусть
таблица сопряженности, построенная по двум множествам:
Исходя из
о можно определить
как это обычно делается при анализе таблиц сопряженности:
Зависимость между
можно измерять с помощью коэффициента Пирсона по таблице
Эта величина показывает, насколько измеренные частоты
отличаются от соответствующих значений в случае, если бы
были независимы, т. е. от
Чем больше величинах, тем сильнее связаны множества
и в случае их независимости она обращается в нуль.
Если дано разбиение
множества
и разбиение
множества У, то можно определить новую таблицу сопряженности, элементами которой являются
Для каждой гакой таблицы можно найти значение коэффициента (1). Паша задача состоит в определении разбиений
максимизирующих величину
для соответствующей таблицы. Таким образом, мы ищем наиболее зависимые разбиения. Для обоснования такого подхода рассмотрим пример Бэнзекри [1]. Пусть
число членов
коммуны, имеющих
профессию. «Разбиение
множества коммун будет тем лучше, чем больше информации о долях различных профессий членов
коммуны несет знание класса коммуны. С другой стороны, разбиение
множества профессий тем лучше, чем больше будут группироваться профессии, которые имеют члены отдельных коммун, т. е. когда знание класса, в который попала
профессия, дает приближенную информацию о том, как люди, имеющие эту профессию, распределяются по коммунам».