Главная > Методы анализа данных. Подход, основанный на методе динамических сгущений
<< Предыдущий параграф Следующий параграф >>
Пред.
След.
Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

13.4. АДАПТИВНАЯ ОЦИФРОВКА ПРИ ИСПОЛЬЗОВАНИИ АДАПТИВНЫХ РАССТОЯНИЙ

13.4.1. Выбор пространства покрытий S

Как и в 13.3.1. мы ограничимся множеством разбиений на классов.

13.4.2. Структура представительств, пространство представительств

13.4.2.1. Пространство представительств

Определим пространство представительств как

где — множество расстояний Махаланобиса (см. гл. 12), определенных на таких, что определители соответствующих матриц равны 1, а множество V вводится в 13.2.3.

Согласно приложению 1 из гл. существует симметричная положительно определенная матрица такая, что соответствующее расстояние минимизирует инерцию множества В, причем где ковариационная матрица на В. Следовательно, всякому элементу множества можно поставить в соответствие диагональную положительно определенную матрицу, и всякое может быть представлено так:

где центр тяжести расстояние Махаланобиса на множестве В. Обозначим пространство представительств:

13.4.2.2. Мера сходства между объектом и представителем

Для того чтобы определить меру сходства между объектом и представителем, рассмотрим образ пространства при ортогональном преобразовании которое переводит расстояние, задаваемое симметричной, положительно определенной матрицей в расстояние, задаваемое диагональной матрицей составленной из собственных значений матрицы Мера сходства между объектом и представителем задается равенством

вектор перекодированных значений переменных на объекте х.

13.4.3. Оптимизируемый критерий

В качестве критерия мы будем использовать отображение причем, как и в 13.3.3, справедливы определение (3) и выражения для входящих в него параметров, кроме в данном случае где центр тяжести, расстояние Махаланобиса, ассоциированное с классом Формула (4) принимает вид

где вектор значений переменных для объекта диагональная, положительно определенная матрица, соответствующая

Таким образом, можно записать:

Определим матрицу

Тогда

Матрица К определяется в 13.3.3. Таким образом, критерий позволяет оценить, насколько адекватны разбиение и представительство

13.4.4. Задача оптимизации

Задача состоит в том, чтобы одновременно определить: разбиение на однородные классы (с минимальной суммой внутриклассовых инерций);

семейство квадратичных расстояний локально адаптируемых к структуре

числовые метки, которые были бы совместимы с начальными неоднородными данными.

По тем же причинам, что и в 13.3.4, векторы перекодированных значений переменных полагаются нормированными и центрированными в метрике Таким образом, решается следующая задача оптимизации:

где вектор-столбец из единиц.

13.4.5. Описание алгоритма

См. 13.3.5.

13.4.5.1. Функция назначения

Функция назначения является отображением причем если то где разбиение имеет вид равенство возможно лишь при Последнее определение равносильно в случае равенства Таким образом, каждый класс состоит из таких элементов множества которые в смысле расстояния «ближе» к представлению чем к любому другому в смысле

13.4.5.2. Функция представительства

Если некоторое разбиение множества на классов, то значением является где определяется как решения задачи (24).

Замечание. Если разбиение известно, то мы можем определить При решении задачи (24) следует рассмотреть три случая согласно возможным типам переменной (см. 13.3.5). Воспользуемся обозначениями из 13.3.

13.4.5.2.1. Оцифровка номинальных данных

Возможны два случая:

а) g - нулевой вектор пространства Задача оптимизации вырождается в

множество решений состоит из векторов, нормированных согласно первому уравнению и принадлежащих гиперплоскости, определяемой вторым уравнением (25);

б) g - ненулевой вектор. Рассуждая, как в 13.3.5.2.1, приходим к решению

центрированный и нормированный в метрике вектор, координатами которого являются значения перекодированной переменной.

13.4.5.2.2. Оцифровка ординальных данных

Остаются в силе соответствующие результаты из 13.3.5.2.2 при условии, что заменяется на

13.4.5.2.3. Оцифровка количественных данных

Первый подход. При использовании полиномиальной регрессии решение имеет вид

где

Второй подход. Если минимизировать невязку, то, как и в 13.3.5.2.3, получим

вектор, принадлежащий гиперплоскости удовлетворяющий

где является -ортогональным проектором на ортогональное дополнение

Третий подход. Здесь описывается оцифровка посредством прямого разложения квадратичного адаптивного расстояния. Для этого каждому классу поставим в соответствие матрицу Махаланобиса:

где ковариационная матрица класса (см. 7). является аналогом матрицы задающей в классе расстояние Матрица вещественна, симметрична и положительно определена, значит, можно найти матрицу такую, что Минимум инерции класса равен

Таким образом, найдено преобразование позволяющее минимизировать инерцию класса В качестве вектора меток количественной переменной можно взять значение всякого преобразования, способствующего уменьшению этой инерции. Пусть

можно положить

13.4.6. Сходимость алгоритма

См. 13.3.6.

13.4.7. Связь между оцифровкой переменных и определением некоторых адаптивных расстояний

Используя формулу (27), можно критерий представить в следующем виде:

Поскольку определены, положим:

— квадратичное расстояние между объектом х и центром тяжести класса Таким образом,

где семейство квадратичных расстояний, определенных на

Заключение. Итак, если определена матрица имеет место связь (эквивалентность) между адаптивной оцифровкой и определением семейства адаптивных расстояний минимизирующих критерий.

Categories

1
Оглавление
email@scask.ru