Пред.
След.
Макеты страниц
Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ
ZADANIA.TO
13.6. Нелинейное отображение многомерных данных в пространство низкой размерностиВ некоторых случаях более точного отображения геометрической структуры исходной матрицы данных X в пространстве малой размерности можно добиться, используя нелинейное отображение [300, 9, 152]. Для получения таких отображений задаются тем или иным критерием (мерой) искажения 13.6.1. Нелинейное отображение по критерию типа стресса.Мера искажения, рассматриваемая ниже, была предложена Сэммоном [300] и является аналогом критерия «стресса», используемого в многомерном шкалировании (см. гл. 16).
где Пусть Так как евклидово расстояние не меняется при повороте осей координат, то координаты образов объектов, которые будем искать с помощью минимизации, можно считать некоррелированными (ортогональными) и центрированными Рассмотрим сначала случай, когда Использование двухпараметрического критерия, предложенного в [152]
дает большие возможности, поскольку естественно ожидать, что можно удачно отобразить конфигурацию в пространство меньшей размерности, если искажения носят такой характер, что большие расстояния несколько увеличиваются, а малые несколько уменьшаются. Это, например, может оказаться полезным для дальнейшего использования преобразованной матрицы данных в задачах классификации, поскольку малые расстояния характерны для объектов, принадлежащих одному классу, а большие — разным. Поэтому можно ожидать, что степень разнесенности классов не слишком уменьшиться в результате такого преобразования, а, возможно, и возрастет. Для получения такого эффекта надо положить В качестве расстояния между точками Поиск образов объектов, минимизирующий значение функционала (13.16) при нелинейном отображении, осуществляется, например, с помощью итерационной градиентной процедуры:
где t — номер шага итерации; Выражение для градиента приведено в [11]. Пусть Остановка процедуры на В качестве начального приближения 13.6.2. Быстрое нелинейное отображение с помощью опорных точек.Рассмотренный в п. 13.5.1 алгоритм нелинейного отображения требует при реализации выполнения большого количества арифметических операций, на каждом шаге итерации количество умножений пропорционально Идея алгоритма БНО. Алгоритм БНО [66] основан на том, что в Действительно, разности Конечно, опорные точки Если опорные точки зафиксированы, то в качестве функционала качества отображения может быть использована следующая величина:
где Итерационная процедура уточнения координат точки
где Выбор нулевого приближения. Начальные значения
Выбор системы опорных точек. Выбор системы опорных точек может производиться случайным способом. Обычно его повторяют несколько раз. При этом опорные точки не должны быть слишком близки друг к другу. Поэтому новая опорная точка добавляется к ранее выбранным, только если минимальное расстояние этой точки от ранее выбранных не менее Другой способ состоит в разбиении матрицы X на Указанные методы можно комбинировать и выбирать отображение либо с минимальной величиной критерия, либо наиболее подходящее с визуальной точки зрения. Пусть Шаг 1. Вычисляется матрица попарных скалярных произведений размера
Шаг 2. Вычисляются собственные числа и векторы матрицы V.
Рис. 13.5 Быстрое нелинейное отображение сельскохозяйственных регионов СССР в двумерное пространство Пусть Пример 13.3. На рис. 13.5 предоставлены отображения, полученные с помощью алгоритма БНО. В качестве матрицы данных использовалась матрица данных из [149] 13.6.3. Быстрый алгоритм нелинейного проецирования многомерных данных.Как меру искажения геометрической конфигурации будем рассматривать здесь
где Для дальнейшего удобно будет использовать величину
Очевидно, что Будем искать преобразование Дальше, в силу того, что расстояния не меняются при преобразованиях переноса, не ограничивая общности, будем считать, что выполнены следующие условия: Из аналогичных соображений (инвариантности расстояний при ортогональных преобразованиях) можно считать, Пусть дальше
Таким образом, это скалярное произведение у и t, деленное на Если у и t центрированы, то Найдем теперь первую производную от
В точке глобального минимума
Далее имеем
Меняя порядок суммирования по Г и
где векторы
Аналогично получаем, что
Кроме того,
Окончательно вектор производных по компонентам
Поскольку и
Предлагаемый алгоритм основан на применении итерационного соотношения процесса Ньютона отдельно для каждого вектора
Вопросы вычислительной реализации и сходимости итерационной процедуры. Дальнейшие упрощения могут быть получены за счет использования формулы Бартлетта для обращения матрицы
Матрица В, диагональная, и ее обращение не представляет вычислительных трудностей. Конечно, ее диагональные элементы должны быть ненулевыми. Кроме того, для сходимости итерационного процесса (13 20) необходимо, чтобы каждая из матриц
В частности, в точках минимума функционала (13.19) условие (13.21) выполняется, поскольку матрица Оценим теперь трудоемкость вычисления градиента В выражение, задающее каждый из частных градиентов Учитывая это, получаем после некоторых преобразований, что для градиента число операций умножения пропорционально Что касается Окончательно количество вычислений (умножений), связанное шагом итерации по методу Ньютона, будет 13.6.4. Сравнение нелинейного проецирования (картирования) с линейным.На первый взгляд кажется, что уменьшение суммарного искажения геометрической конфигурации данных, которое обеспечивается нелинейным проецированием, обязательно должно привести к получению большей информации о структуре данных в исходном многомерном пространстве. Ниже приводится модельный пример, который показывает, что применение нелинейного отображения может не только не улучшить, но и ухудшить передачу деталей строения многомерной конфигурации при ее отображении в пространстве более низкой размерности. Пример 13.4. Предположим, что в двумерном пространстве переменных Внешний R и внутренний
Рис. 13.6. Тороидальная структура данных в Точки Процедура нелинейного проецирования стремится уменьшить искажения в передаче совокупности попарных расстояний между точками. В частности, для проекции трехмерного пространства в двумерное точки На рис. 13.7 представлены результаты отображения моделированных данных соответственно на плоскость двух первых главных компонент и с помощью нелинейного отображения по критерию Сэммона (13.16). Использована выборка из Добавляя дополнительные «шумовые» переменные, можно добиться полного исчезновения подковообразной структуры при нелинейном отображении.
Рис. 13.7. Отображение: а) на плоскость двух первых главных компонент Получается, что за счет улучшения передачи несущественных деталей конфигурации ухудшается отображение наиболее интересной информации о ней. В данном случае это явление можно объяснить следующим образом. Истинное расстояние между точками
Третья и последующие координаты В то же время, если координата Приведенный пример подтверждает необходимость правильного выбора переменных и метрики при использовании нелинейного проецирования и метода главных компонент, а также целесообразность использования совокупности этих методов для анализа структур данных (см. также гл. 18, 19).
|
1 |
Оглавление
|