4.2.1. Подходы к нейронному управлению

<< Предыдущий параграф

Следующий параграф >>

<< Предыдущий параграф

Следующий параграф >>

Пред.

След.

Вернуться к книге

Макеты страниц

Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше

Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике

ДЛЯ СТУДЕНТОВ И ШКОЛЬНИКОВ ЕСТЬ

ZADANIA.TO

4.2.1. Подходы к нейронному управлению

Возможно, одной из первых значительных работ по нейронному управлению стааработа Видроу (Widrow) и Смита (Smith) [22]. Они показали, что их система ADALINE способна обеспечить стабилизацию неустойчивого маятника на подвижной тележке, копируя работу существующей системы, управляемой человеком. Такой способ управления представляет собой одну из форм «диспетчерского управления». В работе Албуса (Albus) [23],[24] предложен новый подход к управлению манипулятором (рукой робота), который основан на использовании разновидности нейронной сети с просмотровой таблицей. Такая сеть получила название АК (церебральный артикуляционный контроллер). Сотрудники Нью-Гэмпширского университета Миллер и др. [25] применили такую сеть для управления роботом и для решения других практических задач. В1983 г. Барто и др. [26] выдвинули идею адаптивной обучающейся системы, состоящей (если использовать терминологию, предложенную авторами) из одного ассоциативного поискового элемента (АПЭ) и одного адаптивного критического элемента (АКЭ). Такой прием был применен для стабилизации системы, как показано на рис. 4.2.1. Вербос [19] классифицировал такой подход как «адаптивно-критический». Кроме того, были и другие работы по исследованию и применению данного подхода, основанного на назначении доверия [27—32].

Рис. 4.2.1. Адаптивно-критический метод Барто,

Саттона и Андерсена [26]

Успешное применение алгоритма обратного распространения для обучения многослойных сетей дало толчок широкому применению нейронных сетей в управлении. Предлагались различные схемы нейронного управления, основанные на алгоритме обратного распространения. Возможно, одной из наиболее распространенных схем стала схема нейронного управления на основе инверсно-прямой модели. Популярность этого подхода связана с его простотой. Сущность подхода состоит в следующем: сначала нейронная сеть обучается на инверсии объекта управления, а затем она может быть настроена на непосредственное управление этим объектом.

Идея этой схемы была, по-видимому, заимствована из традиционной схемы управления с самонастройкой [1], в которой требуемое управляющее воздействие определяется из инверсной математической модели путем задания желаемого выходного сигнала объекта. В работе [33] показаны некоторые примеры применения схемы управления на основе инверсной модели для линейных систем с использованием нейронных сетей. Другие примеры применения такого подхода приводятся в работах [35]-[37].

Рис. 4.2.2. Обобщенное обучение, или архитектура прямого инверсного управления. Модель нейронной сети обучается автономно на инверсной модели объекта управления. По окончании обучения она настраивается для непосредственного управления объектом.

Работа Псалтиса (Psaltis) и др. [38], по-видимому, одна из наиболее цитируемых работ в области нейронного управления. В ней предложены два простых, но эффективных метода обучения нейронных сетей или две инверсные модели объекта управления, использующих алгоритм обратного распространения. Они называются архитектурами обобщенного и специализированного обучения. В архитектуре обобщенного обучения, показанной на рис. 4.2.2, сеть обучается автономно, с использованием образцов, полученных по характеристикам разомкнутого или замкнутого объекта управления. Этот метод аналогичен обучению на примерах в задаче распознавания образов. Обученная таким образом сеть настраивается на работу в качестве контроллера для объекта управления, подобно обычной системе управления с обратной связью. Архитектура специализированного обучения (рис. 4.2.3)

Рис. 4.2.3. Архитектура специализированного обучения. Модель нейронной сети непосредственно обучается на инверсной модели объекта управления (на основе обратного распространения ошибки)

используется для непосредственного (или «управляемого целью») обучения сети; при этом ошибка выполнения распространяется по сети в обратном направлении при каждой выборке. Однако при этом требуется знать якобиан объекта управления. Чтобы избежать возникающих при этом трудностей, вместо элементов якобиана могут использоваться знаки этих элементов, которые представляют собой направления воздействия параметров управления на выходы объекта управления (как показано в [39]).

Еще одной инверсной (на этот раз, однако, непрямой) моделью непосредственного обучения для нейронного управления, использующей алгоритм обратного распространения, стала схема «обучения с ошибкой обратной связи», предложенная в работах [40],[41]. В этой схеме (показанной на рис. 4.2.4) нейронная сеть настраивается параллельно обычному контроллеру с обратной связью (будем называть такую архитектуру «схемой параллельного нейронного управления»). Сеть обучается непосредственно, путем повторения циклов желаемой траектории; при этом ошибка обратной связи распространяется по сети в обратном направлении. Сходимость достигается, когда нейронная сеть, завершив обучение на инверсии объекта

Рис. 4.2.4. Архитектура обучения с ошибкой обратной связи. Модель нейронной сети непосредственно обучается на инверсии модели объекта управления путем обратного распространения выходного сигнала контроллера с обратной связью

управления, принимает на себя управление объектом, устраняя действие контроллера с обратной связью.

Этот метод управления аналогичен, например, обучению игре в теннис. Теннисист-новичок сначала не умеет правильно ударять по мячу и поэтому старается делать это как можно точнее (пока не научится чему-то, подобному обычному управлению). Однако после определенной практики игрок научится более правильно управлять размахом руки при ударе по мячу (высококачественное управление после окончания обучения). Метод обучения на основе ошибки обратной связи состоит в многократном повторении цикла желаемой траектории. Поэтому его практическое применение ограничивается только некоторыми типами систем, в частности, системами управления рукой робота и сервомоторами.

Еще одна важная архитектура нейронного управления, использующая алгоритм обратного распространения — это схема, независимо предложенная в работах [42 — 45] и [20]. Вербос (Werbos) этот метод классифицирует как «обратное распространение во времени» [20]. Хотя Джордан (Jordan) и Румельхарт (Rumelhard) утверждают [43], что они первыми

Рис. 4.2.5. Схема нейронного управления с эмулятором и контроллером, или «обратное распространение во времени».

Нейроконтроллер обучается на инверсной модели объекта управления, а нейроэмулятор — на обычной модели объекта управления. Нейроконтроллер может обучаться непосредственно, на основе обратного распространения ошибки через нейроэмулятор

разработали этот подход, данная архитектура не представляет собой ничего нового с точки зрения специалистов по теории управления, так как она во многом сходна с одной из традиционных структур адаптивного управления — косвенным адаптивным управлением. В этой схеме для управления объектом используются две нейронные сети, как показано на рис. 4.2.5. Первая сеть используется как эмулятор, вторая — как контроллер. Сеть эмулятор может обучаться автономно, с использованием архитектуры обобщенного управления [38], или даже непосредственно, путем ввода случайных входных сигналов для обучения динамике объекта управления.

Данная архитектура обеспечивает более точное непосредственное обучение нейроконтроллера, так как ошибка может распространяться в обратном направлении через эмулятор в каждой выборке. В главе 5 будет показано применение такой архитектуры для двух практических задач.

До сих пор при рассмотрении различных технологий нейронного управления речь шла об объекте управления вообще, хотя в последней из рассмотренных схем присутствует определенная идентификация объекта управления за счет использования нейроэмулятора. Однако в данном случае нейроэмулятор используется просто как средство для обратного распространения ошибки, с целью получения эквивалентной ошибки на выходе нейроконтроллера. Благодаря такой способности к обучению нейронные сети могут также использоваться для идентификации системы, что стало одним из основных факторов разработки многих традиционных адаптивных контроллеров. Широкие исследования (не рассматриваемые в данной работе) проведены также в области применения нейронных сетей для идентификации объекта управления. Среди работ, посвященных применению нейронных сетей для идентификации систем, можно упомянуть работы [44], [46 — 51].

С точки зрения авторов данной книги, большинство схем нейронного управления, разработанных до настоящего времени, основаны на следующих подходах.

1. Последовательная схема управления. Нейронная сеть непосредственно обучается отображению желаемых (опорных) сигналов в управляющие воздействия, необходимые для получения таких сигналов.

2. Параллельная схема управления. Нейронная схема используется для компенсации управляющего воздействия, задаваемого обычным контроллером. Компенсация производится таким образом, чтобы выходной сигнал объекта управления поддерживался как можно ближе к желаемому.

3. Схема управления с самонастройкой. Нейронная сеть настраивает параметры управления, задающие работу обычного контроллера, таким образом, чтобы выходной сигнал объекта управления поддерживался как можно ближе к желаемому.

4. Схема управления с эмулятором и контроллером, или

схема обратного распространения во времени. Максимизируется некоторая мера полезности или эффективности во времени, однако при этом эффективный учет действия шумов не обеспечивается, и действительное обучение в реальном времени не достигается (из-за медленной сходимости процесса обучения).

5. Адаптивно-критическая схема. Эта схема приближена к динамическому программированию, т.е. к реализации оптимального управления во времени в условиях шумов и нелинейностей.

Все эти методы нейронного управления, за исключением последнего, будут подробно рассмотрены в последующих разделах на основе алгоритма обратного распространения.

<< Предыдущий параграф

Следующий параграф >>

Оглавление