Распознанный текст, спецсимволы и формулы могут содержать ошибки, поэтому с корректным вариантом рекомендуем ознакомиться на отсканированных изображениях учебника выше
Также, советуем воспользоваться поиском по сайту, мы уверены, что вы сможете найти больше информации по нужной Вам тематике
§ 10.22. Обучение автоматов
При
создании и обучении автоматов разумно требовать от них не просто
целесообразного поведения, а оптимального по целесообразности поведения. Иначе
говоря, такого поведения, при котором не только выполняется условие (10.89),
но и математическое ожидание штрафа достигает минимума. Это может быть
достигнуто изменением в результате обучения структуры как самого автомата, т.
е.
, так и
характеристики преобразователя
.
Мы
рассмотрим здесь для простоты последний случай. В силу уравнений (10.80) и
второго уравнения (10.82) представим
в виде
(10.90)
Попробуем
теперь найти такую характеристику преобразователя
, для которой
минимально. Будем
искать в знакомой
нам форме
(10.91)
Это
возможно, если определить систему линейно независимых функции, например, следующим
образом:
(10.92)
или
аналитически
(10.93)
где
(10.94)
Схема
таких преобразователей и их условное обозначение приведены на рис. 10.12.
Функции
представляют
собой единичные дискреты, а коэффициенты
в (10.94) — дискреты из алфавита
. Поэтому
представляется комбинацией
не
приближенно, как это было для непрерывных и импульсных систем, а точно (рис.
10.13).
Рис. 10.12.
Условие
оптимальности автомата теперь можно представить так:
(10.95)
и
задача обучения состоит в достижении этого условия путем обработки реализации
поведения автомата.
Рис. 10.13.
Поскольку
градиент реализации
нельзя определить, то мы вычислим
оценку
(10.96)
где
(10.97)
и
воспользуемся поисковым алгоритмом типа (3.15) при
. Тогда получим алгоритм
обучения
(10.98)
Теперь
уже можно построить структурную схему обучающегося автомата. Она изображена на
рис. 10.14. При погружении автомата в некую среду в результате обучения
происходит такая «настройка» характеристики преобразователя, при которой
автомат достигает оптимального поведения. Обучение может осуществляться при
постоянной характеристике преобразователя путем изменения случайного
воздействия
,
создаваемого специальным генератором. При этом будет происходить такое
перераспределение переходных вероятностей, что вероятность перехода из любого
состояния в состояния, приводящие к штрафу, уменьшалась.
Рис. 10.14.
Такие
обучающиеся автоматы обладают гибким поведением и хорошим приспособлением к
сравнительно медленным изменениям свойств среды. Они платят минимальный штраф
«в том случае, когда за вчерашние грехи сегодня награждают, и в том случае,
когда грехи остаются грехами».
Для
того чтобы сделать маленькую передышку, прежде чем переходить к несколько
иному, хотя и близкому кругу вопросов, мы хотели бы спросить читателя: «По какой
системе обучаются автоматы — очной или заочной»? В § 4.14 мы говорили об этом.