5.1.2. Алгоритмы-автоматы
Прежде всего введем понятие штрафа с, используемое в теории обучения автоматов. Будем считать, что входом автомата является сигнал, характеризующий эффективность его функционирования в данный момент времени. Этот сигнал имеет двоичный характер:
где
соответствует позитивной реакции среды (объекта), а
— негативной.
Естественно связать этот штраф с изменением минимизирумого критерия
функционирования объекта. Это можно сделать следующим образом:
где
— управление, реализованное в объекте на
шаге
Так как оценка приращения критерия (5.1.7) происходит в обстановке значительной неопределенности о состоянии среды и оператора объекта, влияющих на эту оценку, то удобно воспользоваться рекуррентным сглаживанием:
где
— коэффициент сглаживания.
В этом случае оценка (5.1.7) принимает вид
Теперь рассмотрим автомат с целесообразным поведением. Будем называть его поведение целесообразным, если средний штраф при функционировании автомата меньше половины, т. е.
Иначе говоря, автомат за свои действия штрафуется
реже, чем поощряется
что, очевидно, и характеризует целесообразность его поведения. В терминах адаптации (5.1.10) означает, что оценка приращения критерия качества чаще отрицательна, чем положительна.
Заметим, что это определение целесообразности не более чем эвристика и можно легко представить ситуацию, когда при выполнении условия (5.1.10) поведение будет нецелесообразным — например, когда положительные приращения критерия (5.1.7) по модулю значительно больше отрицательных. Именно такая ситуация имеет место в окрестности экстремума критерия, что обычно затрудняет реализацию точной адаптации и требует введения специальных мер типа увеличения объема накопления и т. д. Однако в большинстве случаев эвристика (5.1.10) работает вполне эффективно, чем мы и воспользуемся.
Рассмотрим алгоритм адаптации как автомат, т. е. пятерку вида
Здесь С — алфавит входов (это двоичный сигнал штрафа с
— алфавит выходов автомата, который образуется заданными альтернативами;
— множество состояний автомата:
— функция переходов от одного состояния к другому:
где
новое состояние, в которое переходит автомат из состояния
при входе с; и - функция выходов, определяющая выход автомата по его состоянию
и входу с:
Таким образом, для определения автоматного алгоритма адаптации объекта необходимо знать:
1) множество состояний (5.1.12);
2) функцию переходов (5.1.13);
3) функцию выходов (5.1.14).
Разные способы задания этих факторов и отличают различные автоматные алгоритмы адаптации. Рассмотрим два из них.