Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Управление большими системами. УБС-2017

.pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
17.48 Mб
Скачать

Фундаментальные математические основы теории управления

12.HO T.H., CAMERER C.F., CHONG J.K. Self-tuning experience weighted attraction learning in games // Journal of Economic Theory. – 2007. – Т. 133. – № 1. – С. 177–198.

13.KOREPANOV V.O., NOVIKOV D.A. The reflexive partitions method in models of collective behavior and control // Automation and Remote Control. – 2012. – Т. 73. – №. 8. – С. 1424–1441.

14.NAGEL R. Unraveling in guessing games: An experimental study // The American Economic Review. – 1995. – Т. 85. – № 5. – С. 1313–1326.

15.MCKELVEY R.D., PALFREY T.R. Quantal response equilibria for normal form games // Games and economic behavior. – 1995. –10(1). – С. 6–38.

16.ROBINSON J. An iterative method of solving a game // Annals of mathematics. – 1951. – С. 296–301.

17.ROTH A.E., EREV I. Learning in extensive-form games: Ex-

perimental data and simple dynamic models in the intermediate term // Games and economic behavior. – 1995. – Т. 8. – № 1. – С. 164–212.

18.SELTEN R. Features of experimentally observed bounded rationality // European Economic Review. – 1998. – Т. 42. – № 3. – С. 413–436.

19.STAHL D.O., WILSON P.W. Experimental evidence on players' models of other players // Journal of economic behavior & organization. – 1994. – Т. 25. – №. 3. – С. 309–327.

20.STAHL D.O., WILSON P.W. On players′ models of other players: Theory and experimental evidence // Games and Economic Behavior. – 1995. – Т. 10. – №. 1. – С. 218–254.

21.SUTTON R.S., BARTO A.G. Reinforcement learning: An introduction. – 2011.

22.WRIGHT J.R., LEYTON-BROWN K. Behavioral game theoretic models: a Bayesian framework for parameter analysis // Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems. Vol. 2: International Foundation for Autonomous Agents and Multiagent Systems, 2012. – С. 921–930.

23.WRIGHT J.R., LEYTON-BROWN K. Predicting human behavior in unrepeated, simultaneous-move games // arXiv preprint arXiv:1306.0918. – 2013.

21

21

Управление большими системами. Выпуск XX

24.WRIGHT J.R., LEYTON-BROWN K. Level-0 meta-models for predicting human behavior in games // Proceedings of the fifteenth ACM conference on Economics and computation. – ACM, 2014. – С. 857–874.

MODELS OF PLAYERS’ BEHAVIOR OF EXPERIMENTAL GAME THEORY

Vsevolod Korepanov, V.A. Trapeznikov Institute of Control Sciences of RAS, Moscow, Cand.Sc. (vkorepanov@ipu.ru).

Abstract: The paper gives a brief review of behavior models of people used in the experimental game theory. The main model of the game in this area is a repeated game of n persons, which, according to the history, can be divided into the first step and the subsequent ones. Accordingly, the models are divided into those that use only the description of the game and those that use the description of the game and history.

Keywords: behavior models, strategic behavior models, strategic reflection, learning models, experimental game theory, experimental economics.

22

Фундаментальные математические основы теории управления

УДК 62.50

ББК 30

УСТОЙЧИВОСТЬ МОДИФИЦИРОВАННОГО ВИХРЕВОГО АЛГОРИТМА ДЛЯ МНОГОЗВЕННОГО МАНИПУЛЯТОРА1

Рассадин Ю.М.2, Шинкарюк А.Г.3

(Институт проблем управления им. В.А. Трапезникова РАН, Москва)

В данной работе исследована устойчивость модифицированного вихревого алгоритма, реализованного на основе теории скользящих режимов по методу эквивалентного управления. В качестве объекта управления рассмотрен класс многозвенных манипуляторов как классический пример электромеханической системы. Вихревые алгоритмы в отличие от классических подходов к синтезу разрывного управления обеспечивают асимптотическую инвариантность к внешним несогласованным возмущениям, которые всегда присутствуют в задачах управления электромеханическими системами, так как являются естественным следствием структуры объекта. Устойчивость замкнутой системы анализировалась методами Ляпунова.

Ключевые слова: робот-манипулятор, вихревой алгоритм, задача слежения, инвариантность.

1. Введение

Наиболее широко применяемыми методами синтеза обратной связи в электромеханических системах являются различные вариации скользящих режимов. Такие их преимущества, как

1Работа выполнена при частичной поддержке РФФИ в проекте 15-08-01543-A и Министерства образования РФ в рамках гранта Президента РФ МД-5366.2016.8.

2Рассадин Юрий Михайлович, ст. математик (rassadin@ipu.ru).

3Шинкарюк Алла Георгиевна, математик (Москва, ул. Профсоюзная,

д. 65, тел. (495) 334-93-21).

23

23

Управление большими системами. Выпуск XX

понижение динамического порядка замкнутой системы, робастность, простота процедуры синтеза, а также современные характеристики ключевых преобразователей мощности, достигающие частот переключения в 100 kHz, определяют их применимость и, как следствие, популярность. Также системы, функционирующие в скользящих режимах, инвариантны к согласованным ограниченным внешним возмущениям. К сожалению, даже простейший случай двухзвенного манипулятора приводит к несогласованным по отношению к исполнительным устройствам возмущениям. Проблемы подавления возмущения подобного рода активно обсуждаются в [9, 10]. Теоретической же основой данной работы являются вихревые алгоритмы, описанные в [2]. Вихревые алгоритмы обеспечивают асимптотическую инвариантность замкнутой системы к несогласованным возмущениям, которые предполагаются непрерывными функциями времени второго класса гладкости на протяжении всего рассматриваемого времени работы объекта.

Основной целью данной работы было исследование сходимости для статического закона обратной связи [11] с постоянной амплитудой разрывного управления, который бы обеспечивал инвариантность к несогласованным возмущениям [7]. Статические законы обратной связи известны как одни из простейших в применении, а также позволяют снизить вычислительную нагрузку на управляющее устройство, так как не расширяют пространство состояний и не используют итерационных процедур наблюдения или идентификации.

Дальнейшее изложение строится следующим образом. В разделе «Постановка задачи» вводится математическая модель объекта и обсуждается конечная цель управления. Во втором разделе рассматривается кандидат в функции Ляпунова – полная кинетическая энергия манипулятора. Предлагаются возможная модификация закона управления и модификация функции Ляпунова. В результате получены неравенства, определяющие выбор коэффициентов обратной связи, обеспечивающие требуемую точность управления. В разделе «Численный эксперимент» сходимость алгоритмов иллюстрируется результатами компьютерного моделирования плоского двухзвенного манипулято-

24

Фундаментальные математические основы теории управления

ра с неизвестными внешними возмущениями по методу Эйлера. Далее приведены результаты сравнения с существующими классическими подходами к синтезу обратной связи для подобного рода систем. В заключение обозначены основные достигнутые результаты, подчеркнуты некоторые уязвимые места в рассуждениях и предложено направление дальнейших исследований.

2. Постановка задачи

Математическая модель плоского многозвенного манипулятора с электродвигателями постоянного тока в качестве исполнительных устройств может быть описана следующей системой уравнений [2, 5, 8]:

q1 = q2 ,

(1)q2 = H 1(q1)(v C(q1,q2 )q2 G(q1) + η (t)),

v = − Av Dq2 + Bu,

где q1,q2 n – векторы углов ориентации звеньев и соответствующих угловых скоростей, n – количество звеньев манипулятора, H (q1) – тензоринерцииманипулятора, положительноопределённая нелинейная симметричная матрица, C(q1,q2 ) – матрица центро-

бежных и кориолисовых сил, G(g1) n – вектор грави-

тационных сил и v n – вектор обобщённых моментов сил, развиваемых исполнительными устройствами, u – конечные управляющие воздействия. Все сочленения манипулятора полагаются вращательными с индивидуальными приводами. Пара-

метры двигателей постоянного тока содержатся в A, D, B n×n

диагональных матрицах с положительными постоянными коэффициентами переноса. Все параметры двигателей полагаются известными и постоянными. В данной работе рассмотрена задача слежения [5] за заданной траекторией как обобщающая постановка для задач стабилизации и регулирования. В качестве объекта управления был выбран многозвенный ( n сочленений) плоскостной манипулятор. Предполагается, что на объект могут воздействовать внешние возмущения широкого класса. Вызовом

25

25

Управление большими системами. Выпуск XX

в данной постановке является обеспечение асимптотической инвариантности посредством статического закона обратной связи, имеющего разрывной характер с постоянной амплитудой, т.е. устремление к нулю компонент вектора невязок углов ориентации (e1 = q1 q1d ) 0 при t → ∞ , причём момент на-

грузки не известен и может значительно изменяться во время работы системы. Предполагается, что внешние возмущения η (t)

и желаемые траектории q1d (t) n ограничены и могут быть

описаны функциями из класса гладкости C3 . Такие ограничения определяются применением вихревых алгоритмов, возникают и описаны конструктивно, в процессе синтеза обратной связи.

3. Кинетическая энергия как кандидат в функции Ляпунова

На первом этапе рассмотрим модель робота-манипулятора без учёта динамики исполнительных устройств:

(2)

q1 = q2 ,

 

 

q2

= H 1(q1)(v C(q1

,q2 )q2

G(q1) + η (t)),

 

где q1,q2 n – векторы углов ориентации звеньев и соответствующих угловых скоростей, H (q1) – тензор инерции манипулятора, положительно определённая нелинейная симметричная матрица, C(q1,q2 ) – матрица центробежных и кориолисовых

сил, G(g1) n – вектор моментов гравитационных сил,

v n – вектор обобщённых моментов сил, развиваемых исполнительными устройствами.

В соответствии с вихревыми алгоритмами закон управления выбирается в виде

(3)

v = α q2 Msign(q1 ).

В работе [6] в качестве функции Ляпунова используется кинетическая энергия установки. В терминах уравнений (2) кинетическую энергию манипулятора можно записать так:

26

Фундаментальные математические основы теории управления

V1 = 12 q2T H (q1,q2 )q2.

Продифференцируем по времени:

V1 = 12 q2T H (q1,q2 )q2 + q2T H (q1,q2 )q2 .

С учётом (2) и (3), а также приняв во внимание, что матрица H 2C(q1,q2 ) – кососимметрическая, перепишем:

V1 = α q2T q2 q2T (Msign(q1 ) + G(q1 ) + η (t)).

Для того чтобы скомпенсировать слагаемое Msign(q1) , введём в функцию Ляпунова дополнительное слагаемое M | q1 | , производная по времени для которого равна Msign(q1)T q2 . Тогда второе приближение для функции Ляпунова V2 = V1 + M | q1 | .

Производная по времени тогда принимает вид

V2 = α q2T q2 q2T (G(q1 ) + η (t)).

Если модифицировать закон обратной связи по принципу «комбинированного управления», чтобы прямым вычитанием, скомпенсировать вектор гравитацонных сил G(q1) , т.е. назначить

(4)

τ = −α q2 M sgn(q1 ) + G(q1 ),

то функция Ляпунова принимает вид

 

 

V

= −αqT q

2

qTη (t)

,

 

2

2

2

 

из которого видно, что от выбора коэффициента α зависит размер области устойчивости траекторий системы (2). Так как для внешних возмущений выполняется оценка |η (t) |N t , то

для производной функции Ляпунова можно записать:

V

≤ −α | q

|2 + N | q

2

|,

2

2

 

 

т.е. внутри области | q2 |N α

данная функция – кандидат

вфункции Ляпунова не гарантирует ассимптотической сходимости замкнутой системы (2)–(4), и можно утверждать лишь, что закон управления гарантирует инвариантность с заданной точностью, которая зависит от коэффициента α.

Тем не менее дополнительное слагаемое в законе обратной связи влечёт за собой повышение расхода энергии. Добавив

вфункцию Ляпунова дополнительное слагаемое, а именно

27

27

Управление большими системами. Выпуск XX

разницу между максимумом потенциальной энергии манипулятора и его конкретным значением Pmax P(q1 ) , которое по определению всегда положительно, можно скомпенсировать слагаемое q2T G(q1 ) в выражении для V2 . Действительно, произ-

водная по времени от потенциальной энергии – мощность, затрачиваемая на работу против гравиатционного поля Земли, равная скалярному произведению вектора гравитационных моментов G(q1) и вектора угловых скоростей звеньев q2 .

4. Численный эксперимент

Численный эксперимент – стандартная процедура первичной проверки выдвинутых гипотез и инструмент демонстрации преимуществ предложенных подходов. В современных условиях исследователям доступны самые широкие возможности моделирования объектов, различные техники параллельных вычислений, варианты конечно-разностных аппроксимаций по своему числу приближаются к звёздам на небе. Тем не менее до сих пор не теряют актуальности задачи, для которых наиболее подходящим является метод Эйлера, явная схема первого порядка точности.

Одна из таких задач – симуляция скользящих режимов. Причина этого кроется в разрывном характере управляющего сигнала и, как следствие, неэффективность более сложных методов, например схем «предиктор–корректор». Метод Эйлера органичен для скользящих режимов ещё и тем, что величина шага по времени соответствует конечной частоте переключений реального исполнительного устройства.

Двухзвенный манипулятор был выбран объектом эксперимента. Параметры объекта были устрановлены на следующих значениях: l1 = 1 м, l1c = 0,3 м, l2 = 1 м, l2c = 0,5 м, m1 = m2 = 1 кг. Матрицы параметров исполнительных устройств, двигателей постоянного тока, имели значения A = diag(464.9), D = diag(2.2),

B = diag(34.6) . На рис. 1 изображены углы ориентации звеньев,

совмещённые с желаемыми траекториями, а также соответствующие невязки. На рис. 2 показаны обобщённые моменты, развиваемые исполнительными устройствами, совмещённые с желаемыми траекториями и соответствующие невязки.

28

Фундаментальные математические основы теории управления

Рис. 1. Углы ориентации звеньев, желаемые траектории углов и соответствующие невязки

Рис. 2. Обобщённые моменты, желаемые траектории моментов и соответствующие невязки

29

29

Управление большими системами. Выпуск XX

5. Сравнение с существующими методами

Для сравнения с предложенным методом синтеза были выбраны две наиболее распространённые техники: глубоких обратных связей и традиционных скользящих режимов. На рис. 3 представлены сравнительные результаты численного моделирования для названных выше методов синтеза и предложенного в работе мдифицированног скользящего режима на вихревом

алгоритме. Шаг по времени был выбран равным 15 с. Графический анализ показывает, что ошибка слежения пропорциональна шагу по времени только для случая вихревого алгоритма. В системах, где был использован линейный закон обратной связи или скользящий режим, не удалось подавить внешнее несогласованное возмущение η(t) , амплитуда невязки

на два порядка больше шага по времени.

Рис. 3. Результаты сравнительного моделирования

30