ОЭММПУАвтоматика и телемеханика Automation and Remote Control

  • ISSN (Print) 0005-2310
  • ISSN (Online) 2413-9777

О ГАРАНТИРОВАННОЙ ОЦЕНКЕ ОТКЛОНЕНИЯ ОТ ЦЕЛЕВОГО МНОЖЕСТВА В ЗАДАЧЕ УПРАВЛЕНИЯ ПРИ ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ

Код статьи
10.31857/S0005231025010057-1
DOI
10.31857/S0005231025010057
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Том/ Выпуск
Том / Номер выпуска 1
Страницы
80-98
Аннотация
Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.
Ключевые слова
нелинейная динамика динамическое программирование принцип сравнения линеаризация кусочно-квадратичная функция цены обучение с подкреплением алгоритм PPO множество разрешимости
Дата публикации
01.01.2025
Год выхода
2025
Всего подписок
0
Всего просмотров
19

Библиография

  1. 1. Незнахин А.А., Ушаков В.Н. Сеточный метод приближенного построения ядра выживаемости для дифференциального включения // Журн. вычисл. мат. и мат. физики. 2001. Т. 41. № 6. С. 895–908.
  2. 2. Goubault E., Putot S. Inner and Outer Reachability for the Verification of Control Systems // Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019. P. 11–22. https://doi.org/10.1145/3302504.3311794
  3. 3. Shafa T., Ornik M. Reachability of Nonlinear Systems with Unknown Dynamics. 2021. https://doi.org/10.48550/arXiv.2108.11045
  4. 4. Garrido S., Moreno L.E., Blanco D., Jurewicz P.P. Optimal control using the Fast Marching Method // 35th Annual Conference of IEEE Industrial Electronics. 2009. P. 1669–1674. https://doi.org/10.1109/IECON.2009.5414750
  5. 5. Субботина Н.Н., Токманцев Т.Б. Классические характеристики уравнения Беллмана в конструкциях сеточного оптимального синтеза // Тр. мат. ин-та им. В.А. Стеклова. 2010. Т. 271. С. 259–277.
  6. 6. Xue B., Fra¨nzle M., Zhan N. Inner-Approximating Reachable Sets for Polynomial Systems with Time-Varying Uncertainties // IEEE Transact. Autom. Control. 2019. V. 65. No. 4. P. 1468–1483. https://doi.org/10.1109/TAC.2019.2923049.
  7. 7. Lee D., Tomlin C.J. Efficient Computation of State-Constrained Reachability Problems Using Hopf–Lax Formulae // IEEE Transact. Autom. Control. 2023. P. 1– 15. https://doi.org/10.1109/TAC.2023.3241180
  8. 8. Cheng T., Lewis F.L., Abu–Khalaf M. Fixed-Final-Time-Constrained Optimal Control of Nonlinear Systems Using Neural Network HJB Approach // IEEE Transactions on Neural Networks. 2007. V. 18. No. 6. P. 1725–1737. https://doi.org/10.1109/TNN.2007.905848
  9. 9. Onken D., Nurbekyan L., Li X., et al. A Neural Network Approach for HighDimensional Optimal Control Applied to Multiagent Path Finding // IEEE Transact. Control Syst. Techn. 2023. V. 31. No. 1. P. 235–251. https://doi.org/10.1109/TCST.2022.3172872
  10. 10. Sa´nchez–S´anchez C., Izzo D., Hennes D. Learning the optimal state-feedback using deep networks // 2016 IEEE Symposium Series on Computational Intelligence. 2016. P. 1–8. https://doi.org/10.1109/SSCI.2016.7850105
  11. 11. Tochilin P.A. Piecewise affine feedback control for approximate solution of the target control problem // IFAC-PapersOnLine. 2020. V. 53. No. 2. P. 6127–6132. https://doi.org/10.1016/j.ifacol.2020.12.1691
  12. 12. Точилин П.А. О построении кусочно-аффинной функции цены в задаче оптимального управления на бесконечном отрезке времени // Тр. ин-та мат. и механики УрО РАН. 2020. Т. 26. № 1. С. 223–238. https://doi.org/10.21538/0134-4889-2020-26-1-223-238
  13. 13. Чистяков И.А., Точилин П.А. Применение кусочно-квадратичных функций цены для приближенного решения нелинейной задачи целевого управления // Дифференциальные уравнения. 2020. Т. 56. № 11. С. 1545–1554. https://doi.org/10.1134/S0374064120110126
  14. 14. Куржанский А.Б. Принцип сравнения для уравнений типа Гамильтона–Якоби в теории управления // Тр. ин-та мат. и механики УрО РАН. 2006. Т. 12. № 1. С. 173–183.
  15. 15. Kurzhanski A.B., Varaiya P. Dynamics and control of trajectory tubes. Theory and computation. Birkha¨user, 2014. https://doi.org/10.1007/978-3-319-10277-1
  16. 16. Саттон Р.С., Барто Э.Г. Обучение с подкреплением. М.: ДМК пресс, 2020.
  17. 17. Schulman J., Wolski F., Dhariwal P., et al. Proximal policy optimization algorithms. 2017. https://doi.org/10.48550/arXiv.1707.06347
  18. 18. Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980.
  19. 19. Скворцов А.В., Мирза Н.С. Алгоритмы построения и анализа триангуляции. Томск: Изд-во Том. ун-та, 2006.
  20. 20. Rajan V.T. Optimality of the Delaunay triangulation in Rd // Discrete & Computational Geometry. 1994. V. 12. No. 2. P. 189–202. https://doi.org/10.1007/BF02574375
  21. 21. Brown K.Q. Voronoi diagrams from convex hulls // Inform. Proc. Lett. 1979. V. 9. No. 5. P. 223–228. https://doi.org/10.1016/0020-0190 (79)90074-7
  22. 22. Liberzon D. Switching in Systems and Control. Birkhauser, 2003. https://doi.org/10.1007/978-1-4612-0017-8
  23. 23. Bardi M., Capuzzo-Dolcetta I. Optimal control and viscosity solutions of HamiltonJacobi-Bellman equations. Ser. Systems & Control: Foundations & Applications. Boston: Birkha¨user, 2008. https://doi.org/10.1007/978-0-8176-4755-1
  24. 24. Lillicrap T.P., Hunt J.J., Pritzel A., et al. Continuous control with deep reinforcement learning. 2019. https://doi.org/10.48550/arXiv.1509.02971
  25. 25. Haarnoja T., Zhou A., Abbeel P., Levine S. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. 2018. https://doi.org/10.48550/arXiv.1801.01290
  26. 26. Raffin A., Hill A., Gleave A., et al., Stable-Baselines3: Reliable Reinforcement Learning Implementations // J. Machin. Lear. Res. 2021. V. 22. No. 268. P. 1–8.
  27. 27. Petrazzini I.G.B., Antonelo E.A. Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution // 2021 IEEE Symposium Series on Computational Intelligence (SSCI). 2022. P. 1–8. https://doi.org/10.1109/SSCI50451.2021.9660123
  28. 28. Reissig G. Computing Abstractions of Nonlinear Systems // IEEE Transact. Autom. Control. 2011. V. 56. No. 11. P. 2583–2598. https://doi.org/10.1109/TAC.2011.2118950
  29. 29. Голубев Ю.Ф. Нейронные сети в мехатронике // Фундамент. и прикл. матем. 2005. Т. 11. № 8. С. 81–103.
  30. 30. Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.
QR
Перевести

Индексирование

Scopus

Scopus

Scopus

Crossref

Scopus

Высшая аттестационная комиссия

При Министерстве образования и науки Российской Федерации

Scopus

Научная электронная библиотека