- Код статьи
- 10.31857/S0005231025010057-1
- DOI
- 10.31857/S0005231025010057
- Тип публикации
- Статья
- Статус публикации
- Опубликовано
- Авторы
- Том/ Выпуск
- Том / Номер выпуска 1
- Страницы
- 80-98
- Аннотация
- Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.
- Ключевые слова
- нелинейная динамика динамическое программирование принцип сравнения линеаризация кусочно-квадратичная функция цены обучение с подкреплением алгоритм PPO множество разрешимости
- Дата публикации
- 01.01.2025
- Год выхода
- 2025
- Всего подписок
- 0
- Всего просмотров
- 17
Библиография
- 1. Незнахин А.А., Ушаков В.Н. Сеточный метод приближенного построения ядра выживаемости для дифференциального включения // Журн. вычисл. мат. и мат. физики. 2001. Т. 41. № 6. С. 895–908.
- 2. Goubault E., Putot S. Inner and Outer Reachability for the Verification of Control Systems // Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019. P. 11–22. https://doi.org/10.1145/3302504.3311794
- 3. Shafa T., Ornik M. Reachability of Nonlinear Systems with Unknown Dynamics. 2021. https://doi.org/10.48550/arXiv.2108.11045
- 4. Garrido S., Moreno L.E., Blanco D., Jurewicz P.P. Optimal control using the Fast Marching Method // 35th Annual Conference of IEEE Industrial Electronics. 2009. P. 1669–1674. https://doi.org/10.1109/IECON.2009.5414750
- 5. Субботина Н.Н., Токманцев Т.Б. Классические характеристики уравнения Беллмана в конструкциях сеточного оптимального синтеза // Тр. мат. ин-та им. В.А. Стеклова. 2010. Т. 271. С. 259–277.
- 6. Xue B., Fra¨nzle M., Zhan N. Inner-Approximating Reachable Sets for Polynomial Systems with Time-Varying Uncertainties // IEEE Transact. Autom. Control. 2019. V. 65. No. 4. P. 1468–1483. https://doi.org/10.1109/TAC.2019.2923049.
- 7. Lee D., Tomlin C.J. Efficient Computation of State-Constrained Reachability Problems Using Hopf–Lax Formulae // IEEE Transact. Autom. Control. 2023. P. 1– 15. https://doi.org/10.1109/TAC.2023.3241180
- 8. Cheng T., Lewis F.L., Abu–Khalaf M. Fixed-Final-Time-Constrained Optimal Control of Nonlinear Systems Using Neural Network HJB Approach // IEEE Transactions on Neural Networks. 2007. V. 18. No. 6. P. 1725–1737. https://doi.org/10.1109/TNN.2007.905848
- 9. Onken D., Nurbekyan L., Li X., et al. A Neural Network Approach for HighDimensional Optimal Control Applied to Multiagent Path Finding // IEEE Transact. Control Syst. Techn. 2023. V. 31. No. 1. P. 235–251. https://doi.org/10.1109/TCST.2022.3172872
- 10. Sa´nchez–S´anchez C., Izzo D., Hennes D. Learning the optimal state-feedback using deep networks // 2016 IEEE Symposium Series on Computational Intelligence. 2016. P. 1–8. https://doi.org/10.1109/SSCI.2016.7850105
- 11. Tochilin P.A. Piecewise affine feedback control for approximate solution of the target control problem // IFAC-PapersOnLine. 2020. V. 53. No. 2. P. 6127–6132. https://doi.org/10.1016/j.ifacol.2020.12.1691
- 12. Точилин П.А. О построении кусочно-аффинной функции цены в задаче оптимального управления на бесконечном отрезке времени // Тр. ин-та мат. и механики УрО РАН. 2020. Т. 26. № 1. С. 223–238. https://doi.org/10.21538/0134-4889-2020-26-1-223-238
- 13. Чистяков И.А., Точилин П.А. Применение кусочно-квадратичных функций цены для приближенного решения нелинейной задачи целевого управления // Дифференциальные уравнения. 2020. Т. 56. № 11. С. 1545–1554. https://doi.org/10.1134/S0374064120110126
- 14. Куржанский А.Б. Принцип сравнения для уравнений типа Гамильтона–Якоби в теории управления // Тр. ин-та мат. и механики УрО РАН. 2006. Т. 12. № 1. С. 173–183.
- 15. Kurzhanski A.B., Varaiya P. Dynamics and control of trajectory tubes. Theory and computation. Birkha¨user, 2014. https://doi.org/10.1007/978-3-319-10277-1
- 16. Саттон Р.С., Барто Э.Г. Обучение с подкреплением. М.: ДМК пресс, 2020.
- 17. Schulman J., Wolski F., Dhariwal P., et al. Proximal policy optimization algorithms. 2017. https://doi.org/10.48550/arXiv.1707.06347
- 18. Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980.
- 19. Скворцов А.В., Мирза Н.С. Алгоритмы построения и анализа триангуляции. Томск: Изд-во Том. ун-та, 2006.
- 20. Rajan V.T. Optimality of the Delaunay triangulation in Rd // Discrete & Computational Geometry. 1994. V. 12. No. 2. P. 189–202. https://doi.org/10.1007/BF02574375
- 21. Brown K.Q. Voronoi diagrams from convex hulls // Inform. Proc. Lett. 1979. V. 9. No. 5. P. 223–228. https://doi.org/10.1016/0020-0190 (79)90074-7
- 22. Liberzon D. Switching in Systems and Control. Birkhauser, 2003. https://doi.org/10.1007/978-1-4612-0017-8
- 23. Bardi M., Capuzzo-Dolcetta I. Optimal control and viscosity solutions of HamiltonJacobi-Bellman equations. Ser. Systems & Control: Foundations & Applications. Boston: Birkha¨user, 2008. https://doi.org/10.1007/978-0-8176-4755-1
- 24. Lillicrap T.P., Hunt J.J., Pritzel A., et al. Continuous control with deep reinforcement learning. 2019. https://doi.org/10.48550/arXiv.1509.02971
- 25. Haarnoja T., Zhou A., Abbeel P., Levine S. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. 2018. https://doi.org/10.48550/arXiv.1801.01290
- 26. Raffin A., Hill A., Gleave A., et al., Stable-Baselines3: Reliable Reinforcement Learning Implementations // J. Machin. Lear. Res. 2021. V. 22. No. 268. P. 1–8.
- 27. Petrazzini I.G.B., Antonelo E.A. Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution // 2021 IEEE Symposium Series on Computational Intelligence (SSCI). 2022. P. 1–8. https://doi.org/10.1109/SSCI50451.2021.9660123
- 28. Reissig G. Computing Abstractions of Nonlinear Systems // IEEE Transact. Autom. Control. 2011. V. 56. No. 11. P. 2583–2598. https://doi.org/10.1109/TAC.2011.2118950
- 29. Голубев Ю.Ф. Нейронные сети в мехатронике // Фундамент. и прикл. матем. 2005. Т. 11. № 8. С. 81–103.
- 30. Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.