МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ БЕЗПІЛОТНИХ ЛІТАЛЬНИХ АПАРАТІВ У ЗАВДАННЯХ ВІЙСЬКОВОЇ ЛОГІСТИКИ

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2025.3.2.31

Ключові слова:

навчання з підкріпленням, безпілотні літальні апарати, військова логістика, MARL, CMDP, CVaR, CTDE, маршрутизація, енергетичні обмеження, симуляційне навчання

Анотація

У статті проведено розгорнутий огляд сучасних методів навчання з підкріпленням (Reinforcement Learning, RL) та їхнього застосування у сфері військової логістики із використанням безпілотних літальних апаратів (БпЛА). Актуальність теми зумовлена зростанням ролі БпЛА у забезпеченні оперативного транспортування вантажів, розвідки та підтримки бойових підрозділів, особливо в умовах обмеженого часу та високого рівня ризику. Проаналізовано ключові наукові роботи, що демонструють ефективність RL у завданнях планування маршруту, координації груп дронів (multi-agent RL, MARL), управління ресурсами та енергоспоживанням, а також у контексті врахування невизначеностей і ризиків (risk-sensitive RL, CVaR). Особливу увагу приділено підходам, які дозволяють формалізувати логістичні задачі як марковські процеси прийняття рішень із обмеженнями (CMDP), застосуванню механізмів уваги та графових нейронних мереж для оптимізації маршрутів, а також технологіям центрального навчання з децентралізованим виконанням (CTDE), що забезпечують ефективну взаємодію кількох БпЛА в реальному часі. Наведено математичні моделі та формули, що описують процес оптимізації політики керування, енергетичні обмеження та алгоритмічні модифікації, спрямовані на підвищення безпеки й надійності виконання завдань. Огляд містить аналіз підходів до інтеграції RL-рішень із системами моніторингу й контролю, а також описує сучасні виклики, серед яких є проблема перенесення навчених політик із симуляторів у реальні умови (sim-to-real), обмеженість обчислювальних ресурсів на борту БпЛА та необхідність стійкості до втрати зв’язку. Результати роботи можуть бути використані для побудови ефективних логістичних платформ, що здатні до автономної адаптації в умовах динамічних і небезпечних середовищ.

Посилання

Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. Cambridge : MIT Press, 2018. 548 p.

Abbeel P., Coates A., Ng A. Y. Autonomous helicopter aerobatics through apprenticeship learning. International Journal of Robotics Research. 2010. Vol. 29, No. 13. P. 1608–1639. DOI: 10.1177/0278364910371999

Lowe R., Wu Y., Tamar A., Harb J., Abbeel P., Mordatch I. Multi-Agent Actor-Critic for Mixed Cooperative- Competitive Environments. Advances in Neural Information Processing Systems (NeurIPS). 2017. P. 6379–6390.

Foerster J., Farquhar G., Afouras T., Nardelli N., Whiteson S. Counterfactual multi-agent policy gradients. Proceedings of the AAAI Conference on Artificial Intelligence. 2018. Vol. 32, No. 1. P. 2974–2982.

Achiam J., Held D., Tamar A., Abbeel P. Constrained Policy Optimization. Proceedings of the 34th International Conference on Machine Learning (ICML). 2017. P. 22–31.

Cohen M. H., Belta C. Safe exploration in model-based reinforcement learning using control barrier functions. Automatica. 2023. Vol. 147. Art. 110684. DOI: 10.1016/j.automatica.2022.110684

Chow Y., Tamar A., Mannor S., Pavone M. Risk-sensitive and robust decision-making: a CVaR optimization approach. Advances in Neural Information Processing Systems (NeurIPS). 2015. P. 1522–1530.

Chen S., Mo Y., Wu X., Xiao J., Liu Q. Reinforcement Learning-Based Energy-Saving Path Planning for UAVs in Turbulent Wind. Electronics. 2024. Vol. 13, No. 16. Art. 3190. DOI: 10.3390/electronics13163190

Khalil E., Dai H., Zhang Y., Dilkina B., Song L. Learning combinatorial optimization algorithms over graphs. Advances in Neural Information Processing Systems (NeurIPS). 2017. P. 6348–6358.

Akkaya I., Andrychowicz M., Chociej M., et al. Solving Rubik’s Cube with a Robot Hand. arXiv preprint. arXiv:1910.07113. 2019.

##submission.downloads##

Опубліковано

2025-11-28