РОЛЬ-ОРІЄНТОВАНЕ MULTI-AGENT REINFORCEMENT LEARNING ДЛЯ АВТОНОМНОГО РОЗПОДІЛУ ЗАДАЧ У ГЕТЕРОГЕННОМУ РОЇ БЕЗПІЛОТНИХ ЛІТАЛЬНИХ АПАРАТІВ
DOI:
https://doi.org/10.35546/kntu2078-4481.2025.4.2.35Ключові слова:
рій БпЛА; гетерогенні мультиагентні системи; reinforcement learning; рольова декомпозиція; кооперативне управління; автономний розподіл задач.Анотація
У статті розглянуто проблему побудови адаптивних моделей керування гетерогенними роями безпілотних літальних апаратів (БпЛА), що діють у динамічних умовах із частковою спостережуваністю та обмеженими ресурсами. Традиційні підходи – статичний розподіл ролей, евристичні алгоритми чи однорівневі моделі підкріплювального навчання – часто не забезпечують достатньої гнучкості та стабільності в задачах, які потребують узгодженої взаємодії різнотипних агентів. Для подолання цих обмежень запропоновано роль-орієнтовану архітектуру multi-agent reinforcement learning (MARL), у якій поведінка кожного БпЛА описується двошаровою політикою: верхній рівень відповідає за вибір ролі, а нижній – за формування дії, що залежить від контексту місії та особливостей агента. Метою роботи є розроблення формальної моделі роль-орієнтованого MARL та проведення аналітичної оцінки її ефективності для автономного розподілу задач у гетерогенних роях БпЛА. У межах дослідження побудовано математичний опис політики ролей і дій, визначено функцію нагороди, що враховує кооперативні показники місії, та сформульовано оптимізаційну задачу навчання. Проведено теоретичне моделювання очікуваної поведінки рою у типових кооперативних сценаріях, що включають розвідку, пошук і рятування та доставку ресурсів. Аналітичне порівняння з базовими підходами показало, що рольова декомпозиція потенційно забезпечує кращу стабільність політики, вищу енергоефективність, адаптивний розподіл задач і зниження кількості конфліктних дій між агентами. Також визначено ключові метрики, за якими планується здійснити подальшу симуляційну перевірку: час виконання місії, покриття території, кількість успішних підзадач, стійкість до відмов та частота зміни ролей. Результати теоретичного аналізу підтверджують доцільність застосування роль-орієнтованих MARL- методів для керування гетерогенними роями, особливо в умовах високої невизначеності та складної структури місій. Запропонована модель формує підґрунтя для подальших програмних реалізацій та емпіричних досліджень у симуляційному середовищі.
Посилання
Ekechi C. C., Elfouly T., Alouani A., Khattab T.A Survey on UAV Control with Multi-Agent Reinforcement Learning // Drones. 2025. Vol. 9, No. 7. Article 484. DOI: 10.3390/drones9070484.
Bettini M., Shankar A., Prorok A. Heterogeneous Multi-Robot Reinforcement Learning // Proceedings of the 22nd International Conference on Autonomous Agents and Multiagent Systems (AAMAS). 2023. Р. 1–9.
Liu H., Shao Z., Zhou Q., Tu J., Zhu S. Task Allocation Algorithm for Heterogeneous UAV Swarm with Temporal Task Chains // Drones. 2025. Vol. 9, No. 8. Article 574. DOI: 10.3390/drones9080574.
Wang T., Zhang H. D., Yang J., Zheng W., Wang H., Zhang C.ROMA: Multi-Agent Reinforcement Learning with Emergent Roles // Proceedings of the 38th International Conference on Machine Learning (ICML). 2021. PMLR 139. Р. 10893–10902.
Li X., Chen Y., Xu Y. Adaptive Task Allocation in Heterogeneous UAV Swarms via Deep Reinforcement Learning // Robotics and Autonomous Systems. 2023. Article 104482. DOI: 10.1016/j.robot.2023.104482.
Rahman M. M., Li Y., Mir I. A. Multi-Agent Reinforcement Learning: A Review of Challenges and Applications in UAV Systems // IEEE Access. 2022. Vol. 10. Р. 78934–78958. DOI: 10.1109/ACCESS.2022.3191157.
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.






