СТІЙКІСТЬ СИСТЕМ ШТУЧНОГО ІНТЕЛЕКТУ ДО АДВЕРСАРІАЛЬНИХ ЗАПИТІВ ТА JAILBREAK-АТАК

М. В. БАУТІНА

doi:10.35546/kntu2078-4481.2026.1.27

Автор(и)

М. В. БАУТІНА SoftServe https://orcid.org/0009-0002-9617-9262

DOI:

https://doi.org/10.35546/kntu2078-4481.2026.1.27

Ключові слова:

робастність моделей, інформаційна безпека, мовні моделі, обхід політик безпеки, адверсаріальний вплив, безпекове узгодження, контекстна маніпуляція, архітектури захисту, оцінювання стійкості, адаптивні механізми безпеки

Анотація

Актуальність дослідження зумовлено стрімким поширенням систем ШІ у критично важливих і регульованих сферах, що супроводжується зростанням ризиків, пов’язаних із адверсаріальними запитами та jailbreak-атаками. Такі атаки підривають надійність, передбачуваність і безпечність функціонування мовних і мультимодальних моделей, створюючи загрози інформаційній безпеці, дотриманню етичних і правових норм та суспільній довірі до результатів роботи ШІ. Метою статті є комплексне наукове осмислення механізмів формування вразливостей сучасних систем ШІ до адверсаріальних запитів і jailbreak-атак та обґрунтування науково-технічних підходів до підвищення їх робастності за умов обмеженості чинних моделей безпекового узгодження. Методи дослідження ґрунтуються на теоретичному аналізі сучасних наукових джерел у галузях ШІ та інформаційної безпеки, системному та структурно-функціональному підходах, логічному узагальненні, порівняльному аналізі типів адверсаріальних атак і технічних стратегій захисту ШІ. Результати дослідження засвідчують, що ефективність jailbreak-атак зумовлена статистичною природою мовного розуміння ШІ, його інструктивною орієнтацією та високою контекстною залежністю генерації. Систематизовано основні типи адверсаріальних атак, встановлено обмеженість ізольованих захисних рішень і доведено необхідність поєднання архітектурних, навчальних та процедурних стратегій для підвищення робастності ШІ. Виявлено ключові науково-практичні проблеми реалізації захисту, пов’язані з масштабованістю, збереженням функціональної корисності моделей і неповнотою формалізації простору загроз. Висновки полягають у тому, що забезпечення стійкості ШІ до jailbreak-атак потребує переходу від реактивних механізмів блокування до системного проєктування безпеки як базової властивості інтелектуальних систем. Перспективи подальших досліджень пов’язані з розробленням формалізованих моделей загроз, узгоджених метрик оцінювання робастності та адаптивних механізмів безпеки, здатних еволюціонувати разом із практиками використання ШІ.

Посилання

Lu L., Yan H., Yuan Z., Shi J., Wei W., Chen P. Y., Zhou P. AutoJailbreak: Exploring jailbreak attacks and defenses through a dependency lens. arXiv preprint. 2024. arXiv:2406.03805. DOI: https://doi.org/10.48550/arXiv.2406.03805

Strohmier H., Dasri Y., Murzello D. Exploring Security Vulnerabilities in ChatGPT Through Multi-Technique Evaluation of Resilience to Jailbreak Prompts and Defensive Measures. 2024 International Conference on Computer and Applications (ICCA), Cairo, Egypt, 2024. P. 1–12. DOI: https://doi.org/10.1109/ICCA62237.2024.10928071

Shayegani E., Mamun M. A. A., Fu Y., Zaree P., Dong Y., Abu-Ghazaleh N. Survey of vulnerabilities in large language models revealed by adversarial attacks. arXiv preprint. 2023. arXiv:2310.10844. DOI: https://doi.org/10.48550/arXiv.2310.10844

Mao Y., Cui T., Liu P., You D., Zhu H. From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem. arXiv preprint. 2025. arXiv:2506.15170. DOI: https://doi.org/10.48550/arXiv.2506.15170

Qi X., Huang K., Panda A., Henderson P., Wang M., Mittal P. Visual adversarial examples jailbreak aligned large language models. Proceedings of the AAAI Conference on Artificial Intelligence. 2024. Vol. 38, № 19. P. 21527–21536. DOI: https://doi.org/10.1609/aaai.v38i19.30150

Hannon B., Kumar Y., Gayle D., Li J. J., Morreale P. Robust testing of AI language model resiliency with novel adversarial prompts. Electronics. 2024. Vol. 13, № 5. Article 842. DOI: https://doi.org/10.3390/electronics13050842

Li B., Wang H., Zhou A. Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks. Advances in Neural Information Processing Systems 37, Vancouver, BC, Canada, 10–15 December 2024. San Diego, California, USA, 2024. P. 40184–40211. URL: https://doi.org/10.52202/079017-1270 (date of access: 30.12.2025).

Robustness of Large Language Models Against Adversarial Attacks / Y. Tao et al. 2024 4th International Conference on Artificial Intelligence, Robotics, and Communication (ICAIRC), Xiamen, China, 27–29 December 2024. 2024. P. 182–185. URL: https://doi.org/10.1109/icairc64177.2024.10900215 (date of access: 30.12.2025).

Liu F., Xu Z., Liu H. Adversarial tuning: Defending against jailbreak attacks for LLMs. arXiv preprint. 2024. arXiv:2406.06622. DOI: https://doi.org/10.48550/arXiv.2406.06622

Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation / R. Cantini et al. Lecture Notes in Computer Science. Cham, 2025. P. 52–68. URL: https://doi.org/10.1007/978-3-031-78977-9_4 (date of access: 30.12.2025).

Fight Back Against Jailbreaking via Prompt Adversarial Tuning / Y. Wang et al. Advances in Neural Information Processing Systems 37, Vancouver, BC, Canada, 10–15 December 2024. San Diego, California, USA, 2024. P. 64242–64272. URL: https://doi.org/10.52202/079017-2049 (date of access: 30.12.2025).

Pingua B., Murmu D., Kandpal M., Rautaray J., Mishra P., Barik R. K., Saikia M. J. Mitigating adversarial manipulation in LLMs: a prompt-based approach to counter jailbreak attacks (Prompt-G). PeerJ Computer Science. 2024. Vol. 10. Article e2374. DOI: https://doi.org/10.5281/zenodo.13501821

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models / J. Ma et al. Findings of the Association for Computational Linguistics: NAACL 2025, Albuquerque, New Mexico. Stroudsburg, PA, USA, 2025. P. 3141–3157. URL: https://doi.org/10.18653/v1/2025.findings-naacl.172 (date of access: 30.12.2025).

Yi S., Liu Y., Sun Z., Cong T., He X., Song J., Li Q. Jailbreak attacks and defenses against large language models: A survey. arXiv preprint. 2024. arXiv:2407.04295. DOI: https://doi.org/10.48550/arXiv.2407.04295

Donato J. Benchmarking LLM Robustness Against Prompt-Based Adversarial Attacks. 2025 20th European Dependable Computing Conference Companion Proceedings (EDCC-C), Lisbon, Portugal, 8–11 April 2025. 2025. P. 60–63. URL: https://doi.org/10.1109/edcc-c66476.2025.00031 (date of access: 30.12.2025).

СТІЙКІСТЬ СИСТЕМ ШТУЧНОГО ІНТЕЛЕКТУ ДО АДВЕРСАРІАЛЬНИХ ЗАПИТІВ ТА JAILBREAK-АТАК

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

logo