ОПТИМІЗАЦІЯ НЕЙРОННИХ МЕРЕЖ В ДИФУЗІЙНИХ МОДЕЛЯХ ДЛЯ ГЕНЕРАЦІЇ ЕСКІЗІВ З ВИКОРИСТАННЯМ КРИВИХ БЕЗ’Є

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2026.1.29

Ключові слова:

оптимізація, нейронні мережі, графічний контент, масштабованість, криві Безʼє

Анотація

У цій статті представлено та обґрунтовано інноваційний підхід до оптимізації складного процесу генерування ескізів як графічного контенту, що є критично важливим етапом для автоматизації процесу малювання. Актуальність роботи продиктована необхідністю зменшення обчислювального навантаження сучасних генеративних моделей при збереженні високої якості вихідного зображення. На основі проведеного аналізу недоліків растрової графіки було вирішено використати альтернативний тип абстрактних даних – криві Без’є, на противагу загальноприйнятим піксельним сіткам. Цей тип даних надає значно ширші можливості в побудові невеликих, але ефективних моделей з більш якісним та масштабованим результатом генерування. В результаті експериментів було отримано модель, яка здатна успішно генерувати нові дані з вхідного ескізу, а також детально проаналізовано показники стабільності та варіативності процесу генерування. У роботі проведено ґрунтовний порівняльний аналіз кількості параметрів нейронної мережі, необхідних для генерації графіки у піксельному форматі та за допомогою кривих Без’є. Встановлено, що використання кривих суттєво зменшує кількість вхідних параметрів та обчислювальну складність мережі. Наприклад, для створення моделі при генеруванні піксельного зображення 32 × 32 потрібно 1024 вхідні параметри (якщо пікселі представлені у чорно-білому форматі) або 3072 (якщо у форматі RGB). Це значно перевищує показник у понад 800 параметрів моделі, яка використовувалась для генерування масштабованих кривих у даному дослідженні. Ключовою перевагою нового підходу визначено забезпечення ідеальної масштабованості: згенеровані дані можуть бути легко збільшені або зменшені до будь-якого розміру з мінімальною втратою якості, що є неможливим у традиційних піксельних (растрових) форматах. Також варто зауважити, що якість згенерованого зображення визначається лише потенціалом архітектури нейромережі, а не обмеженням фіксованої роздільної здатності, притаманним піксельним форматам.

Посилання

Hutson, J., & Robertson, B. (2023). A Matter of Perspective: A Case Study in the Use of AI-Generative Art in the Drawing Classroom. International Journal of New Media, Technology & the Arts, 18.

Porvari, E. (2024). Exploring the potential of AI utilization in the interpretation and digitization of legacy drawings.

Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y.,... & Yang, M. H. (2023). Diffusion models: A comprehensive survey of methods and applications. ACM computing surveys, 56(4), 1–39.

Cottier, B., Rahman, R., Fattorini, L., Maslej, N., Besiroglu, T., & Owen, D. (2024). The rising costs of training frontier AI models. arXiv preprint arXiv:2405.21015.

Mudrinić, D., & Šoda, I. (2024, November). The Rise of Generative Artificial Intelligence in Business. In 2024 IEEE 17th International Scientific Conference on Informatics (Informatics) (pp. 493–498). IEEE.

Kusetogullari, A., Kusetogullari, H., Andersson, M., & Gorschek, T. (2025). GenAI in entrepreneurship: A systematic review of generative artificial intelligence in entrepreneurship research: Current issues and future directions. arXiv preprint arXiv:2505.05523.

Zhang, M., & Li, J. (2021). A commentary of GPT-3 in MIT Technology Review 2021. Fundamental Research, 1(6), 831-833.

Puteikis, K., & Mameniškienė, R. (2024). Artificial intelligence: Can it help us better grasp the idea of epilepsy? An exploratory dialogue with ChatGPT and DALL· E 2. Epilepsy & Behavior, 156, 109822.

Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R.,... & Sun, L. (2024). Sora: A review on background, technology, limitations, and opportunities of large vision models. arXiv preprint arXiv:2402.17177.

Samson, G. (2025, June). Perspectives on Generative Sound Design: A Generative Soundscapes Showcase. In Arts (Vol. 14, No. 3, p. 67). MDPI.

Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S.,... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.

Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015, June). Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning (pp. 2256–2265). pmlr.

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33, 6840-6851.

Nichol, A. Q., & Dhariwal, P. (2021, July). Improved denoising diffusion probabilistic models. In International conference on machine learning (pp. 8162–8171). PMLR.

Xiang, X., Liu, D., Yang, X., Zhu, Y., & Shen, X. (2021). Anime2Sketch: A Sketch Extractor for Anime Arts with Deep Networks [Computer software]. GitHub. https://github.com/Mukosame/Anime2Sketch

Xiang, X., Liu, D., Yang, X., Zhu, Y., Shen, X., & Allebach, J. P. (2022). Adversarial open domain adaptation for sketch-to-photo synthesis. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (pp. 1434–1444).

Веретюк, O., Огерук, Б., & Андрущак, Н. (2025). Використання шумів для стабільного генерування зображень у дифузійних моделях. Комп’ютерні системи проєктування. Теорія і практика. 7(1), 113–123. https://doi.org/10.23939/cds2025.01.113

##submission.downloads##

Опубліковано

2026-04-30