РОЗРОБКА ФУНКЦІЙ ВТРАТ ДЛЯ ТРАНСФОРМЕРНИХ МОДЕЛЕЙ ОЦІНЮВАННЯ ЧАСУ В ШІ-ПРОЄКТАХ
DOI:
https://doi.org/10.32782/mathematical-modelling/2026-9-1-13Ключові слова:
прогнозування ШІ-проєктів, оцінювання тривалості проєктів, функції втрат, трансформерна модель, машинне навчання, моделювання невизначеності, доменно-зважені функції втратАнотація
Точне оцінювання часу є критично важливим для планування та управління проєктами у сфері штучного інтелекту (ШІ). Однак традиційні підходи часто не забезпечують достатньої точності через доменно-специфічний характер таких завдань, що призводить до високої варіативності та складності ШІ-проєктів. У цій роботі досліджується, як можна покращити моделі на основі трансформерів для прогнозування тривалості проєктів шляхом розробки спеціалізованих функцій втрат. Для навчання моделі було використано структурований набір даних ШІ-проєктів, що містить метадані, зокрема основний домен, додатковий домен, етап розробки та рівень складності. На основі цього набору даних було навчено трансформерну модель із застосуванням кількох підходів до побудови функцій втрат. Серед них – стандартна середньоквадратична помилка (MSE), функція втрат зважена за доменом із використанням експертних відповідностей метаданих, функція втрат із урахуванням невизначеності, а також фінальна стабілізована функція втрат, що поєднує доменне зважування з імовірнісними обмеженнями. Експериментальні результати показали, що запропонована комбінована функція втрат перевершує традиційні підходи за основними метриками точності, зокрема середньою абсолютною похибкою (MAE), середньоквадратичною похибкою (MSE) та коренем середньоквадратичної похибки (RMSE). Отримані результати підтверджують, що інтеграція доменних знань та моделювання невизначеності безпосередньо у функцію втрат дозволяє отримати більш точні, стабільні та інтерпретовані прогнози. Загалом, дана робота підкреслює важливість проєктування функцій втрат як ключового елементу прикладних задач машинного навчання та задає необхідну практичну основу необхідну для подальшого дослідження, тестування, та покращення моделей оцінювання часу в контексті управління ШІ-проєктами.
Посилання
Bishop C. M. Pattern recognition and machine learning. Springer, 2006. URL: https://link.springer.com/book/10.1007/978-0-387-45528-0 (дата звернення: 08.03.2026).
Géron A. Hands-on machine learning with scikit-learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems. 2nd ed. O’Reilly Media, 2019. URL: https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/ (дата звернення: 08.03.2026).
Gneiting T., Raftery A. E. Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association. 2007. Vol. 102, № 477. P. 359–378. DOI: https://doi.org/10.1198/016214506000001437
Khoshgoftaar T. M., Seliya N. Comparative assessment of software quality classification techniques: An empirical case study. Empirical Software Engineering. 2004. Vol. 9, № 3. P. 229–257. DOI: https://doi.org/10.1023/B:EMSE.0000027781.18360.9B
Jørgensen M., Shepperd M. A systematic review of software development cost estimation studies. IEEE Transactions on Software Engineering. 2007. Vol. 33, № 1. P. 33–53. DOI: https://doi.org/10.1109/TSE.2007.3
Kitchenham B. A., Pfleeger S. L., Pickard L. M., Jones P. W., Hoaglin D. C., El Emam K., Rosenberg J. Preliminary guidelines for empirical research in software engineering. IEEE Transactions on Software Engineering. 2002. Vol. 28, № 8. P. 721–734. DOI: https://doi.org/10.1109/TSE.2002.1027796
Menzies T., Zimmermann T. Software analytics: So what? IEEE Software. 2013. Vol. 30, № 4. P. 31–37. DOI: https://doi.org/10.1109/MS.2013.58 (дата звернення: 08.03.2026).
Thai-Nghe N., Gantner Z., Schmidt-Thieme L. Cost-sensitive learning methods for imbalanced data. Proceedings of the International Joint Conference on Neural Networks. 2010. P. 1–8. DOI: https://doi.org/10.1109/IJCNN.2010.5596486
Elkan C. The foundations of cost-sensitive learning. Proceedings of the 17th International Joint Conference on Artificial Intelligence. 2001. P. 973–978. URL: https://cseweb.ucsd.edu/~elkan/rescale.pdf (дата звернення: 28.02.2026).
He H., Garcia E. A. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering. 2009. Vol. 21, № 9. P. 1263–1284. DOI: https://doi.org/10.1109/TKDE.2008.239
Kendall A., Gal Y. What uncertainties do we need in Bayesian deep learning for computer vision? Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5574–5584. DOI: https://doi.org/10.48550/arXiv.1703.04977
Lakshminarayanan B., Pritzel A., Blundell C. Simple and scalable predictive uncertainty estimation using deep ensembles. Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 6402–6413. DOI: https://doi.org/10.48550/arXiv.1612.01474
Xia F., Liu Y., Wang Y., Liu Y. Multi-granularity uncertainty modeling for text classification. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 1056–1065. DOI: https://doi.org/10.18653/v1/P19-1101
Kachmar P. Comparative analysis of model performance for time estimations in AI projects. SCIENTIA: Collection of Scientific Papers. 2025. P. 207–212. URL: https://previous.scientia.report/index.php/archive/article/view/2300 (дата звернення: 18.03.2026).
Kachmar P. Statistical analysis of time estimation patterns in AI project timelines. SCIENTIA: Collection of Scientific Papers. 2024. P. 147–150. URL: https://previous.scientia.report/index.php/archive/article/view/2230 (дата звернення: 18.03.2026).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.




