МЕТОДИ ІН’ЄКЦІЇ ВРАЗЛИВОСТЕЙ У СМАРТ-КОНТРАКТИ ДЛЯ ФОРМУВАННЯ ЗБАЛАНСОВАНИХ ДАТАСЕТІВ
DOI:
https://doi.org/10.35546/kntu2078-4481.2025.3.2.58Ключові слова:
смарт-контракти, Solidity, вразливості, ін’єкція вразливостей, reentrancy, integer overflow, збалансований датасет, статичний аналіз, великі мовні моделіАнотація
Смарт-контракти широко застосовуються у фінансових та децентралізованих застосунках, проте їхня безпека залишається критичною проблемою. Аналіз існуючих корпусів показує значний дисбаланс: поширені класи уразливостей (integer overflow/underflow) істотно домінують, тоді як критично небезпечна вразливість повторного входу представлена обмежено. Це ускладнює навчання та об’єктивне оцінювання інструментів виявлення вразливостей. Мета дослідження полягає у підвищенні об’єктивності та якості навчання й тестування методів виявлення уразливостей у смарт-контрактах шляхом створення збалансованого контрольованого датасету.Запропоновано два взаємодоповнювальні підходи ін’єкції. Детермінований метод спирається на статичний аналіз і формальні патерни відбору/модифікації функцій, забезпечуючи відтворюваність і синтаксичну коректність. LLM-підхід виконує контекстно узгоджені зміни з мінімальною різницею коду, підвищуючи різноманітність прикладів. Обидва інтегровані в єдиний конвеєр із нормалізацією, дедуплікацією та багатоступеневою валідацією: успішна компіляція solc, статичне підтвердження цільових патернів, перевірка збереження нецільової логіки та мінімальності змін. Результатом є збалансований датасет з п’яти класів (integer_overflow, integer_underflow, timestamp_dependency, reentrancy, «безпечні» контракти) з вирівняною кількістю прикладів, стандартизованим форматом збереження (повний контракт, вразливий фрагмент, метадані) та відтворюваним пайплайном. Поєднання детермінованого й LLM-методів забезпечує баланс контрольованості та реалістичності, що покращує якість експериментів і чесність порівнянь інструментів. Новизна полягає в уніфікованій формальній специфікації операторів ін’єкції та практичному конвеєрі пакетної генерації; обмеження стосуються стохастичності LLM і потреби подальших динамічних PoC-перевірок.
Посилання
Tereshchenko O. I., Komleva N. O. Vulnerability Detection of Smart Contracts Based on Bidirectional GRU and Attention Mechanism // Communications in Computer and Information Science. 2023. Vol. 1980. Springer, Cham. DOI: https://doi.org/10.1007/978-3-031-48325-7_21
Tereshchenko O. I., Komleva N. O. Identification and Localization of Vulnerabilities in Smart Contracts Using Attention Vectors Analysis in a BERT-Based Model // Radio Electronics, Computer Science, Control. 2024. № 3. С. 173–184. DOI: https://doi.org/10.15588/1607-3274-2024-3-15
Ferreira J. F., Cruz P., Durieux T., Abreu R. SmartBugs: A Framework to Analyze Solidity Smart Contracts // ASE 2020. DOI: https://doi.org/10.1145/3324884.3415298
Zheng Z., Su J., Chen J., Lo D., Zhong Z., Ye M. DAppSCAN: Building Large-Scale Datasets for Smart Contract Weaknesses in DApp Projects // IEEE Transactions on Software Engineering. 2024. URL: https://doi.org/10.1109/TSE.2024.3383422
Morello G., Eshghie S., et al. DISL: Fueling Research with a Large Dataset of Solidity Smart Contracts : [препринт] // arXiv : [cs.SE]. 2024. URL: https://doi.org/10.48550/arXiv.2403.16861
Yashavant C. S., Kumar S., Karkare A. ScrawlD: A Dataset of Real-World Ethereum Smart Contracts Labelled with Vulnerabilities : [препринт] // arXiv : [cs.SE]. 2022. URL: https://doi.org/10.48550/arXiv.2202.11409
Ghaleb A., Pattabiraman K. SolidiFI: An Automated and Systematic Approach for Evaluating Smart Contract Static Analysis Tools // Proceedings of the ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA). 2020. DOI: https://doi.org/10.1145/3395363.3397376
Iuliano G., et al. Automated Vulnerability Injection in Solidity Smart Contracts (MuSe) : [препринт] // arXiv : [cs. CR]. 2025. URL: https://doi.org/10.48550/arXiv.2504.15948
Gebru T., Morgenstern J., Vecchione B., Vaughan J. W., Wallach H., Daumé III H., Crawford K. Datasheets for Datasets // Communications of the ACM. 2021. Vol. 64, № 12. P. 86–92. DOI: https://doi.org/10.1145/3458723
Bender E. M., Friedman B. Data Statements for Natural Language Processing: Toward Mitigating System Bias and Enabling Better Science // Transactions of the Association for Computational Linguistics (TACL). 2018. Vol. 6. P. 587–604. DOI: https://doi.org/10.1162/tacl_a_00041
Chang S., Zhang Y., Yu M., Jaakkola T. S. Invariant Rationalization : [препринт] // arXiv : [cs.LG]. 2020. URL: https://doi.org/10.48550/arXiv.2003.09772
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.






