МЕТОДИ ІН’ЄКЦІЇ ВРАЗЛИВОСТЕЙ У СМАРТ-КОНТРАКТИ  ДЛЯ ФОРМУВАННЯ ЗБАЛАНСОВАНИХ ДАТАСЕТІВ

О. І. ТЕРЕЩЕНКО

doi:10.35546/kntu2078-4481.2025.3.2.58

Автор(и)

О. І. ТЕРЕЩЕНКО Національний університет «Одеська політехніка» https://orcid.org/0000-0003-4510-5255

DOI:

https://doi.org/10.35546/kntu2078-4481.2025.3.2.58

Ключові слова:

смарт-контракти, Solidity, вразливості, ін’єкція вразливостей, reentrancy, integer overflow, збалансований датасет, статичний аналіз, великі мовні моделі

Анотація

Смарт-контракти широко застосовуються у фінансових та децентралізованих застосунках, проте їхня безпека залишається критичною проблемою. Аналіз існуючих корпусів показує значний дисбаланс: поширені класи уразливостей (integer overflow/underflow) істотно домінують, тоді як критично небезпечна вразливість повторного входу представлена обмежено. Це ускладнює навчання та об’єктивне оцінювання інструментів виявлення вразливостей. Мета дослідження полягає у підвищенні об’єктивності та якості навчання й тестування методів виявлення уразливостей у смарт-контрактах шляхом створення збалансованого контрольованого датасету.Запропоновано два взаємодоповнювальні підходи ін’єкції. Детермінований метод спирається на статичний аналіз і формальні патерни відбору/модифікації функцій, забезпечуючи відтворюваність і синтаксичну коректність. LLM-підхід виконує контекстно узгоджені зміни з мінімальною різницею коду, підвищуючи різноманітність прикладів. Обидва інтегровані в єдиний конвеєр із нормалізацією, дедуплікацією та багатоступеневою валідацією: успішна компіляція solc, статичне підтвердження цільових патернів, перевірка збереження нецільової логіки та мінімальності змін. Результатом є збалансований датасет з п’яти класів (integer_overflow, integer_underflow, timestamp_dependency, reentrancy, «безпечні» контракти) з вирівняною кількістю прикладів, стандартизованим форматом збереження (повний контракт, вразливий фрагмент, метадані) та відтворюваним пайплайном. Поєднання детермінованого й LLM-методів забезпечує баланс контрольованості та реалістичності, що покращує якість експериментів і чесність порівнянь інструментів. Новизна полягає в уніфікованій формальній специфікації операторів ін’єкції та практичному конвеєрі пакетної генерації; обмеження стосуються стохастичності LLM і потреби подальших динамічних PoC-перевірок.

Посилання

Tereshchenko O. I., Komleva N. O. Vulnerability Detection of Smart Contracts Based on Bidirectional GRU and Attention Mechanism // Communications in Computer and Information Science. 2023. Vol. 1980. Springer, Cham. DOI: https://doi.org/10.1007/978-3-031-48325-7_21

Tereshchenko O. I., Komleva N. O. Identification and Localization of Vulnerabilities in Smart Contracts Using Attention Vectors Analysis in a BERT-Based Model // Radio Electronics, Computer Science, Control. 2024. № 3. С. 173–184. DOI: https://doi.org/10.15588/1607-3274-2024-3-15

Ferreira J. F., Cruz P., Durieux T., Abreu R. SmartBugs: A Framework to Analyze Solidity Smart Contracts // ASE 2020. DOI: https://doi.org/10.1145/3324884.3415298

Zheng Z., Su J., Chen J., Lo D., Zhong Z., Ye M. DAppSCAN: Building Large-Scale Datasets for Smart Contract Weaknesses in DApp Projects // IEEE Transactions on Software Engineering. 2024. URL: https://doi.org/10.1109/TSE.2024.3383422

Morello G., Eshghie S., et al. DISL: Fueling Research with a Large Dataset of Solidity Smart Contracts : [препринт] // arXiv : [cs.SE]. 2024. URL: https://doi.org/10.48550/arXiv.2403.16861

Yashavant C. S., Kumar S., Karkare A. ScrawlD: A Dataset of Real-World Ethereum Smart Contracts Labelled with Vulnerabilities : [препринт] // arXiv : [cs.SE]. 2022. URL: https://doi.org/10.48550/arXiv.2202.11409

Ghaleb A., Pattabiraman K. SolidiFI: An Automated and Systematic Approach for Evaluating Smart Contract Static Analysis Tools // Proceedings of the ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA). 2020. DOI: https://doi.org/10.1145/3395363.3397376

Iuliano G., et al. Automated Vulnerability Injection in Solidity Smart Contracts (MuSe) : [препринт] // arXiv : [cs. CR]. 2025. URL: https://doi.org/10.48550/arXiv.2504.15948

Gebru T., Morgenstern J., Vecchione B., Vaughan J. W., Wallach H., Daumé III H., Crawford K. Datasheets for Datasets // Communications of the ACM. 2021. Vol. 64, № 12. P. 86–92. DOI: https://doi.org/10.1145/3458723

Bender E. M., Friedman B. Data Statements for Natural Language Processing: Toward Mitigating System Bias and Enabling Better Science // Transactions of the Association for Computational Linguistics (TACL). 2018. Vol. 6. P. 587–604. DOI: https://doi.org/10.1162/tacl_a_00041

Chang S., Zhang Y., Yu M., Jaakkola T. S. Invariant Rationalization : [препринт] // arXiv : [cs.LG]. 2020. URL: https://doi.org/10.48550/arXiv.2003.09772

МЕТОДИ ІН’ЄКЦІЇ ВРАЗЛИВОСТЕЙ У СМАРТ-КОНТРАКТИ ДЛЯ ФОРМУВАННЯ ЗБАЛАНСОВАНИХ ДАТАСЕТІВ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

logo