ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ СЕМАНТИЧНОЇ РЕПРЕЗЕНТАЦІЇ  ТЕКСТІВ ПРИРОДНОЇ МОВИ У ЗАДАЧІ ІДЕНТИФІКАЦІЇ ПЕРИФРАЗ

А.В. М’ЯКЕНЬКИЙ; М.О. АЛЕКСЄЄВ

doi:10.32782/mathematical-modelling/2025-8-2-22

Автор(и)

А.В. М’ЯКЕНЬКИЙ Національний технічний університет «Дніпровська політехніка» https://orcid.org/0000-0002-4141-001X
М.О. АЛЕКСЄЄВ Національний технічний університет «Дніпровська політехніка» https://orcid.org/0000-0001-8726-7469

DOI:

https://doi.org/10.32782/mathematical-modelling/2025-8-2-22

Ключові слова:

когнітивне моделювання, перифрази, розуміння, природна мова, AMR, семантичні графи, трансформери, штучний інтелект

Анотація

У статті розглядається проблема ідентифікації семантичної еквівалентності текстів природної мови, що є ключовою для моделювання когнітивного процесу розуміння та розвитку інтелектуальних систем обробки мови. Розуміння тексту включає не лише лексичний та синтаксичний аналіз, а й глибоку когнітивну інтерпретацію смислових відносин і контекстуальних особливостей. Особливу складність становить варіативність мовних конструкцій, коли одна й та сама інформація передається різними способами, зберігаючи тотожність значень. У цьому контексті задача ідентифікації перифраз – висловлювань зі схожим змістом, але різною формою – є важливою для когнітивних моделей. Людський мозок здатен легко виявляти семантичну еквівалентність, проте створення комп’ютерних моделей із подібними властивостями є складним завданням через неоднозначність, контекстуальну залежність та мультимовність природної мови. Метою статті є обґрунтування методу пошуку семантичної еквівалентності текстів природної мови шляхом аналізу сучасних підходів до побудови семантичних репрезентацій у контексті розв’язання задачі ідентифікації перифраз. Обрана саме задача ідентифікації перифраз, оскільки вона є репрезентативною для вивчення семантичної еквівалентності та когнітивних механізмів розпізнавання смислу. У статті проведено аналіз трьох основних напрямів розв’язання задачі: статистичних методів на основі корпусного аналізу, методів заснованих на знаннях із використанням онтологій та семантичних мереж, а також методів глибинного навчання, що базуються на дистрибутивній семантиці і трансформерних архітектурах. Окремо розглядаються гібридні підходи, які поєднують графові семантичні репрезентації AMR із нейромережевими моделями, що дозволяють структурувати зміст тексту на концептуальному рівні та моделювати логіко-семантичні зв’язки між його складниками Результати порівняльного аналізу сучасних досліджень підтверджують високу точність і здатність узагальнювати семантичну інформацію, властиву графовим підходам, у порівнянні з іншими методами. Це свідчить про доцільність їх застосування як основи для побудови інтелектуальних систем, здатних моделювати когнітивні процеси людського розуміння природномовного тексту. Практична цінність дослідження полягає у формуванні підґрунтя для подальшого розвитку когнітивних технологій у сферах машинного перекладу, автоматичного узагальнення, пошуку інформації та діалогових систем, що суттєво підвищує якість взаємодії людини і комп’ютера на основі природної мови.

Посилання

Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis. Discourse Processes. 1998. Vol. 25, no. 2–3. P. 259–284. https://doi.org/10.1080/01638539809545028.

Banarescu L., Bonial C., Cai S., Georgescu M., Griffitt K., Hermjakob U., Knight K., Koehn P., Palmer M., Schneider N. Abstract Meaning Representation for Sembanking. In: Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse. Sofia, Bulgaria; 2013. P. 178–186. Association for Computational Linguistics. URL: https://aclanthology.org/W13-2102.pdf

Dohare S., Karnick H., Gupta V. Text Summarization using Abstract Meaning Representation. arXiv preprint. 2017. https://doi.org/10.48550/arXiv.1706.01678

Yingxu Wang et al. A layered reference model of the brain (LRMB). IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications and Reviews). 2006. Vol. 36, no. 2. P. 124–133. https://doi.org/10.1109/tsmcc.2006.871126.

Corley C., Mihalcea R. Measuring the Semantic Similarity of Texts. In: Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment. Ann Arbor, Michigan; 2005. P. 13–18. Association for Computational Linguistics. URL: https://aclanthology.org/W05-1203.pdf.

Mihalcea R., Corley C., Strapparava C. Corpus-based and Knowledge-based Measures of Text Semantic Similarity. In: Proceedings of the 21st National Conference on Artificial Intelligence (AAAI). Boston, MA; 2006. P. 775–780. Association for the Advancement of Artificial Intelligence. URL: https://aaai.org/Papers/AAAI/2006/AAAI06-123.pdf.

Shen D., Wang G., Wang W., Min M. R., Su Q., Zhang Y., Li C., Henao R., Carin L. Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia; 2018. P. 440–450. Association for Computational Linguistics. https://doi.org/10.18653/v1/P18-1041.

Cho K., van Merrienboer B., Gulcehre Ç., Bougares F., Schwenk H., Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. CoRR. 2014. URL: http://arxiv.org/abs/1406.1078.

Hu B., Lu Z., Li H., Chen Q. Convolutional Neural Network Architectures for Matching Natural Language Sentences. arXiv preprint. 2015. URL: https://arxiv.org/pdf/1503.03244.

Issa F., Damonte M., Cohen S. B., Yan X., Chang Y. Abstract Meaning Representation for Paraphrase Detection. In: Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). New Orleans, Louisiana; 2018. P. 442–452. Association for Computational Linguistics. URL: https://aclanthology.org/N18-1041.pdf.

ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ СЕМАНТИЧНОЇ РЕПРЕЗЕНТАЦІЇ ТЕКСТІВ ПРИРОДНОЇ МОВИ У ЗАДАЧІ ІДЕНТИФІКАЦІЇ ПЕРИФРАЗ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

logo