МЕТОД MAX-MIN СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ ТЕКСТУ ДЛЯ ІНФОРМАЦІЙНОГО ПОШУКУ В ТЕХНІЧНІЙ ДОКУМЕНТАЦІЇ: ДОСЛІДЖЕННЯ НА ПРИКЛАДІ ДОКУМЕНТАЦІЇ HAZELCAST
DOI:
https://doi.org/10.35546/kntu2078-4481.2026.2.49Ключові слова:
семантична сегментація Max-Min, генерація з доповненим пошуком, технічна документація, Hazelcast, векторні ембедингиАнотація
Ефективне розбиття вихідних документів на фрагменти є критичним чинником якості пошуку в системах retrieval-augmented generation (RAG). Традиційні стратегії фрагментації з фіксованим розміром або на основі речень опрацьовують документи без урахування семантики, часто розриваючи цілісні інформаційні одиниці на довільних межах. Підхід семантичної сегментації тексту Max-Min пропонує модель «embedding-first», за якої всі речення спочатку перетворюються на векторні подання, а межі фрагментів визначаються шляхом порівняння подібності між кандидатом-реченням і поточним фрагментом із наперед заданим мінімальним порогом подібності. У статті подано теоретичне дослідження придатності методу семантичної сегментації Max-Min для великомасштабної технічної документації на прикладі корпусу документації Hazelcast. Аналіз ідентифікує та характеризує сім типів контенту в документації Hazelcast – наративний текст, описи API, блоки коду, таблиці конфігурації, покрокові інструкції, блоки застережень та панелі вкладок з мультимовними прикладами. Для кожного типу контенту оцінюється очікувана поведінка методу Max- Min порівняно з базовими методами за чотирма вимірами, такими як семантична зв'язність фрагментів, точність пошуку, розподіл і варіативність розмірів фрагментів та якість виявлення меж на переходах між типами контенту. Аналіз показує, що метод Max-Min суттєво перевершить базові показники для наративного контенту, покрокових інструкцій та вбудованих блоків застережень. Водночас він стикається зі структурними обмеженнями щодо блоків коду, конфігураційних таблиць, автономних блоків застережень і – найсуттєвіше – панелей вкладок із мультимовним контентом, де майже ідентичні вектори між панелями унеможливлюють виявлення меж. Запропоновано чотири стратегії адаптації як напрями подальших емпіричних досліджень
Посилання
Lewis, P., Perez, E., Piktus, A., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS '20). Curran Associates Inc., Red Hook, NY, USA, Article 793, 9459–9474. https://dl.acm.org/doi/abs/10.5555/3495724.3496517
Gao, Y., Xiong, Y., Gao, X., et al. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.
https://doi.org/10.48550/arXiv.2312.10997
Qu, R., Tu, R., & Bao, F. S. (2025). Is Semantic Chunking Worth the Computational Cost? Findings of the Association for Computational Linguistics: NAACL 2025, 2155–2177. https://doi.org/10.18653/v1/2025.findings-naacl.114
Hazelcast. (2026). Hazelcast Documentation. Retrieved from https://docs.hazelcast.com
Kiss, C., Nagy, M., & Szilágyi, P. (2025). Max-Min semantic chunking of documents for RAG application. Discover Computing, 28, 117. https://doi.org/10.1007/s10791-025-09638-7
Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., & Yih, W. (2023). REPLUG: Retrieval-Augmented Black-Box Language Models. North American Chapter of the Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2301.12652
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3982–3992. https://doi.org/10.18653/v1/D19-1410
Milvus. (2025). Embedding First, Then Chunking: Smarter RAG Retrieval with Max-Min Semantic Chunking. Retrieved from https://milvus.io/blog/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semanticchunking.
md
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.




