МЕТОД MAX-MIN СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ ТЕКСТУ ДЛЯ ІНФОРМАЦІЙНОГО ПОШУКУ В ТЕХНІЧНІЙ ДОКУМЕНТАЦІЇ: ДОСЛІДЖЕННЯ НА ПРИКЛАДІ ДОКУМЕНТАЦІЇ HAZELCAST

М. О. ФАНТ; Т. А. ВАКАЛЮК

doi:10.35546/kntu2078-4481.2026.2.49

Автор(и)

М. О. ФАНТ Державний університет «Житомирська політехніка» https://orcid.org/0000-0002-4994-8009
Т. А. ВАКАЛЮК Державний університет «Житомирська політехніка» https://orcid.org/0000-0001-6825-4697

DOI:

https://doi.org/10.35546/kntu2078-4481.2026.2.49

Ключові слова:

семантична сегментація Max-Min, генерація з доповненим пошуком, технічна документація, Hazelcast, векторні ембединги

Анотація

Ефективне розбиття вихідних документів на фрагменти є критичним чинником якості пошуку в системах retrieval-augmented generation (RAG). Традиційні стратегії фрагментації з фіксованим розміром або на основі речень опрацьовують документи без урахування семантики, часто розриваючи цілісні інформаційні одиниці на довільних межах. Підхід семантичної сегментації тексту Max-Min пропонує модель «embedding-first», за якої всі речення спочатку перетворюються на векторні подання, а межі фрагментів визначаються шляхом порівняння подібності між кандидатом-реченням і поточним фрагментом із наперед заданим мінімальним порогом подібності. У статті подано теоретичне дослідження придатності методу семантичної сегментації Max-Min для великомасштабної технічної документації на прикладі корпусу документації Hazelcast. Аналіз ідентифікує та характеризує сім типів контенту в документації Hazelcast – наративний текст, описи API, блоки коду, таблиці конфігурації, покрокові інструкції, блоки застережень та панелі вкладок з мультимовними прикладами. Для кожного типу контенту оцінюється очікувана поведінка методу Max- Min порівняно з базовими методами за чотирма вимірами, такими як семантична зв'язність фрагментів, точність пошуку, розподіл і варіативність розмірів фрагментів та якість виявлення меж на переходах між типами контенту. Аналіз показує, що метод Max-Min суттєво перевершить базові показники для наративного контенту, покрокових інструкцій та вбудованих блоків застережень. Водночас він стикається зі структурними обмеженнями щодо блоків коду, конфігураційних таблиць, автономних блоків застережень і – найсуттєвіше – панелей вкладок із мультимовним контентом, де майже ідентичні вектори між панелями унеможливлюють виявлення меж. Запропоновано чотири стратегії адаптації як напрями подальших емпіричних досліджень

Посилання

Lewis, P., Perez, E., Piktus, A., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS '20). Curran Associates Inc., Red Hook, NY, USA, Article 793, 9459–9474. https://dl.acm.org/doi/abs/10.5555/3495724.3496517

Gao, Y., Xiong, Y., Gao, X., et al. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.

https://doi.org/10.48550/arXiv.2312.10997

Qu, R., Tu, R., & Bao, F. S. (2025). Is Semantic Chunking Worth the Computational Cost? Findings of the Association for Computational Linguistics: NAACL 2025, 2155–2177. https://doi.org/10.18653/v1/2025.findings-naacl.114

Hazelcast. (2026). Hazelcast Documentation. Retrieved from https://docs.hazelcast.com

Kiss, C., Nagy, M., & Szilágyi, P. (2025). Max-Min semantic chunking of documents for RAG application. Discover Computing, 28, 117. https://doi.org/10.1007/s10791-025-09638-7

Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., & Yih, W. (2023). REPLUG: Retrieval-Augmented Black-Box Language Models. North American Chapter of the Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2301.12652

Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3982–3992. https://doi.org/10.18653/v1/D19-1410

Milvus. (2025). Embedding First, Then Chunking: Smarter RAG Retrieval with Max-Min Semantic Chunking. Retrieved from https://milvus.io/blog/embedding-first-chunking-second-smarter-rag-retrieval-with-max-min-semanticchunking.

md

МЕТОД MAX-MIN СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ ТЕКСТУ ДЛЯ ІНФОРМАЦІЙНОГО ПОШУКУ В ТЕХНІЧНІЙ ДОКУМЕНТАЦІЇ: ДОСЛІДЖЕННЯ НА ПРИКЛАДІ ДОКУМЕНТАЦІЇ HAZELCAST

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

Мова

logo