АДЕКВАТНІСТЬ ПРОЦЕСУ ПОБУДОВИ СЕМАНТИЧНОЇ МОДЕЛІ ДОКУМЕНТУ НА ОСНОВІ НЕСТРУКТУРОВАНОЇ БАЗИ ЗНАНЬ
DOI:
https://doi.org/10.32782/mathematical-modelling/2022-5-1-4Ключові слова:
семантична мережа, автоматична обробка тексту, система запит-відповідь, генерація текстуАнотація
Розробка прикладних програмних систем автоматичної обробки текстів має на увазі вибір того чи іншого механізму опису та реалізації моделі природної мови, доступної для обробки ЕОМ. Оскільки, мова є досить не формалізованою системою з нестабільністю і неоднорідністю власних правил, то головною проблемою при реалізації таких моделей є складність опису семантичних характеристик тексту на рівні алгоритмічного уявлення. У дисертаційній роботі [1] був реалізований підхід до побудови програмної семантичної моделі документа, яка базується на структурі гібридної семантичної мережі. Необхідність і важливість цієї моделі виходить насамперед із аналізу існуючих аналогів і алгоритмічних підходів до побудови семантичних мереж документа – усі вони або базуються на словниках, або не пророблені для флективно багатих груп мови. Розроблений підхід базується на алгоритмі латентно-семантичного аналізу, що дозволяє знаходити семантичні відповідності на основі вагових характеристик тексту і роботі з проекціями координат для базових текстових одиниць на двомірній площині. Використання такого підходу до роботи із семантичними характеристиками тексту є інноваційним не тільки тому, що сфера застосування латентно-семантичного аналізу в першу чергу стосується задач класифікації документів, тоді як у нашій моделі його використання було змінено, і ми наближаємо не документ до терміну, а речення з документів до термінів документа, а і тому, що алгоритм поєднує у собі багато специфічних додаткових етапів, що є нетиповими для підходів побудови семантичної моделі документу. Мова йде про використання алгоритмів кластеризації, із відповідними методами для визначення необхідних для неї параметрів, алгоритмів синтаксичного, морфологічно і просторового аналізу даних [1]. Отриманий підхід дозволяє будувати семантичні моделі наукових текстів без будь-якої попередньої семантичної розмітки або складання семантичних словників, які містять у своєму складі кількісні показники семантичних характеристик тексту, що значно спрощує процес побудови систем автоматичної обробки текстів. Дослідження, проведене у даній статті стосується перевірки спроможності моделі виконувати своє функціональне призначення, шляхом побудови її критеріїв адекватності і перевірки їх виконання шляхом проведення відповідних експериментів.
Посилання
Ковилін Є.Р. Модель генерації відповідей в пошукових системах на основі неструктурованої бази знань : дис ... канд. техн. наук : 01.05.02. Національна металургійна академія України. Дніпро, 2020. 233 с.
Усталов Д.А. Моделі, методи та алгоритми побудови семантичної мережі слів для задач обробки природної мови : дис … канд. фіз.-мат.наук : 05.13.17. ФГБУМ. Челябінськ, 2017. 129 с.
Болдас М.В., Соколова Є.Г. Генерація текстів на природній мові – теорії, методи, технології. НТІ. Сер. 2. Інформаційні процеси і системи, 2006. С.1-15.
Генератор тексту. URL: https://online-generators.ru/text
Volkovsky O.S., Kovylin Y. R. Computer system of intellectual semantic search with the text generation using. Bulletin of the Kherson National University. 2018. №3 (66). P. 238-245.