СИСТЕМА АНАЛІЗУ ТЕКСТОВИХ ПОТОКІВ ДАНИХ

Ю.О. ОЛІЙНИК

doi:10.32782/2618-0340/2020.1-3.15

Автор(и)

Ю.О. ОЛІЙНИК

DOI:

https://doi.org/10.32782/2618-0340/2020.1-3.15

Ключові слова:

потоки текстових даних, онлайн обробка, text mining, Apache Spark

Анотація

Дослідження присвячене розробці системи аналізу текстових потоків даних. В постановці завдання наведено проблему обробки потоків текстової інформації та відзначається відсутність програмних засобів одночасної обробки потоків текстових даних українською та російською мовами. Проведено аналіз останніх досліджень та встановлено, що для обробки потоків даних необхідно застосовувати спеціалізоване програмне забезпечення обробки потокових даних. Виявлено, що існує вкрай мало засобів для обробки україномовних текстів, а також те, що не існує засобів для одночасної підтримки україномовних та російськомовних текстів. Метою даного дослідження є розробка архітектури та реалізація програмного забезпечення системи аналізу текстових потоків даних. Наведено опис математичної моделі потоку текстових даних на основі ковзного вікна. Наведено завдання для обробки потоків текстових даних від базових перетворень тексту та попередньої обробки до інтелектуального аналізу текстових потоків даних. Сформульовано математичну постановку завдання визначення емоційного забарвлення потоків текстових даних на основі моделі ковзного вікна. В процесі дослідження виділено 4 підсистеми: підсистему збору та транспортування повідомлень потоків даних, підсистему аналізу текстових потоків, підсистему зберігання результатів аналізу потоків даних та підсистему візуалізації. Особливістю системи є підтримка обробки україномовних текстів, для чого було спеціально розроблено програмну бібліотеку UANLP. Дана бібліотека дозволяє також оброблювати російськомовні тексти. Обробка потоків текстових даних виконується на основі компоненту Spark Streaming, що підтримує роботу з вікнами. Бібліотека Spark MLib та ML дозволяють використовувати засоби машинного навчання для аналітичної обробки потоків текстових даних, на основі яких виконується сентимент аналіз, виявлення аномалій, елементів пропаганди, дезінформації тощо. Обґрунтовано використання програмних компонент − сервісу повідомлень Kafka, технології розподіленої обробки даних Apache Spark, бази даних Elasticsearch та сервісу візуалізації Kibana. Описано процес обробки даних від генерації потоків даних до візуалізації результатів аналізу.

Посилання

Олійник Ю. О., Афанасьєва О. Є., Аршакян Г. Д. Підхід до виявлення аномалій в потоках текстових даних. Системні технології. 2020. № 2(127). C. 126−139. DOI: https://doi.org/10.34185/1562-9945-2-127-2020-10

Tomashevskii V. M., Oliynik Y. O., Yaskov V. V., Romanchuk V. M. Realtime Text Stream Anomalies Analysis System. Вісник Херсонського національного технічного університету. 2018. № 3 (1). Р. 361−365.

Oram A. Streaming Data. USA, Newton: O'Reilly Media, Inc., 2019. 28 p.

Степанюк Є. Ю., Олійник Ю. О. Дослідження методів аналізу тональності тексту. Інформаційні системи та технології управління – ІСТУ-2019: матеріали Всеукраїнської науково-практичної конференції молодих вчених та студентів. (м. Київ, 26 листопада 2019 р.), Київ: НТУУ «КПІ ім. Ігоря Сікорського», 2019. С. 32–39.

Гавриленко О. В., Олійник Ю. О., Ханько Г. В. Огляд та аналіз алгоритмів TEXT MINING. Управління проектами, системний аналіз і логістика. 2017. № 19. С. 15–23

Apache Spark Streaming. URL: http://spark.apache.org/docs/latest/streamingprogramming-guide.html

Набір даних URL: https://github.com/dmytro-verner/sentiment-analysis-ukrainiantweets

Ukrainian NLP Library for Apache Spark. URL: https://github.com/oliyura/UANLP/ [Назва з екрана].

Морфологійчний аналізатор pymorphy2. URL: https://pymorphy2.readthedocs.io/ [Назва з екрана].

Kibana. Your window into the Elastic Stack. URL: https://www.elastic.co/kibana [Назва з екрана].

Establishing Modern Master-level Studies in Information Systems URL: https://mastis.pro/[Назва з екрана]

СИСТЕМА АНАЛІЗУ ТЕКСТОВИХ ПОТОКІВ ДАНИХ

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Мова

logo