ПОРІВНЯЛЬНИЙ АНАЛІЗ ПІДХОДІВ ТА МЕТОДІВ ВИЗНАЧЕННЯ ТОНАЛЬНОСТІ ТЕКСТУ В КОНТЕКСТІ ОПРАЦЮВАННЯ ВІДГУКІВ МЕШКАНЦІВ МІСТА

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2025.2.2.23

Ключові слова:

аналіз тональності, лексикон, підхід на основі правил, гібридні методи, трансформерні моделі, природна мова

Анотація

У статті представлено ґрунтовний порівняльний аналіз сучасних підходів і методів, що застосовуються для визначення емоційного тону тексту, з особливим акцентом на україномовний контент. Актуальність дослідження зумовлена зростаючою потребою в ефективних інструментах для обробки зворотного зв’язку від громадян, зібраного через цифрові платформи, мобільні застосунки та соціальні мережі, які є цінними джерелами інформації для вдосконалення міського управління та якості надання послуг. Метою дослідження є подолання методологічного та лінгвістичного розриву в аналізі тональності українською мовою, яка, на відміну від англійської, досі залишається недостатньо забезпеченою лексичними базами, корпусами та попередньо навченими моделями.У статті систематизовано методи аналізу тональності в межах чотирьох основних парадигм: лексиконно-орієнтованого, підходу на основі правил, підходу машинного навчання та гібридного. Для кожного підходу розглянуто його теоретичне підґрунтя, характерні алгоритми, лінгвістичні інструменти та приклади практичного застосування. Лексиконно-орієнтовані методи, зокрема ті, що використовують словник NRC EmoLex та корпусні інструменти на кшталт Sketch Engine, відзначаються простотою використання та адаптивністю до середовищ із обмеженими ресурсами. Підходи на основі правил, такі як VADER і LIWC, виокремлюються здатністю враховувати синтаксичну структуру, підсилювачі та заперечення, забезпечуючи кращу інтерпретованість, хоча й обмежену мовну універсальність.У розділі, присвяченому машинному навчанню, розглянуто як традиційні алгоритми класифікації – зокрема моделі на основі граничних гіперплощин, ймовірнісного підходу та деревоподібних структур, – так і сучасні архітектури глибокого навчання, включно з багатошаровими нейронними мережами. Також проаналізовано підхід максимальної ентропії як приклад статистичного моделювання з мінімальними припущеннями щодо вхідних ознак.Особливу увагу приділено сучасним глибоким нейронним мережам – згортковим нейронним мережам (CNN), рекурентним мережам LSTM та трансформерним архітектурам, таким як BERT, RoBERTa і GPT. Представлені емпіричні результати з останніх досліджень підтверджують високу ефективність трансформерних моделей у багатомовних умовах, зокрема при аналізі тональності українських текстів, де моделі XLM-RoBERTa та Ukr-RoBERTa досягли точності понад 91 %. У завершальній частині статті розглянуто гібридні моделі, що поєднують переваги різних підходів з метою підвищення стійкості, точності та адаптивності до доменної специфіки. Ось перефразований варіант: Запропонована класифікаційна структура, розроблена на основі результатів дослідження, забезпечує цілісне уявлення про існуючі методи та становить методологічне підґрунтя для розробки інтелектуальних систем підтримки прийняття рішень в управлінні містом із залученням громадськості. У висновках окреслено перспективи подальших досліджень, серед яких – локалізація моделей глибокого навчання для української мови, інтеграція аналізу тональності з виділенням тем і іменованих сутностей, а також застосування методів напівконтрольованого та активного навчання для покращення результатів у разі обмеженості анотованих даних. Загалом, запропонована таксономія не лише відображає поточний стан технологій аналізу тональності, а й задає вектори їх подальшого розвитку в умовах багатомовності та соціально орієнтованих застосувань.

Посилання

Cambria, E., Schuller, B., Xia, Y., & Havasi, C. (2013). New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems, 28(2), 15–21.

Kotsyba, N., Romanyshyn, O., & Shevchuk, O. (2021). Challenges in Sentiment Analysis for the Ukrainian Language. CEUR Workshop Proceedings, 2917, 118–126.

Vargas-Sierra, C., & Orts, M. (2023). Sentiment and emotion in financial journalism: a corpus-based, cross- linguistic analysis of the effects of COVID. Humanities and Social Sciences Communications, 10. https://doi.org/10.1057/s41599-023-01725-8

Abdulla, N. A., Ahmed, N. A., Shehab, M. A., & Al-Ayyoub, M. (2013). Arabic sentiment analysis: lexicon-based and corpus-based. IEEE Jordan Conference on Applied Electrical Engineering and Computing Technologies (AEECT).

Abiola, O., Abayomi-Alli, A., Tale, O.A. et al. (2023). Sentiment analysis of COVID-19 tweets from selected hashtags in Nigeria using VADER and Text Blob analyser. Journal of Electrical Systems and Information Technology, 10, 5. https://doi.org/10.1186/s43067-023-00070-9

Karyawati, A. E., Utomo, P. A., & Wibawa, I. G. A. (2022). Comparison of SVM and LIWC for Sentiment Analysis of SARA. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 16(1), 45–54.

Birjali, M., Kasri, M., & Beni-Hssane, A. (2021). A comprehensive survey on sentiment analysis: Approaches, challenges and trends. Knowledge-Based Systems, 226, 107134.

Khan, M. J., Abbas, Q., & Hussain, M. (2024). Comparative study of supervised learning techniques for sentiment classification. Computers, Materials & Continua, 78(1), 1–16. https://doi.org/10.32604/cmc.2023.043301

Aliman, N. M., Mustaffa, M., Jambari, H., & Jusoh, M. S. (2022). Performance evaluation of supervised learning algorithms for sentiment analysis: A comparative study. Journal of Engineering and Applied Sciences, 17(5), 143–150.

Lu, W., Wang, J., Wang, Y., Zhou, Y., & Qin, H. (2021). Sentiment analysis of social media texts with deep learning models and attention mechanism. Information, 12(10), 392. https://doi.org/10.3390/info12100392

Wabang, G. S., Ahmad, T., & Wijaya, D. E. (2022). Application of the Naive Bayes Classifier Algorithm to Classify Community Complaints. Journal of Physics: Conference Series, 2180(1), 012045. https://doi.org/10.1088/1742-6596/2180/1/012045

Rhohmawati, A., Sari, R. F., & Puspitasari, R. (2019). Sentiment analysis using maximum entropy for Shopee reviews. In 2019 4th International Conference on Information Technology, Information Systems and Electrical Engineering (ICITISEE) (pp. 237–242). IEEE.

Kim, J., & Jeong, Y. (2019). Sentiment classification using convolutional neural networks. International Journal of Advanced Computer Science and Applications, 10(5), 303–308.

Tholusuri, H., Gadde, P. R., & Sista, S. R. (2019). Sentiment analysis using LSTM with IMDB dataset. In 2019 4th International Conference on Communication and Electronics Systems (ICCES) (pp. 1192–1195). IEEE.

Roccabruna, S., Nesi, P., & Pantaleo, G. (2022). A comparison of BERT-based models for sentiment analysis in social media. Applied Sciences, 12(6), 3016. https://doi.org/10.3390/app12063016

Prytula, Y. (2024). Evaluation of transformer-based models for sentiment analysis of Ukrainian texts. Proceedings of the International Conference on Computational Linguistics and Intelligent Systems (COLINS), 2024.

Kheiri, M., & Karimi, M. (2023). SentimentGPT: Prompt-based sentiment analysis using generative pre-trained transformers. Journal of Big Data, 10, Article 42. https://doi.org/10.1186/s40537-023-00708-4

Riaz, S., Fatima, M., Kamran, M., & Nisar, M. W. (2019). Opinion mining on large scale data using sentiment analysis and k-means clustering. Cluster Computing, 22, 7149–7164.

Andriyani, F., & Puspitarani, Y.. (2022). Performance Comparison of K-Means and DBScan Algorithms for Text Clustering Product Reviews. Sinkron : Jurnal Dan Penelitian Teknik Informatika, 6(3), 944–949. https://doi.org/10.33395/sinkron.v7i3.11569

Xue, J., Chen, J., Chen, C., Zheng, C., Li, S., & Zhu, T. (2020). Public discourse and sentiment during the COVID-19 pandemic: Using Latent Dirichlet Allocation for topic modeling on Twitter. PloS one, 15(9), e0239441.

Riaz, S., Fatima, M., Kamran, M., & Nisar, M. W. (2019). Opinion mining on large scale data using sentiment analysis and k-means clustering. Cluster Computing, 22, 7149–7164.

Andriyani, F., & Puspitarani, Y.. (2022). Performance Comparison of K-Means and DBScan Algorithms for Text Clustering Product Reviews. Sinkron : Jurnal Dan Penelitian Teknik Informatika, 6(3), 944–949. https://doi.org/10.33395/sinkron.v7i3.11569

Xue, J., Chen, J., Chen, C., Zheng, C., Li, S., & Zhu, T. (2020). Public discourse and sentiment during the COVID-19 pandemic: Using Latent Dirichlet Allocation for topic modeling on Twitter. PloS one, 15(9), e0239441.

##submission.downloads##

Опубліковано

2025-06-05