ПОЛІПШЕННЯ КЛАСИФІКАЦІЇ СЕНТИМЕНТУ ДЛЯ УКРАЇНСЬКОЇ МОВИ: ПЕРЕХІД ВІД АЛГОРИТМІВ НА ОСНОВІ ПРАВИЛ ДО МОДЕЛЕЙ НАВЧАННЯ З НАГЛЯДОМ
DOI:
https://doi.org/10.35546/kntu2078-4481.2025.3.2.4Ключові слова:
українська мова, аналіз емоцій, алгоритм на основі правил, навчання з наставником, Random Forest, гібридна обробка природної мови, емоції в емодзі, синтаксичний аналіз залежностейАнотація
У цій статті пропонується покращення способу визначення емоцій в українськомовному контенті. Для цього враховується складність морфології мови, гнучкість її синтаксису та обмежена кількість інструментів для обробки природної мови. Дослідження вдосконалює існуючий алгоритм аналізу емоцій на основі правил, додаючи більший український лексикон, оцінки полярності, відображення емоцій за допомогою емодзі, оцінку емоцій на рівні фраз та аналіз залежностей. Ці функції виявляють тонкі сигнали емоцій, які пропускають більшість інструментів, оптимізованих для англійської мови. Щоб зробити все ще кращим, вилучені лінгвістичні функції перетворюються на структуровані числові вектори та додаються до гібридного конвеєра, який використовує як обробку на основі правил, так і моделі машинного навчання з наглядом. Було навчено та протестовано чотири класифікатори з набором твітів українською мовою, що мають мітки: K-Nearest Neighbours, Support Vector Machine, Decision Tree, and Random Forest. Модель Random Forest була найточнішою (90 %) і мала найкращий показник F1 серед усіх класифікаторів, що були протестовані в порівняльних експериментах. Вона була кращою за інші моделі в обробці змін у емоціях людей та подій, що відбуваються.Для мов з обмеженими ресурсами вона була ще кращою.Результати дослідження показують, що використання як ручного лінгвістичного аналізу, так і контрольованого навчання є ефективним методом проведення аналізу емоцій у мовах з обмеженими ресурсами, таких як українська. Це дослідження ілюструє важливість мовних ресурсів та індивідуальних підходів для забезпечення точності виявлення емоцій. Це має реальний вплив на моніторинг соціальних мереж, читання відгуків клієнтів та отримання думок українців. У майбутньому буде додано більше доменів, можливість аналізувати дані в режимі реального часу та можливість порівнювати нашу роботу з моделями глибокого навчання. Це зробить класифікацію емоцій для мов з обмеженими ресурсами ще кращою.
Посилання
Syed, A., Aslam, M., & Saeed, F. (2020). A hybrid sentiment analysis approach for Urdu language social media data. Journal of King Saud University – Computer and Information Sciences, 32(4), 453–459. https://doi.org/10.1016/j.jksuci.2020.04.004
Elmadany, A., Abdul-Mageed, M., & Hashemi, H. (2021). Lexicon-augmented neural networks for dialectal Arabic sentiment analysis. У Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 3788–3802). Association for Computational Linguistics. https://aclanthology.org/2021.emnlp-main.306/
Kharde, V., & Sonawane, P. (2021). Hybrid techniques for sentiment analysis: A review. Journal of Theoretical and Applied Information Technology, 99(8), 1840–1852.
Vázquez, S., Balage Filho, P. P., & Pardo, T. A. S. (2022). Emoji and intensifier handling in multilingual sentiment classification. Language Resources and Evaluation, 56(2), 527–550. https://doi.org/10.1007/s10579-021-09561-1
Xia, R., Liu, Q., & Chen, S. (2023). Sentiment analysis of code-switched texts using hybrid pipelines. Information Processing & Management, 60(2), 103183. https://doi.org/10.1016/j.ipm.2022.103183
Zhou, L., Li, Q., & Zhang, X. (2024). A comparative study of rule-based, neural, and hybrid sentiment analysis models for low-resource languages. Natural Language Engineering, 30(1), 45–70. https://doi.org/10.1017/S1351324923000345
Syed, S., & Spruit, M. (2020). Full-text or abstract? Examining topic coherence scores using Latent Dirichlet Allocation. У 2020 IEEE International Conference on Data Science and Advanced Analytics (DSAA) (pp. 528–537). IEEE. https://doi.org/10.1109/DSAA49011.2020.00056
Islam, M. R., Islam, M. M., Rahman, M. M., & Islam, M. S. (2020). Sentiment analysis of low-resource Bengali text using hybrid learning models. У 2020 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT) (pp. 1–6). IEEE. https://doi.org/10.1109/ICCCNT49239.2020.9225540
Bhaskar, M., & Saini, H. K. (2021). Hybrid sentiment analysis using machine learning techniques for Hindi tweets. Procedia Computer Science, 192, 3732–3741. https://doi.org/10.1016/j.procs.2021.09.148
Abozinadah, E. A., & Jones, J. (2021). A hybrid deep learning approach for sentiment analysis of Arabic tweets. IEEE Access, 9, 10241–10258. https://doi.org/10.1109/ACCESS.2021.3050634
Almanea, M., & Habash, N. (2020). Investigating the use of transformers for Arabic dialect sentiment analysis. У Proceedings of the Fifth Arabic Natural Language Processing Workshop (WANLP 2020) (pp. 63–77). Association for Computational Linguistics. https://aclanthology.org/2020.wanlp-1.7/
Mohammad, S. M., & Bravo-Marquez, F. (2020). EmoLex: An expanded emotion lexicon for social media analysis. У Proceedings of the 12th Language Resources and Evaluation Conference (LREC 2020) (pp. 3678–3684). European Language Resources Association (ELRA). https://aclanthology.org/2020.lrec-1.453/
Koto, F., Rahman, M., & Baldwin, T. (2020). IndoBERTweet: A pre-trained language model for Indonesian Twitter with emotion and sentiment understanding. У Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings (pp. 2347–2352). Association for Computational Linguistics. https://aclanthology.org/2020.findings-emnlp.212/
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.






