АЛГОРИТМ КЛАСИФІКАЦІЇ ТЕКСТОВОГО КОНТЕНТУ СОЦІАЛЬНИХ МЕРЕЖ ДЛЯ ВИЗНАЧЕННЯ ЕМОЦІЙНОГО ТОНУ

Автор(и)

DOI:

https://doi.org/10.35546/kntu2078-4481.2023.2.18

Ключові слова:

алгоритм, емоційний тон, контент, класифікація, соціальна мережа

Анотація

В роботі наведено результати досліджень та порівняння результатів застосування наївного класифікатора Баєса з використанням простих словесних ознак та векторних моделей слів. Було проаналізовано методи та середовище дослідження, визначились з набором вхідних даних. Було проведено тренування класифікатора на обраному датасеті та оцінка його точності за допомогою функції classify.accuracy з бібліотеки nltk. Також протестовано класифікатор на власному тексті та визначали правильність класифікації. Було побудовано гістограму, яка наглядно показала кількість правильно класифікованих позитивних та негативних прикладів. Була виведена confusion matrix, яка дозволила оцінити точність класифікації для кожного класу. В експериментальній частині використовувалась векторна модель слів Word2Vec з бібліотеки gensim. Проводилось тренування класифікатора та оцінювалася його точність. Здійснено значне покращення точності в порівнянні зі спрощеним підходом. В роботі обговорювались питання використання векторних моделей слів для покращення результатів класифікації тексту. Вони дозволяють краще урахувати семантику та контекст тексту, що призводить до більш точних результатів. Проаналізовано, що точність класифікації залежить від датасету, особливостей текстів та використаних методів обробки даних. В дослідженні наведений оптимальний вибір методів та підхід до класифікації, які повинні враховувати конкретну задачу та контекст застосування. В роботі розглядалися векторні моделі слів, та використання більш складних моделей класифікації. Наводились фактори, що впливають на емоційний стан тексту. Було проведено оптимізацію параметрів моделей для досягнення кращих результатів. Було підтверджено в результаті проведених експериментів, ефективність наївного класифікатора Баєса та векторних моделей слів у задачі класифікації емоційного стану тексту.

Посилання

Pang B., Lee L., Vaithyanathan S. Thumbs up: sentiment classification using machine learning techniques. Proceedings of the ACL 2002 Conference on Empirical Methods in Natural Language Processing. Vol. 10. Association for Computational Linguistics. 2002. Pp. 321–342.

Maas A.L., Daly R.E., Pham P.T., Huang D., Ng A.Y., Potts C. Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics. ACL 2011. 2011. Pp. 23–36.

Rennie J.D. Tackling the poor assumptions of naive bayes text classifiers. Machine Learning-International Workshop then Conference. 2003.Vol. 20(2). Pp. 56–62.

Tseng C., Patel N., Paranjape H., Lin T. Y., Teoh S. Classifying twitter data with naive bayes classifier. IEEE International Conference on Granular Computing. 2012. Pp. 89–101.

Estivill-Castro V., Lee I. Amoeba: Hierarchical clustering based on spatial proximity using Delaunay diagram. 9th Intern. Symp. on spatial data handling, Beijing, China. 2000. Pp. 26–41.

Guo D., Peuquet D.J., Gahegan M. ICEAGE: Interactive clustering and exploration of large and high-dimensional geodata. Geoinformatica. 2003. Vol. 3. N. 7. Pp. 229–253.

Harel D., Koren Y. Clustering spatial data using random walks. Proc. of the 7th ACM SIGKDD Intern. conf. on knowledge discovery and data mining, San Francisco, California. 2000. Pp. 281–286.

Boyko N., Pylypiv O., Peleshchak Yu., Kryvenchuk Yu., Campos J. Automated Document Analysis for Quick Personal Health Record Creation. The 2 nd International Workshop on Informatics & Data-Driven Medicine (IDDM 2019). Lviv, Ukraine, November 11-13. 2019. Vol. 1. Pp. 208–221.

Yakovyna V., Peleshchyshyn A., Albota S. Discussions of wikipedia talk pages: Manipulations detected by lingualpsychological analysis, CEUR Workshop Proceedings. 2019. Vol. 2392. Pp. 309–320.

##submission.downloads##

Опубліковано

2023-08-09