ЗАСТОСУВАННЯ АСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ НЕПРАВДИВОГО ТЕКСТУ
DOI:
https://doi.org/10.35546/kntu2078-4481.2024.1.36Ключові слова:
асамблеві методи машинного навчання, алгоритми класифікації, аналіз текстів на неправдивість, TF-IDF, PythonАнотація
У статті представлено ансамблеві методи машинного навчання для підвищення точності виявлення неправдивого тексту та оцінено різні класифікатори з використанням окремих наборів даних. Для дослідження обрано наївний байєсівський класифікатор, пасивно-агресивний класифікатор, метод Support Vector Machine (SVM), логістичну регресію, метод k-найближчих сусідів та класифікатори випадкового лісу. Також протестовано ансамблі, що складаються з комбінацій обраних класифікаторів. Результати дослідження представляють результати класифікації, демонструючи ефективність використання асамблевих методів. Для дослідження використовувалися технології програмування Python (sklearn, pandas, numpy), процесор AMD Ryzen 5 4500U 6 ядер та 16 гігабайт оперативної пам’яті. Дослідження підкреслює важливість використання асамблевих методів для виявлення неправдивих текстів новин. Для TF-IDF – векторизації класифікатор SVM виділяється найвищою середньою точністю 95,74%. Згідно проведених досліджень, SVM досягає найвищої частки правильних прогнозів порівняно з іншими класифікаторами під час навчання на даних, перетворених TF-IDF. При використанні векторизації хешування класифікатор SVM зберігає свою високу продуктивність, досягнувши найвищої середньої точності 97,26%. Ансамблевий метод Voting Ensemble 3 (Ens3 – SVM + PA + LR) досягає середньої точності 96,93%. Основна ідея запропонованого методу полягає в аналізі тексту новин без сторонньої інформації (дати публікації, назви сайтів та додаткових медіа). Текст новин аналізується окремо за трьома показниками: правдивість тексту, сатира чи мова ворожнечі. Для навчання моделей за обраними метриками використано набори даних сервісу Kaggle, а для тестування в «реальних умовах» – довільно вибрані тексти новин і коментарів. Структурою наборів даних є текст та двійкова мітка в іншому стовпці, що відповідає заданому критерію. Набір досліджуваних даних містить 6335 рядків текстів новин і міток «true» або «false». Набір даних сатири – це комбінація двох окремих наборів даних, одного з новинної служби BBC, а іншого – з Onion.
Посилання
Vasu Agarwal, H. Parveen Sultana, Srijan Malhotra, Amitrajit Sarkar (2019). Analysis of classifiers for fake news detection, Procedia Comput. Sci., 165 (2019), pp. 377–383, DOI: 10.1016/j.procs.2020.01.035.
Chary Deekshith P., Singh R.P. (2020). Review on Advanced Machine Learning Model: Scikit-Learn (July 4, 2020), International Journal of Scientific Research and Engineering Development (IJSRED) Vol. 3, Issue 4, 526–529.
Dietterich T.G. (2000). Ensemble Methods in Machine Learning. In: Multiple Classifier Systems. MCS 2000. Lecture Notes in Computer Science, vol 1857. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-45014-9_1.
Urszula Krzeszewska, Aneta Poniszewska-Maranda, Joanna Ochelska-Mierzejewska (2022). Systematic Comparison of Vectorization Methods in Classification Context. Applied Sciences. 12. 5119. DOI: 10.3390/app12105119.
Shu K., Sliva A., Wang S., Tang J., & Liu H. (2017). Fake News Detection on Social Media: A Data Mining Perspective. ACM SIGKDD Explorations Newsletter, 19(1), 22–36. DOI: 10.1145/3137597.3137600.
Wang W., Cui P., Zhu W., & Yang S. (2018). Fake News Detection with Deep Diffusive Neural Network. Proceedings of the 2018 World Wide Web Conference on World Wide Web (pp. 797–806).
Rubin V. L., Conroy N. J., & Chen Y. (2015). Fake News or Truth? Using Satirical Cues to Detect Potentially Misleading News. Proceedings of the Association for Information Science and Technology, 52(1), 1–4. DOI: 10.18653/v1/W16-0802.
Reis J. C., Correia A., Murai F., Veloso A., Benevenuto F., & Cambria E. (2019). Supervised Learning for Fake News Detection. IEEE Intelligent Systems, 34(2), 76–81. DOI: 10.1109/MIS.2019.2899143.