МОДИФІКАЦІЯ МЕТОДУ КЛАСТЕРИЗАЦІЇ ВЕЛИКИХ ТЕКСТОВИХ МАСИВІВ
DOI:
https://doi.org/10.35546/kntu2078-4481.2024.4.47Ключові слова:
кластеризація, класифікація, dbscan, k-means, обробка тексту, препроцесінг, текст, точність, кластерАнотація
У даній роботі було проведено порівняльний аналіз розповсюджених методів кластеризації, таких як k-means, Латентний розподіл Діріхле або LDA, Ієрархічний алгоритм кластеризації (ІC), Density-based spatial clustering of applications with noise або DBSCAN, а також Модель суміші гаусіан (Gaussian Mixture Model або GMM). Аналіз проводився згідно з обраними критеріями, такими як масштабованість, обчислювальна складність, наявність (чи відсутність) умови попередньо визначеного числа кластерів, а також підхід до оцінювання (абсолютний з чітким відношення до кластеру або відносний з використання вірогідностей). Згідно з результатами, для подальшого розгляду був обраний метод DBSCAN через ряд переваг та зрештою була запропонована модифікація, яка зменшує кількість потенційних обчислень на кожній ітерації, як наслідок зменшує обчислювальну складність, що у свою чергу підвищує продуктивність системи, особливо в умовах обмежених ресурсів. Модифікація полягає у двох змінах: етапі векторизації, яка відбувається за анотацією та ключовими словами тексту, вказаними автором, замість повного тексту та оцінки відстані для так званих шумних точок, яка відбувається у два етапи. Запропоновану модифікацію методу DBSCAN було випробувано на власному датасеті Academ Lib Set, сформованому на основі матеріалів які знаходяться в електронному каталозі наукової бібліотеки ХНУРЕ. Аналіз результатів показав покращення результатів показників Precision на 5,6%, Recall на 12,5% та F-міри на 9,65%, що доводить дієвість запропонованої модифікації. Подальші кроки передбачають випробування поєднань методів та модулів у більші функціональні блоки для виявлення та усунення потенційних проблем, а також подальша оптимізація таких блоків. Окремим роботою передбачається дослідження підходу до повторної кластеризації після оновлення набору даних з першочерговим розглядом підходів повторної кластеризації усіх документів (поточний метод) та такої для точок з найменшим силуетним коефіцієнтом. Оцінка якості формування нового розподілення планується на основі індексу Ранда.
Посилання
Ahmed M. H., Tiun S., Omar N., Sani, N. S. Short Text Clustering Algorithms, Application and Challenges: A Survey. Applied Sciences. 2023. Vol. 13, No 1. P. 342. https://doi.org/10.3390/app13010342.
Dhar A., Mukherjee H., Dash N.S. та ін. Text categorization: past and present. Artificial Intelligence Review. 2021. Vol. 54. P 3007–3054. https://doi.org/10.1007/s10462-020-09919-1.
Барковська О., Холєв В., Пивоварова Д., Іващенко Г., Росінський Д. Система обміну знаннями молодих науковців із різних країн. Сучасні інформаційні системи. 2021. № 5(1). С. 69–74. https://doi.org/10.20998/2522-9052.2021.1.09.
Ester M., Kriegel H., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise. AAAI Press : In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD'96), 1996. P. 226–231.
Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Latent Dirichlet allocation. Journal of Machine Learning Research. 2003.Vol. 3, PP. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993
Suyal H., Panwar A., Singh Negi A. Text Clustering Algorithms: A Review. International Journal of Computer Applications. 2014. Т. 96, № 24. С. 36–40. URL: https://doi.org/10.5120/16946-7075.
Hotho A., Nürnberger A., Paaß G. A Brief Survey of Text Mining. Journal for Language Technology and Computational Linguistics. 2005. Т. 20, № 1. С. 19–62. URL: https://doi.org/10.21248/jlcl.20.2005.68.
Zheng, Y., Cheng, X., Huang, R., Man, Y. A Comparative Study on Text Clustering Methods. Springer, Berlin, Heidelberg : In Advanced Data Mining and Applications. ADMA 2006, vol 4093. 2006. https://doi.org/10.1007/11811305_71.
Afzali M., Kumar S. Text Document Clustering: Issues and Challenges. 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon), м. Faridabad, 14–16 лют. 2019 р. 2019. URL: https://doi.org/10.1109/comitcon.2019.8862247.
Електронний каталог – Наукова бібліотека ХНУРЕ. Головна – Наукова бібліотека ХНУРЕ. URL: https://lib.nure.ua/el-katalog.