СТРАТЕГІЇ АНСАМБЛЕВОГО НАВЧАННЯ ДЛЯ ПРОГНОЗУВАННЯ УСПІШНОСТІ СТУДЕНТІВ: ПОРІВНЯЛЬНА ТА ІНТЕРАКТИВНА СТРУКТУРА
DOI:
https://doi.org/10.32782/mathematical-modelling/2026-9-1-30Ключові слова:
Машинне навчання, Ансамблеві методи, Класифікація, Регресія, Stacking, Voting, Bagging, Boosting, Random Forest, XGBoost, Аналіз данихАнотація
Ансамблеві методи машинного навчання є одним із найбільш ефективних напрямів побудови інтелектуальних систем аналізу даних, оскільки забезпечують підвищення точності, стійкості та узагальнювальної здатності моделей у задачах класифікації та регресії. Актуальність дослідження зумовлена тим, що сучасні прикладні набори даних часто характеризуються високою розмірністю ознак, наявністю шумів, пропущених значень, викидів і дисбалансу класів, що ускладнює застосування окремих алгоритмів машинного навчання та знижує надійність прогнозування. У статті досліджено теоретичні та практичні засади застосування ансамблевих підходів, зокрема bagging, boosting, voting і stacking, з акцентом на їхню роль у підвищенні якості моделювання та зменшенні ризику перенавчання. Особливу увагу приділено стекінгу як гнучкій стратегії інтеграції різнорідних базових моделей за допомогою метамоделі. Практичну частину роботи присвячено розробці інтерактивного web-інтерфейсу для дослідження ансамблевих методів на прикладі задачі оцінки успішності студентів. У межах запропонованого підходу реалізовано дві стратегії моделювання: пряму багатокласову класифікацію на дискретизованій цільовій змінній та регресію з подальшою категоризацією прогнозованих значень. Для побудови моделей використано алгоритми Random Forest, XGBoost, Ridge Regression, а також ансамблеві схеми Voting і Stacking. Якість класифікаційних моделей оцінювалася за метриками Accuracy, Precision, Recall, F1-score та Balanced Accuracy, а регресійних – за показниками MAE, MSE, RMSE і R2. У роботі також враховано етапи попередньої обробки даних, крос-валідації та оптимізації гіперпараметрів, що дозволило підвищити відтворюваність і надійність результатів. Розроблений web-інтерфейс забезпечує поетапне завантаження даних, налаштування параметрів обробки, навчання моделей, аналіз метрик і візуалізацію результатів, що сприяє прозорості експериментування та зручності порівняння різних ансамблевих стратегій. Запропонований підхід є практично придатним для освітніх і дослідницьких задач та може бути використаний як інструмент підтримки прийняття рішень у задачах прогнозування на основі табличних даних.
Посилання
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer, 2009. DOI: https://doi.org/10.1007/978-0-387-84858-7
Ghojogh B., Crowley M. The Theory Behind Overfitting, Cross Validation, Regularization, Bagging, and Boosting: Tutorial. arXiv, 2019. URL: arXiv:1905.12787
Zhou Z.-H. Ensemble Methods: Foundations and Algorithms. 2nd ed. Chapman and Hall/CRC, 2025. DOI: https://doi.org/10.1201/9781003587774
Rokach L. Ensemble-based classifiers. Artificial Intelligence Review. 2010. Vol. 33, no. 1–2. P. 1–39. DOI: https://doi.org/10.1007/s10462-009-9124-7
Dietterich T. G. Ensemble methods in machine learning. In: Multiple Classifier Systems. Springer, 2000. P. 1–15. DOI: https://doi.org/10.1007/3-540-45014-9_1
Kuncheva L. I. Combining Pattern Classifiers: Methods and Algorithms. 2nd ed. John Wiley & Sons, 2014.
Breiman L. Bagging predictors. Machine Learning. 1996. Vol. 24, no. 2. P. 123–140. DOI: https://doi.org/10.1023/A:1018054314350
Breiman L. Random forests. Machine Learning. 2001. Vol. 45, no. 1. P. 5–32. DOI: https://doi.org/10.1023/A:1010933404324
Wolpert D. H. Stacked generalization. Neural Networks. 1992. Vol. 5, no. 2. P. 241–259. DOI: https://doi.org/10.1016/S0893-6080(05)80023-1
Sill J., Takács G., Mackey L., Lin D. Feature-Weighted Linear Stacking. arXiv, 2009. URL: arXiv:0911.0460
Shindo J. H., Mjahidi M. M., Waziri M. D. Data mining algorithms for prediction of student teachers’ performance in ICT: A systematic literature review. Information Technologies and Learning Tools. 2023. Vol. 96, no. 4. P. 29–45. DOI: https://doi.org/10.33407/itlt.v96i4.5246
Caprian I. Impact of false alarms in machine learning-based anti-fraud systems: The economic and reputational consequences. Business Inform. 2025. No. 8. P. 378–389. DOI: https://doi.org/10.32983/2222-4459-2025-8-378-389
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.




