ГІБРИДНА МОДЕЛЬ АНАЛІЗУ ЕКСПРЕСІЇ ГЕНІВ ІЗ ЗАСТОСУВАННЯМ АНСАМБЛЕВИХ СТРАТЕГІЙ КЛАСТЕРИЗАЦІЇ ТА КЛАСИФІКАЦІЇ ДЛЯ ДІАГНОСТИКИ СТАНУ СКЛАДНИХ СИСТЕМ

Автор(и)

  • О.Р. ЯРЕМА Львівський національний університет імені Івана Франка https://orcid.org/0000-0003-3736-4820
  • С.А. БАБІЧЕВ Університет Яна Евангелиста Пуркінє в Усті на Лабі, Чехія; Херсонський державний університет https://orcid.org/0000-0001-6797-1467

DOI:

https://doi.org/10.32782/mathematical-modelling/2025-8-2-33

Ключові слова:

дані експресії генів, метрики близькості, гібридна модель, кластеризація, класифікація, персоналізована медицина, гібридизація

Анотація

Аналіз даних експресії генів є одним із ключових інструментів сучасної біоінформатики та комп’ютерних наук, оскільки дає змогу ідентифікувати біомаркери, формувати молекулярні профілі та підтримувати процеси діагностики онкологічних захворювань. Актуальність цього напряму пояснюється потребою у методах, здатних адекватно обробляти великі транскриптомні дані з високою розмірністю, різнорідністю та шумами. Такі особливості суттєво ускладнюють використання традиційних методів кластеризації та класифікації, унаслідок чого вони втрачають інтерпретованість і точність. У статті запропоновано гібридну модель, що поєднує алгоритм самоорганізованих дерев (Self-Organizing Tree Algorithm, SOTA) з консенсусними стратегіями агломеративної та спектральної кластеризації. Запропонований ансамблевий підхід дає змогу формувати узгоджені та інформативні кластери профілів експресії генів, що зменшує вплив локальних аномалій і підвищує надійність отриманих результатів. Побудовані кластери використовувалися як нові ознаки для класифікаційної моделі на основі алгоритму Random Forest, гіперпараметри якого було оптимізовано за допомогою байєсівських методів у поєднанні зі стекінгом. Моделювання виконано на великомасштабній матриці експресії, що включала понад 6 тис біологічних зразків і 18 тис генів, охоплюючи 14 класів зразків. Результати показали, що спектральний консенсусний варіант SOTA стабільно забезпечує найкращі значення внутрішніх індексів якості кластеризації та найвищу точність класифікації. Зокрема, у конфігураціях із трьома-п’ятьма кластерами досягнуто 100% точності та F1-міри, що підтверджує діагностичну значущість виділених груп генів. Розроблений ансамблевий конвеєр являє собою масштабований і стандартизований інструмент аналізу транскриптомних даних, який може бути інтегрований у системи підтримки прийняття рішень для ранньої діагностики стану складних систем.

Посилання

Ryan C., O’Driscoll A., Coughlan J., Luo J. Cancer diagnosis and prognosis through gene expression. Briefings in Bioinformatics. 2023. Vol. 24. Art. no. bbac527. DOI: https://doi.org/10.1093/bib/bbac527

Golalipour K., Akbari E., Hamidi S., Lee M., Enayatifar R. From clustering to clustering ensemble selection: A review. Engineering Applications of Artificial Intelligence. 2021. Vol. 104. Art. no. 104388. DOI: https://doi.org/10.1016/j.engappai.2021.104388

Babichev S., Yasinska-Damri L., Liakh I. A hybrid model of cancer diseases diagnosis based on gene expression data with joint use of data mining methods and machine learning techniques. Applied Sciences. 2023. Vol. 13. Art. no. 6022. DOI: https://doi.org/10.3390/app13106022

Galluzzo Y. A comprehensive review of the data and knowledge graph approaches in bioinformatics. Computer Science and Information Systems. 2024. Vol. 21. P. 1055–1075. DOI: https://doi.org/10.2298/CSIS230530027G

Shen J., Guo X., Bai H., Luo J. CAEM-GBDT: a cancer subtype identifying method using multi- omics data and convolutional autoencoder network. Frontiers in Bioinformatics. 2024. Vol. 15. Art. no. 1403826. DOI: https://doi.org/10.3389/fbinf.2024.1403826

Khalsan M., Machado L., Al-Shamery E., Liu R. A survey of machine learning approaches applied to gene expression analysis for cancer prediction. IEEE Access. 2022. Vol. 10. P. 27522–27534. DOI: https://doi.org/10.1109/ACCESS.2022.3146312

Xianyu H., Zhenglin W., Qing W. Molecular classification reveals the diverse genetic and prognostic features of gastric cancer: A multi-omics consensus ensemble clustering. Biomedicine & Pharmacotherapy. 2021. Vol. 144. Art. no. 112222. DOI: https://doi.org/10.1016/j.biopha.2021.112222

Figueroa-Martínez J., Saz-Navarro D. M., López-Fernández A., Rivera J. Computational ensemble gene co-expression networks for breast and prostate cancer biomarker identification. Informatics. 2024. Vol. 11. Art. no. 14. DOI: https://doi.org/10.3390/informatics11020014

Mubeen S., Hoyt C., Gemünd A., & Smith K. The impact of pathway database choice on statistical enrichment analysis and predictive modeling. Frontiers in Genetics. 2019. № 22. Art. no. 1203. DOI: https://doi.org/10.3389/fgene.2019.01203

Jianxia L., Liu R., Mingyang Z., Yangyang L. Ensemble-based multi-objective clustering algorithms for gene expression data sets. IEEE Congress on Evolutionary Computation (CEC) : Donostia–San Sebastián, Spain, 5–8 June. 2017. P. 333–340.

Panwong P., Boongoen T., Iam-On N., Mullaney J. Exploiting consensus clustering for light curve data analysis. IEEE Eurasia Conference on IOT, Communication and Engineering (ECICE) : Yunlin, Taiwan, October 3–6. 2019. P. 498–501.

Dopazo J., Carazo J. Phylogenetic reconstruction using an unsupervised growing neural network that adopts the topology of a phylogenetic tree. Journal of Molecular Evolution. 1997. Vol. 44. P. 226–233. DOI: https://doi.org/10.1007/PL00006139

Heidari J., Daneshpour N., Zangeneh A. A novel k-means and k-medoids algorithms for clustering non-spherical-shape clusters non-sensitive to outliers. Pattern Recognition. 2024. Vol. 155. Art. no. 110639. DOI: https://doi.org/10.1016/j.patcog.2024.110639

Babichev S., Yarema O., Savchenko A. Evaluating proximity metrics for gene expression data: A hybrid model integrating data mining and machine learning techniques for disease diagnosis systems. Biomedical Signal Processing and Control. 2025. Vol. 110. Art. no. 108115. DOI: https://doi.org/10.1016/j.bspc.2025.108115

Babichev S., Yarema O., Liakh I., Shumylo N. A gene ontology-based pipeline for selecting significant gene subsets in biomedical applications. Applied Sciences. 2025. Vol. 15. Art. no. 4471. DOI: https://doi.org/10.3390/app15084471

##submission.downloads##

Опубліковано

2025-12-30