ГІБРИДНА МОДЕЛЬ ОЦІНЮВАННЯ ЕФЕКТИВНОСТІ МЕТРИК БЛИЗЬКОСТІ ДЛЯ ДАНИХ ЕКСПРЕСІЇ ГЕНІВ

Автор(и)

DOI:

https://doi.org/10.32782/mathematical-modelling/2025-8-1-28

Ключові слова:

дані експресії генів, метрики близькості, гібридна модель, кластеризація, класифікація, персоналізована медицина

Анотація

У статті представлено розробку та застосування гібридної моделі для оцінювання ефективності метрик близькості у високорозмірних даних експресії генів, яка інтегрує методи інтелектуального аналізу даних та машинного навчання в єдиній комплексній структурі. Основна увага приділяється порівняльному аналізу кореляційної відстані, метрик, заснованих на взаємній інформації, та метрики Васерштейна, з метою визначення їхньої ефективності для завдань кластеризації та класифікації. Отримані результати демонструють, що кореляційна відстань і метрика Васерштейна забезпечують високу точність та стабільність, що робить їх придатними для інтеграції з діагностичними системами. Для підвищення надійності класифікації реалізовано стекінг-модель, яка компенсує можливі помилки кластеризації та забезпечує стабільну продуктивність незалежно від використаної метрики та структури кластерів. Запропонований конвеєр обробки даних забезпечує автоматизований, стандартизований і масштабований аналіз великих масивів даних експресії генів, що узгоджується із принципами персоналізованої медицини. Завдяки можливості ранньої діагностики захворювань та підтримці розроблення індивідуальних стратегій лікування отримані результати мають велике значення для вдосконалення сучасних діагностичних систем у межах концепції прецизійної медицини. Застосування гібридних підходів дозволяє ефективно поєднувати переваги різних методів оцінювання подібності та класифікації, що сприяє підвищенню точності прогнозування на основі даних експресії генів. Запропонований методологічний підхід може бути використаний у біоінформатиці для аналізу складних біологічних систем, оптимізації процесів обробки генетичних даних і розроблення нових алгоритмічних рішень у сфері медичної діагностики. Такий підхід сприяє адаптації сучасних інформаційних технологій для виявлення біомаркерів захворювань, що забезпечує інтеграцію отриманих результатів у клінічну практику та підтримує розвиток персоналізованих методів лікування.

Посилання

Chen Y., Ye J., Li J. Aggregated wasserstein distance and state registration for hidden markov models. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. Vol. 42 (9). P. 2133–2147.

Anh C.-T., Kwon Y.-K. Mutual information based on multiple level discretization network inference from time series gene expression profiles. Applied Sciences (Switzerland). 2023. Vol. 13 (21). Art. 11902.

Barman S., Kwon Y.-K. A novel mutual information-based boolean network inference method from time-series gene expression data. PLoS ONE. 2017. Vol. 12 (2). Art. e0171097.

Pan X., Sun J., Yu H., Xue Y. Feature selection using non-dominant features-guided search for gene expression profile data. Complex and Intelligent Systems. 2023. Vol. 9 (6). P. 6139–6153.

Rezapour M., Walker S., Ornelles D., et al. A comparative analysis of rna-seq and nanostring technologies in deciphering viral infection response in upper airway lung organoids. Frontiers in Genetics. 2024. Vol. 15. Art. 1327984.

Bakry K., Emeish W., Embark H., et al. Expression profiles of four nile tilapia innate immune genes during early stages of aeromonas veronii infection. Journal of Aquatic Animal Health. 2024. Vol. 36 (2). P. 164–180.

Cao Q., Zhao J., Wang H., Guan Q., Zheng C. An integrated method based on Wasserstein distance and graph for cancer subtype discovery. IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2023. Vol. 20 (6). P. 3499–3510.

Ocal K., Grima R., Sanguinetti G. Wasserstein distances for estimating parameters in stochastic reaction networks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. Vol. 11773. P. 347–351.

Zhou K., Yin Z., Gu J., Zeng Z. A feature selection method based on graph theory for cancer Classification. Combinatorial Chemistry and High Throughput Screening. 2024. Vol. 27 (5). P. 650–660.

Zhang H. Feature selection using approximate conditional entropy based on fuzzy information granule for gene expression data classification. Frontiers in Genetics. 2021. Vol. 12. Art. 631505.

Almugren N., Alshamlan H. A survey on hybrid feature selection methods in microarray gene expression data for cancer classification. IEEE Access. 2019. Vol. 7. P. 78533–78548.

Guelib B., Bounab R., Aliouane S., et al. Optimizing gene selection for alzheimer’s disease classification: A Bayesian approach to filter and embedded techniques. Applied Soft Computing. 2024. Vol. 167. Art. 112307.

Wang T., Jia L., Xu J., et al. A hybrid intelligent optimization algorithm to select discriminative genes from large-scale medical data. International Journal of Machine Learning and Cybernetics. 2024. Vol. 15 (12). P. 5921–5948.

Yaqoob A., Verma N., Aziz R., Shah M. Rna-seq analysis for breast cancer detection: a study on paired tissue samples using hybrid optimization and deep learning techniques. Journal of Cancer Research and Clinical Oncology. 2024. Vol. 150 (10). Art. 455.

Esfandiari A., Nasiri N. Gene selection and cancer classification using interaction-based feature clustering and improved-binary bat algorithm. Computers in Biology and Medicine. 2024. Vol. 181. Art. 109071.

##submission.downloads##

Опубліковано

2025-05-27