Аннотації
07.04.2025
Туберкульоз (ТБ) залишається однією з найактуальніших проблем охорони здоров’я, особливо в країнах, що розвиваються. Високий рівень захворюваності та поширення мультирезистентних штамів Mycobacterium tuberculosis створюють значні виклики для сучасної медицини. Індія є однією з держав із найбільшим тягарем ТБ, тому оптимізація методів прогнозування поширення хвороби є надзвичайно важливою для ефективного впровадження заходів профілактики і лікування. Застосування методів машинного навчання (ML) дає можливість автоматизувати аналіз великих обсягів даних та виявляти ключові фактори ризику. Метою цього дослідження є розроблення ефективних моделей машинного навчання для оцінки ризику поширення ТБ в Індії на основі соціально-економічних, демографічних і медичних факторів. Для аналізу було використано набір даних, що містить 148 записів за період 2019–2022 рр., розбитих за штатами Індії. До основних змінних належить кількість виявлених випадків ТБ, показники успішності лікування, рівень смертності серед хворих, а також статус вживання тютюну й алкоголю серед пацієнтів. Дослідження включало попередню обробку даних, кореляційний аналіз та застосування методів машинного навчання. Було протестовано кілька моделей: лінійну регресію, регуляризовані моделі (Lasso та Ridge), метод опорних векторів (SVM), метод найближчих сусідів (KNN), випадковий ліс та дерево рішень. Аналіз засвідчив, що найкращу точність має модель SVM із оптимізованими параметрами, що продемонструвала найвищий коефіцієнт детермінації та найнижчу середньоквадратичну помилку. Порівняння інших моделей виявило значні переваги SVM над лінійною регресією та деревом рішень, які показали низьку узагальнюючу здатність. Визначення найбільш вагомих факторів у прогнозуванні поширення ТБ здійснено за допомогою методу Permutation Importance. Найбільший вплив мали такі фактори: географічне розташування (штат), кількість зареєстрованих випадків ТБ серед дітей, кількість жінок із ТБ, рівень смертності серед пацієнтів та інфраструктура для лікування лікарсько-стійкого ТБ. Виявлено, що соціальні фактори, такі як рівень споживання тютюну й алкоголю серед пацієнтів, також впливають на поширення хвороби, проте їхній внесок є менш значущим. Дослідження підтвердило ефективність застосування методів машинного навчання для прогнозування поширення туберкульозу. Оптимізована модель SVM забезпечила найкращі показники точності й узагальнюючої здатності. Аналіз вагомості факторів засвідчив, що найбільший вплив на поширення хвороби мають регіональні особливості, демографічні показники та рівень смертності. Отримані результати можуть бути використані для вдосконалення стратегій боротьби з ТБ, зокрема через цільове впровадження заходів у регіонах з високими ризиками. Використання ML-методів дає змогу покращити ефективність контролю над захворюванням, що є важливим кроком у глобальній боротьбі з туберкульозом.
Tuberculosis (TB) remains one of the most pressing public health issues, especially in developing countries. The high incidence rate and the spread of multidrug-resistant strains of “Mycobacterium tuberculosis” pose significant challenges to modern medicine. India is one of the countries with the highest TB burden, making the optimization of disease spread prediction methods crucial for the effective implementation of prevention and treatment measures. The application of machine learning (ML) methods enables the automation of large-scale data analysis and the identification of key risk factors. This study aims to develop effective machine learning models for assessing the risk of TB spread in India based on socio-economic, demographic, and medical factors. A dataset containing 148 records from the period 2019–2022, categorized by Indian states, was used for analysis. Key variables included the number of detected TB cases, treatment success rates, mortality rates among patients, and the tobacco and alcohol consumption status of patients. The study involved data preprocessing, correlation analysis, and the application of machine learning methods. Several models were tested: linear regression, regularized models (Lasso and Ridge), support vector machine (SVM), k-nearest neighbors (KNN), random forest, and decision tree. The analysis showed that the best accuracy was achieved by the SVM model with optimized parameters, demonstrating the highest coefficient of determination and the lowest root mean square error. The comparison of other models revealed significant advantages of SVM over linear regression and decision trees, which exhibited low generalization capability. The most influential factors in predicting TB spread were determined using the Permutation Importance method. The most significant factors included geographic location (state), the number of registered TB cases among children, the number of women with TB, the mortality rate among patients, and the infrastructure available for treating drug-resistant TB. It was also found that social factors, such as tobacco and alcohol consumption among patients, influence the disease spread, although their contribution is less significant. The study confirmed the effectiveness of applying machine learning methods to predict tuberculosis spread. The optimized SVM model provided the best accuracy and generalization capability. Factor importance analysis revealed that regional characteristics, demographic indicators, and mortality rates have the greatest impact on disease spread. The obtained results can be used to improve TB control strategies, particularly through targeted interventions in high-risk regions. The use of ML methods enhances disease control efficiency, which is an essential step in the global fight against tuberculosis.
1. Batoure Bamana, A., Shafiee Kamalabad, M., & Oberski, D. L. (2024). A systematic literature review of time series methods applied to epidemic prediction. Informatics in Medicine Unlocked, 50, 101571. https://doi.org/10.1016/j.imu.2024.101571.
2. Arisanti, R., Pontoh, R. S., Winarni, S., Nurhasanah, Y., Pertiwi, A. P., & Aini, S. D. N. (2024). Integrating generalized linear mixed models with extreme neural network: Enhancing pulmonary tuberculosis risk modeling in West Java, Indonesia. Communications in Mathematical Biology and Neuroscience, 2024, 85. https://doi.org/10.28919/cmbn/8748.
3. D‘Souza, N. S., Wang, H., Giovannini, A., Foncubierta-Rodriguez, A., Beck, K. L., Boyko, O., & Syeda-Mahmood, T. F. (2024). Fusing modalities by multiplexed graph neural networks for outcome prediction from medical data and beyond. Medical Image Analysis, 93, 103064. https://doi.org/10.1016/j.media.2023.103064.
4. Zhang, F., Zhang, F., Li, L., & Pang, Y. (2024). Clinical utilization of artificial intelligence in predicting therapeutic efficacy in pulmonary tuberculosis. Journal of Infection and Public Health, 17 (4), 632–641. https://doi.org/10.1016/j.jiph.2024.02.012.
5. Sun, C., Fang, R., Salemi, M., Prosperi, M., & Magalis, B. R. (2024). DeepDynaForecast: Phylogenetic-informed graph deep learning for epidemic transmission dynamic prediction. PLoS Computational Biology, 20 (4), e1011351. https://doi.org/10.1371/journal.pcbi.1011351.
6. Yilmaz, Y. (2024). Stacked ensemble modeling for improved tuberculosis treatment outcome prediction in pediatric cases. Concurrency and Computation: Practice and Experience, 36(13), e8089. https://doi.org/10.1002/cpe.8089.
7. Canas, L. S., Dong, T. H. K., Beasley, D., Donovan, J., Cleary, J. O., et al. (2024). Computer-aided prognosis of tuberculous meningitis combining imaging and non-imaging data. Scientific Reports, 14 (1), 17581. https://doi.org/10.1038/s41598-024-68308-8.
8. Abade, A., Porto, L. F., Scholze, A. R., Kuntath, D., Barros, N. D. S., et al. (2024). A comparative analysis of classical and machine learning methods for forecasting TB/HIV co-infection. Scientific Reports, 14 (1), 18991. https://doi.org/10.1038/s41598-024-69580-4.
9. Zhang, Y., Ma, H., Wang, H., Xia, Q., Wu, S., et al. (2024). Forecasting the trend of tuberculosis incidence in Anhui Province based on machine learning optimization algorithm, 2013–2023. BMC Pulmonary Medicine, 24 (1), 536. https://doi.org/10.1186/s12890-024-03296-z.
10. Hamna Mariyam K B, Anuwat Jirawattanapanit, Sayooj Aby Jose, Karuna Mathew. A comprehensive study on tuberculosis prediction models: Integrating machine learning into epidemiological analysis Journal of Theoretical Biology, 597, art. no. 111988, 2025 DOI: 10.1016/j.jtbi.2024.111988.
11. Lane, T. R., Urbina, F., Rank, L., Gerlach, J., Riabova, O., et al. (2022). Machine learning models for Mycobacterium tuberculosis in vitro activity: Prediction and target visualization. Molecular Pharmaceutics, 19 (2), 674–689. https://doi.org/10.1021/acs.molpharmaceut.1c00791.
1. Batoure Bamana A., Shafiee Kamalabad M., Oberski D. L. A systematic literature review of time series methods applied to epidemic prediction Informatics in Medicine Unlocked, 50, art. no. 101571, 2024 DOI: 10.1016/j.imu.2024.101571.
2. Arisanti R., Pontoh R. S., Winarni S., Nurhasanah Y., Pertiwi A. P., Aini S. D. N. Integrating Generalized Linear Mixed Models with Extreme Neural Network: Enhancing Pulmonary Tuberculosis Risk Modeling in West Java, Indonesia Communications in Mathematical Biology and Neuroscience, 2024, art. no. 85, 2024 DOI: 10.28919/cmbn/8748.
3. D‘Souza N. S., Wang H., Giovannini A., Foncubierta-Rodriguez A., Beck K. L., Boyko O., Syeda-Mahmood T. F. Fusing modalities by multiplexed graph neural networks for outcome prediction from medical data and beyond Medical Image Analysis, 93, art. no. 103064, 2024 DOI: 10.1016/j.media.2023.103064.
4. Zhang F., Zhang F., Li L., Pang Y. Clinical utilization of artificial intelligence in predicting therapeutic efficacy in pulmonary tuberculosis Journal of Infection and Public Health, 17 (4), pp. 632-641, 2024 DOI: 10.1016/j.jiph.2024.02.012.
5. Sun C., Fang R., Salemi M., Prosperi M., Magalis B. R. Deep Dyna Forecast: Phylogenetic-informed graph deep learning for epidemic transmission dynamic prediction PLoS Computational Biology, 20 (4), art. no. e1011351, 2024 DOI: 10.1371/journal.pcbi.1011351.
6. Yilmaz Y. Stacked ensemble modeling for improved tuberculosis treatment outcome prediction in pediatric cases Concurrency and Computation: Practice and Experience, 36 (13), art. no. e8089, 2024 DOI: 10.1002/cpe.8089.
7. Canas L. S., Dong T. H. K., Beasley D., Donovan J., Cleary J. O., et al. Computer-aided prognosis of tuberculous meningitis combining imaging and non-imaging data Scientific Reports, 14 (1), art. no. 17581, 2024 DOI: 10.1038/s41598-024-68308-8.
8. Abade A., Porto L. F., Scholze A. R., Kuntath D., Barros N. D. S., et al. A comparative analysis of classical and machine learning methods for forecasting TB/HIV co-infection Scientific Reports, 14 (1), art. no. 18991, 2024 DOI: 10.1038/s41598-024-69580-4.
9. Zhang Y., Ma H., Wang H., Xia Q., Wu S., et al. Forecasting the trend of tuberculosis incidence in Anhui Province based on machine learning optimization algorithm, 2013–2023 BMC Pulmonary Medicine, 24 (1), art. no. 536, 2024 DOI: 10.1186/s12890-024-03296-z.
10. Hamna Mariyam K B, Anuwat Jirawattanapanit, Sayooj Aby Jose, Karuna Mathew. A comprehensive study on tuberculosis prediction models: Integrating machine learning into epidemiological analysis Journal of Theoretical Biology, 597, art. no. 111988, 2025 DOI: 10.1016/j.jtbi.2024.111988.
11. Lane T. R., Urbina F., Rank L., Gerlach J., Riabova O., et al. Machine Learning Models for Mycobacterium tuberculosis in Vitro Activity: Prediction and Target Visualization Molecular Pharmaceutics, 19 (2), pp. 674–689, 2022 DOI: 10.1021/acs.molpharmaceut.1c00791.