
Tecnologia
10 de dezembro de 2025
Desenvolvimento e avaliação de modelos preditivos para doenças cardíacas
Autor: Luis Enrique Icart Maciel — Orientador: Fábio Lima
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo buscou desenvolver e avaliar modelos preditivos para doenças cardíacas utilizando dados abertos, com foco na identificação das variáveis mais influentes. Construir algoritmos de aprendizado de máquina com desempenho robusto e alta interpretabilidade, permitindo a clara identificação dos fatores de risco determinantes. A abordagem foi criar uma ferramenta de apoio à decisão clínica precisa e transparente, útil para a triagem precoce de pacientes, especialmente em contextos com recursos limitados. A ênfase na explicabilidade buscou superar a barreira da “caixa-preta” da inteligência artificial, promovendo a confiança e a adoção por profissionais de saúde.
As doenças cardiovasculares (DCV) são a principal causa de mortalidade global (Islam e Majumder, 2013), com 17,9 milhões de óbitos anuais (World Health Organization, 2021). O espectro inclui doença cardíaca coronária, cerebrovascular e arterial periférica. Fatores de risco comportamentais como dieta inadequada, sedentarismo, consumo de álcool e tabaco são catalisadores reconhecidos para o desenvolvimento dessas patologias.
No Brasil, as doenças cardiovasculares são a principal causa de morte, respondendo por 20% dos óbitos em indivíduos com mais de 30 anos, com maior incidência nas regiões Sul e Sudeste (Mansur e Favarato, 2016). A situação é agravada em países de baixa e média renda, que concentram mais de três quartos das mortes globais por DCV, refletindo disparidades no acesso a cuidados (Coffey et al., 2021). O crescimento populacional e a prevalência de fatores de risco pressionam os sistemas de saúde, tornando o diagnóstico acessível um desafio logístico e financeiro (Dutta et al., 2020).
Nesse cenário, o aprendizado de máquina surge como uma abordagem para um modelo de saúde mais proativo e personalizado (Sarker, 2024). A capacidade dos algoritmos de analisar grandes volumes de dados e identificar padrões complexos pode aprimorar a predição de risco cardiovascular. A digitalização do setor médico facilitou a coleta de informações clínicas, criando um ambiente propício para modelos preditivos que otimizam a decisão clínica e a alocação de recursos (Aljanabi et al., 2018). Contudo, para sua aplicação clínica, a precisão dos modelos deve ser acompanhada de interpretabilidade.
A natureza de “caixa-preta” de muitos algoritmos é uma barreira, pois profissionais de saúde precisam compreender os fatores por trás de uma previsão para confiar nela (Lundberg et al., 2018). Modelos explicáveis, que justificam suas previsões, são fundamentais para o uso responsável e ético da inteligência artificial em diagnósticos (Yin e Bingi, 2023), alinhando-se ao objetivo deste estudo de equilibrar desempenho e transparência.
Esta pesquisa possui características aplicadas, com delineamento experimental e quantitativo, adequada para investigar relações de causa e efeito entre fatores de risco e a presença de doença cardíaca (Anderson-Cook, 2005; Babbie, 2020). O estudo desenvolveu e avaliou modelos preditivos utilizando o conjunto de dados aberto “Heart Disease” do “UCI Machine Learning Repository” (2007). A escolha deste dataset, extensivamente utilizado em pesquisas anteriores (Ding e Sadeghi, 2019; Dhurandhar et al., 2019; Aljanabi et al., 2018; Wang, 2018), garantiu a replicabilidade e comparabilidade dos resultados.
A preparação dos dados foi uma etapa crítica. Embora o conjunto de dados original contivesse 76 atributos, a versão utilizada neste estudo possui 14 variáveis principais, sem valores ausentes. Uma análise exploratória identificou outliers, especialmente em peso e altura. Para mitigar seu impacto, foram removidas observações com massa corporal inferior a 48 kg (1º percentil) e altura inferior a 148 cm (1º percentil). Essa intervenção resultou em um conjunto de dados final com 66.833 registros e 14 colunas, utilizado para a modelagem.
A variável-alvo foi definida como binária: presença (1) ou ausência (0) de doença cardíaca. As variáveis preditoras incluíram dados demográficos (gênero, idade), antropométricos (altura, peso, IMC), clínicos (pressão sistólica e diastólica, níveis de colesterol e glicose) e comportamentais (atividade física, álcool, tabagismo). Para a modelagem, variáveis categóricas foram transformadas em “dummies” (n-1) e as contínuas foram padronizadas via z-score, usando dados de treino para evitar vazamento de informação. Os dados foram divididos em 80% para treinamento e 20% para teste, conforme prática padrão para avaliar a generalização (Catania et al., 2022).
Foram avaliados seis algoritmos: Regressão Logística, Árvores de Decisão, Random Forest, XGBoost, AdaBoost e LightGBM. A Regressão Logística foi escolhida por ser um modelo linear interpretável (Nasarian et al., 2024), e as Árvores de Decisão por modelarem relações não lineares (Valente et al., 2021). Random Forest e os algoritmos de boosting (XGBoost, AdaBoost, LightGBM) foram selecionados por seu alto desempenho preditivo em problemas complexos (Imani et al., 2025; Gao et al., 2023).
A otimização de hiperparâmetros foi realizada com “Randomized Search” (50 iterações) e validação cruzada de 5 “folds”. O desempenho foi avaliado por AUC-ROC e Recall, métricas informativas em cenários médicos (Richardson et al., 2023). A interpretabilidade foi assegurada pela técnica SHAP (Lundberg e Lee, 2017). O fluxo foi implementado em Python com Scikit-learn, XGBoost, LightGBM e SHAP.
A análise descritiva revelou uma média de IMC de 27,5 (sobrepeso) e médias de pressão sistólica (126,5 mmHg) e diastólica (81,3 mmHg) próximas aos limites superiores da normalidade, sugerindo uma população de risco. A matriz de correlação confirmou associações esperadas: a idade apresentou a correlação positiva mais forte com a doença cardíaca (r = 0,24), seguida por IMC (r = 0,19) e peso (r = 0,17). A pressão sistólica e diastólica mostraram forte correlação entre si (r = 0,73). A pressão sistólica teve a maior correlação com a variável-alvo (r = 0,43), seguida pela diastólica (r = 0,34), indicando que níveis pressóricos elevados são fortes preditores.
Gráficos de caixa das pressões sistólica e diastólica mostraram uma separação clara entre os grupos com e sem doença cardíaca, com indivíduos diagnosticados apresentando valores medianos e distribuições mais elevadas. A análise de variáveis categóricas, via teste qui-quadrado, indicou associações estatisticamente significativas (p < 0,05) entre a doença e os níveis de pressão arterial, colesterol, glicose, tabagismo, álcool e atividade física. Indivíduos com hipertensão nível 2 apresentaram prevalência de 80,1% de doença cardíaca, e aqueles com colesterol muito acima do normal, 76,1%. A inatividade física também se associou a um maior percentual de doença (53,3%) comparado aos ativos (48,6%).
A avaliação comparativa dos seis algoritmos mostrou que, no conjunto de treinamento, o Random Forest alcançou a maior AUC-ROC (0,817) e acurácia (0,744). No entanto, no conjunto de teste, o modelo XGBoost se destacou com a maior AUC-ROC (0, 7996), seguido por LightGBM (0, 7990) e Random Forest (0, 7989). A consistência entre os resultados de treino e teste sugere que o overfitting foi evitado. Com base nesses resultados, o XGBoost foi selecionado como o modelo final, oferecendo o melhor equilíbrio entre capacidade de discriminação (AUC-ROC) e sensibilidade (Recall de 0,6882).
Em diagnóstico médico, o Recall é crucial para minimizar falsos negativos. A análise do gráfico de densidade das probabilidades preditas pelo XGBoost revelou uma sobreposição considerável entre as distribuições dos grupos, explicando a dificuldade em separá-los perfeitamente e justificando a busca por otimização do limiar de classificação.
Para otimizar o modelo para o cenário clínico, onde a detecção de positivos é prioritária, foi realizada uma análise da curva de Precisão-Recall para ajustar o limiar de classificação. O limiar padrão de 0,5 não era ideal. A análise indicou que um limiar de 0,36 representava um ponto de equilíbrio estratégico, tornando o modelo mais sensível. Essa alteração aumentou o Recall para 0,80, significando que o modelo passou a identificar 80% dos pacientes com a doença. Consequentemente, a Precisão foi reduzida para 0,60, aumentando os falsos positivos. Este trade-off é clinicamente justificável, pois é preferível investigar pacientes saudáveis adicionalmente a não diagnosticar um paciente doente.
A interpretabilidade do modelo XGBoost foi investigada com a análise SHAP, validando clinicamente os achados. O gráfico de impacto médio dos valores SHAP confirmou a pressão sistólica como a variável de maior influência, seguida pela idade e pelo status de colesterol muito acima do normal, alinhando-se ao conhecimento médico consolidado. O gráfico de dispersão SHAP detalhou como os valores de cada característica impactam a previsão: valores elevados de pressão sistólica e idade aumentam a probabilidade de doença (valores SHAP positivos), enquanto a prática de atividade física demonstrou um papel protetor (valores SHAP negativos).
Essa capacidade de analisar a previsão em nível individual transforma o modelo de uma “caixa-preta” em uma ferramenta de apoio à decisão. Permite ao profissional de saúde entender quais fatores específicos contribuíram para o risco calculado, facilitando a comunicação com o paciente e o desenvolvimento de planos de intervenção personalizados, alinhando o poder da IA com o raciocínio clínico.
A comparação com outros estudos revela que técnicas como Perceptron Multicamadas (MLP) ou combinações de ML com Deep Learning reportaram métricas superiores, com AUC-ROC de 0,95 e acurácias acima de 94% (Bhatt et al., 2023; Bharti et al., 2021). Embora esses estudos tenham utilizado variáveis semelhantes, as diferenças nos conjuntos de dados, populações e estratégias de engenharia de atributos podem explicar a disparidade. O desempenho do modelo aqui desenvolvido, embora mais baixo, é robusto e clinicamente relevante. O foco em variáveis de fácil obtenção e alta interpretabilidade confere-lhe um valor prático distinto, especialmente para triagem primária.
Em um cenário onde as doenças cardiovasculares sobrecarregam os sistemas de saúde, modelos preditivos de aprendizado de máquina são uma estratégia promissora. O resultado demonstrou a viabilidade de desenvolver um modelo XGBoost robusto e interpretável, utilizando variáveis de fácil obtenção como idade, pressão arterial e IMC.
A escolha dessas variáveis aumenta o potencial de aplicação em contextos com recursos limitados, como a atenção primária. A análise SHAP validou a lógica do modelo ao destacar preditores clinicamente consagrados. A decisão estratégica de ajustar o limiar de classificação para 0,36 elevou o Recall para 0,80, adaptando o modelo às necessidades clínicas onde a sensibilidade é prioritária, minimizando a chance de um paciente doente não ser identificado.
Apesar de limitações como o uso de uma base de dados internacional e a ausência de variáveis clínicas mais detalhadas, o estudo cumpriu seus propósitos, demonstrou que é possível desenvolver e avaliar um modelo de aprendizado de máquina explicável para a predição de doenças cardíacas, que oferece um equilíbrio estratégico entre desempenho e sensibilidade, com aplicabilidade direta em cenários de triagem ambulatorial.
Referências
Aljanabi, M.;Qutqut, M. H.;Hijjawi, M. 2018. Machine learning classification techniques for heart disease prediction: a review. International Journal of Engineering & Technology, 7(4): 5373–5379.
Anderson-Cook, C. M. 2005. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Journal of the American Statistical Association, 100(470): 708–708.
Babbie, E. R. 2020. The practice of social research. Cengage Au.
Bharti, R.;Khamparia, A.;Shabaz, M.;Dhiman, G.;Pande, S.;Singh, P. 2021. Prediction of Heart Disease Using a Combination of Machine Learning and Deep Learning. Computational Intelligence and Neuroscience, 2021(1): 8387680.
Bhatt, C. M.;Patel, P.;Ghetia, T.;Mazzeo, P. L. 2023. Effective Heart Disease Prediction Using Machine Learning Techniques. Algorithms, 16(2): 88.
Catania, C.;Guerra, J.;Romero, J. M.;Caffaratti, G.;Marchetta, M. 2022. Beyond Random Split for Assessing Statistical Model Performance.
Coffey, S.;Roberts-Thomson, R.;Brown, A.;Carapetis, J.;Chen, M.;Enriquez-Sarano, M.;Zühlke, L.;Prendergast, B. D. 2021. Global epidemiology of valvular heart disease. Nature Reviews Cardiology, 18(12): 853–864.
Dhurandhar, A.;Shanmugam, K.;Luss, R. 2019. Leveraging Simple Model Predictions for Enhancing its Performance. ArXiv.
Ding, N.;Sadeghi, P. 2019. A Submodularity-based Agglomerative Clustering Algorithm for the Privacy Funnel. ArXiv.
Dutta, A.;Batabyal, T.;Basu, M.;Acton, S. T. 2020. An efficient convolutional neural network for coronary heart disease prediction. Expert Systems with Applications, 159: 113408.
Gao, X.;Alam, S.;Shi, P.;Dexter, F.;Kong, N. 2023. Interpretable machine learning models for hospital readmission prediction: a two-step extracted regression tree approach. BMC Medical Informatics and Decision Making, 23(1): 104.
Imani, M.;Beikmohammadi, A.;Arabnia, H. R. 2025. Comprehensive Analysis of Random Forest and XGBoost Performance with SMOTE, ADASYN, and GNUS Under Varying Imbalance Levels. Technologies, 13(3): 88.
Islam, A. K. M. M.;Majumder, A. A. S. 2013. Coronary artery disease in Bangladesh: A review. Indian Heart Journal, 65(4): 424–435.
Lundberg, S. M.;Lee, S.-I. 2017. A Unified Approach to Interpreting Model Predictions. Em Advances in Neural Information Processing Systems. Curran Associates, Inc.
Lundberg, S. M.;Nair, B.;Vavilala, M. S.;Horibe, M.;Eisses, M. J.;Adams, T.;Liston, D. E.;Low, D. K.-W.;Newman, S.-F.;Kim, J.;Lee, S.-I. 2018. Explainable machine-learning predictions for the prevention of hypoxaemia during surgery. Nature Biomedical Engineering, 2(10): 749–760.
Mansur, A. de P.;Favarato, D. 2016. Tendências da Taxa de Mortalidade por Doenças Cardiovasculares no Brasil, 1980-2012. Arquivos Brasileiros de Cardiologia, 107: 20–25.
Nasarian, E.;Alizadehsani, R.;Acharya, U. R.;Tsui, K.-L. 2024. Designing interpretable ML system to enhance trust in healthcare: A systematic review to proposed responsible clinician-AI-collaboration framework. Information Fusion, 108: 102412.
Richardson, E.;Trevizani, R.;Greenbaum, J. A.;Carter, H.;Nielsen, M.;Peters, B. 2023. The ROC-AUC accurately assesses imbalanced datasets. Available at SSRN 4655233.
Sarker, M. 2024. Revolutionizing Healthcare: The Role of Machine Learning in the Health Sector. Journal of Artificial Intelligence General science (JAIGS) ISSN:3006-4023, 2(1): 36–61.
UCI Machine Learning Repository, U. M. L. R. 2007. Heart Disease.
Valente, F.;Henriques, J.;Paredes, S.;Rocha, T.;Carvalho, P. de;Morais, J. 2021. Improving the compromise between accuracy, interpretability and personalization of rule-based machine learning in medical problems.
Wang, T. 2018. Hybrid Decision Making: When Interpretable Models Collaborate With Black-Box Models. ArXiv.
World Health Organization, W. H. O. 2021. Cardiovascular diseases.
Yin, Y.;Bingi, Y. 2023. Using Machine Learning to Classify Human Fetal Health and Analyze Feature Importance. BioMedInformatics, 3(2): 280–298.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































