Imagem Predição de risco para diabetes com machine learning no Brasil

04 de fevereiro de 2026

Predição de risco para diabetes com machine learning no Brasil

Cristiane Aparecida Alves; Auberth Henrik Venson

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo objetivou desenvolver um modelo preditivo para diabetes mellitus, identificando os fatores de risco mais influentes a partir de dados da Pesquisa Nacional de Saúde (PNS) de 2019. Foram comparados diferentes algoritmos de aprendizado de máquina para eleger a melhor estratégia preditiva, visando subsidiar políticas de prevenção e intervenção em saúde pública.

O diabetes mellitus é um desafio crescente de saúde pública. No Brasil, estimativas baseadas no Censo 2022 indicam que 20 milhões de pessoas convivem com a doença (Instituto Brasileiro de Geografia e Estatística [IBGE], 2023). O Ministério da Saúde corrobora a magnitude, com um diagnóstico autorreferido de 10,2% nas capitais (Ministério da Saúde, 2024). A doença crônica, caracterizada por hiperglicemia, pode levar a complicações cardiovasculares, renais e neurológicas (Ministério da Saúde, 2025).

A condição se manifesta como tipo 1 (autoimune) e tipo 2 (associado a fatores genéticos e comportamentais) (Müller et al., 2024). O diagnóstico formal utiliza exames como glicemia de jejum e hemoglobina glicada (Rodacki et al., 2024), embora sintomas como aumento da sede e micção frequente sejam indicativos (Harreiter e Roden, 2023). Fatores de risco consolidados incluem idade avançada, sobrepeso, gordura abdominal, histórico familiar e comorbidades como hipertensão (Tavares et al., 2010).

Prevenção e tratamento envolvem mudanças no estilo de vida, como dieta e atividade física (Bernazzi, 2019; Fernandes, 2017). Nesse contexto, modelos preditivos de aprendizado de máquina surgem como ferramentas para identificar indivíduos de alto risco, antecipar diagnósticos e otimizar tratamentos, podendo orientar a alocação de recursos em saúde pública (Abnoosian et al., 2023; Santos et al., 2019). Este estudo utiliza a análise aprofundada dos dados da PNS 2019 para construir e validar um modelo preditivo robusto, fornecendo subsídios para o aprimoramento das políticas de rastreamento e prevenção.

A metodologia baseou-se na análise de dados secundários da PNS 2019 (IBGE/Ministério da Saúde), um levantamento representativo da saúde da população brasileira (Stopa et al., 2019). Do banco de dados original (685 variáveis, 293.726 registros), foram selecionadas 23 variáveis sociodemográficas, comportamentais e clínicas, com o desfecho sendo a presença autorreferida de diabetes. A amostra foi restrita a indivíduos com 18 anos ou mais, e registros com dados ausentes em variáveis cruciais foram excluídos.

O pré-processamento foi realizado em Python (pandas, numpy). Variáveis foram renomeadas, e valores como “ignorado” foram tratados como nulos. Foram criadas variáveis derivadas, como o Índice de Massa Corporal (IMC) e faixas etárias. A escolaridade foi removida para evitar redundância com o nível de instrução. Variáveis contínuas (idade, IMC) foram padronizadas. Variáveis categóricas foram transformadas: binárias codificadas como 0/1, ordinais convertidas em escalas numéricas, e nominais (cor/raça, região) tratadas com one-hot encoding para evitar a imposição de ordem artificial (Bagui et al., 2021).

A análise exploratória incluiu estatísticas descritivas e visualizações. A associação entre preditores e desfecho foi investigada com testes Qui-quadrado e t de Student. A modelagem foi tratada como um problema de classificação binária, empregando quatro algoritmos: Regressão Logística (interpretável) (Silveira et al., 2021), Árvore de Decisão (baseada em regras) (Blockeel et al., 2023), Random Forest (ensemble para reduzir sobreajuste) (Uddin et al., 2019), e Extreme Gradient Boosting (XGBoost), um algoritmo de boosting de alto desempenho (Szcepanek, 2022; Freund e Schapire, 1997).

O conjunto de dados foi dividido de forma estratificada em treino (70%), validação (15%) e teste (15%). Para mitigar o desbalanceamento de classes (7% de diabéticos), foram aplicados pesos de classe e a técnica de oversampling SMOTE (Synthetic Minority Over-sampling Technique), exclusivamente no conjunto de treino para evitar vazamento de dados (Chawla et al., 2002). A otimização de hiperparâmetros foi feita com GridSearchCV e validação cruzada, usando a Área Sob a Curva ROC (AUC-ROC) como métrica principal. O desempenho final foi avaliado por acurácia, precisão (Eledkawy et al., 2024), sensibilidade ou recall (Wong e Lim, 2011), F1-score e matriz de confusão (Park et al., 2004). Todo o processo foi conduzido no Google Colaboratory.

A análise exploratória da amostra final (25.177 observações) mostrou que 6,74% dos indivíduos relataram diabetes. A prevalência foi maior no sexo feminino (7,32% vs. 6,17% no masculino) e aumentou com a idade, atingindo 19,83% em indivíduos com 75 anos ou mais. Participantes autodeclarados amarelos apresentaram uma taxa de diagnóstico de 9,87%. A região Sudeste concentrou a maior proporção de casos (7,73%), e a prevalência foi notavelmente mais elevada entre aqueles sem instrução formal (17,02%).

Quanto ao estilo de vida, entre os participantes com diabetes, 7,77% relataram consumir verduras e legumes diariamente, e 8,99% afirmaram ingerir frutas todos os dias. O consumo de alimentos ultraprocessados foi menos frequente, com 8,47% relatando nunca ou quase nunca consumir refrigerantes. A maioria dos indivíduos com diabetes declarou abstinência de bebidas alcoólicas (8,57%) e não ser fumante atual (6,84%). A prática diária de atividade física foi relatada por 9,53% dos participantes com a doença. A análise de comorbidades revelou sobreposição significativa: entre os indivíduos com diabetes, 16,72% também tinham hipertensão, 15,77% colesterol alto, 18,60% doença cardíaca e 22,86% histórico de Acidente Vascular Cerebral (AVC).

O mapa de calor de correlação não indicou multicolinearidade extrema (Fávero e Belfiori, 2024), observando-se correlações moderadas esperadas, como entre idade e hipertensão (r = 0,42). Testes Qui-quadrado mostraram associação estatisticamente significativa (p < 0,05) entre o diagnóstico de diabetes e quase todas as variáveis categóricas, exceto situação censitária e tabagismo. Para as variáveis contínuas, testes t de Student revelaram que indivíduos com diabetes tinham, em média, idade mais avançada (58,87 vs. 44,71 anos) e IMC mais elevado (28,54 kg/m² vs. 26,64 kg/m²), ambos com p < 0,05, reforçando seu papel como fatores de risco (Nascimento et al., 2023; Flor e Campos, 2017).

Na modelagem, Árvore de Decisão e Random Forest apresentaram overfitting severo, com métricas perfeitas no treino mas desempenho baixo na validação (F1-scores de 0,1717 e 0,0156, respectivamente), tornando-os inadequados para aplicação prática (Aliferis, 2024). Em contraste, Regressão Logística e XGBoost foram mais robustos. A Regressão Logística manteve alta sensibilidade (recall) de 0,7529 no conjunto de teste, com uma AUC-ROC de 0,8105, característica valiosa em saúde pública para minimizar falsos negativos (Damke et al., 2025).

O modelo XGBoost inicial apresentou desempenho equilibrado, com recall de 0,3882 e AUC-ROC de 0,7709 no teste. Após a otimização com SMOTE e ajuste de hiperparâmetros via Grid Search, a avaliação final no conjunto de teste mostrou que a Regressão Logística alcançou maior acurácia (90,65%) e precisão (25,74%). Contudo, o XGBoost otimizado se sobressaiu na métrica mais crítica, a sensibilidade (recall), atingindo 30,98%, substancialmente maior que os 20,39% da Regressão Logística. O F1-score do XGBoost também foi superior (24,73% vs. 22,76%). A análise das matrizes de confusão confirmou que o XGBoost identificou corretamente mais casos de diabetes (79 verdadeiros positivos) em comparação com a Regressão Logística (52 verdadeiros positivos), consolidando-o como o modelo mais eficaz para detecção precoce.

A análise de importância das variáveis do modelo XGBoost final revelou que fatores contextuais, como a região de residência (Norte, Sul, Centro-Oeste) e a cor/raça (preta, branca), foram os preditores mais influentes. Este achado sugere que o XGBoost capturou o contexto socioeconômico e geográfico como um indicador indireto de risco, refletindo disparidades em saúde (Ottavio, 2024). Em contrapartida, os coeficientes da Regressão Logística destacaram a importância dos fatores de risco clínicos diretos, como hipertensão, idade e colesterol elevado. A combinação dessas perspectivas enriquece a compreensão: enquanto a Regressão Logística confirma os preditores clássicos, o XGBoost revela que o contexto do indivíduo é um determinante fundamental do risco de diabetes no Brasil. A análise final do trade-off entre precisão e recall no XGBoost demonstrou que o ponto de corte da predição pode ser ajustado para priorizar a sensibilidade.

Este estudo demonstrou que modelos de Machine Learning são ferramentas eficazes para a predição do risco de diabetes na população brasileira. Entre os algoritmos avaliados, a Regressão Logística e o XGBoost apresentaram o desempenho mais robusto. O modelo XGBoost otimizado com a técnica SMOTE foi selecionado como a estratégia preditiva mais adequada, fundamentado em sua superioridade nas métricas de recall e F1-Score, cruciais em saúde pública para minimizar falsos negativos. A Regressão Logística, no entanto, consolidou-se como uma alternativa valiosa por sua alta interpretabilidade e capacidade de identificar a contribuição de fatores de risco clínicos tradicionais. A análise de importância das variáveis revelou uma dualidade de fatores preditivos: a Regressão Logística reforçou o papel dos determinantes clínicos, enquanto o XGBoost evidenciou que fatores contextuais, como região geográfica e cor/raça, são preditores de grande relevância, atuando como indicadores de disparidades sociais. Este achado sublinha a necessidade de políticas públicas que adotem uma abordagem multifatorial. Apesar de limitações como o uso de dados autorreferidos, o estudo oferece uma base sólida para futuras pesquisas. Conclui-se que o objetivo foi atingido: demonstrou-se que modelos de aprendizado de máquina, especialmente o XGBoost, podem prever o risco de diabetes mellitus na população brasileira, identificando fatores de risco clínicos, comportamentais e contextuais.

Referências:
Abnoosian, K. ; Farnoosh, R. ; Behzadi, M. H. 2023. Prediction of diabetes disease using an ensemble of machine learning multi -classifier models. BMC Bioinformatics 24(1): 1-24.
Aliferis, C. ; Simon, G. 2024. Overfitting, underfitting and general model overconfidence and under-performance pitfalls and best practices in machine learning and AI. 1ed. Springer, Cham , Suíça.
Bagui , S.; Nandi , D.; Bagui , S.; and W, R. J. 2021. Machine learning and deep learning for phishing email classification using one -hot encoding. Journal of Computer Science 17 (7): 610-623.
Bernazzi, D. A. T. 2019. A importância da mudança do estilo de vida para o controle glicêmico no diabetes mellttus tipo 2. Trabalho de conclusão em Curso de Especialização Gestão do Cuidado em Saúde da Família. Universidade Federal do Triângulo Mineiro, Camp os Gerais, MG, Brasil.
Blockeel , H.; Devos , L.; Frénay , B.; Nanfack , G.; Nijssen , S. 2023. Decision trees: from efficient prediction to responsible AI. Frontiers in Artificial Intelligence 26(6): 1-17.
Chawla , N. V. ; Bowyer, K. W.; Hall, L. O.; Kegelmeyer , W. P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research 16(1): 321-357.
Damke, G. T. ; Damke, M. T. ; Gregorini, D. M. 2025. Revisão de abordagens baseadas em aprendizado de máquina para o diagnóstico de diabetes mellitus tipo 2. Revista Caribeña De Ciencias Sociales 14(2) : 1-19.
Eledkawy , A.; H amza , T.; E l-metwally , S. 2024. Precision cancer classification using liquid biopsy and advanced machine learning techniques . Scientific Reports 14(1): 1-15.
Fávero, L. P.; Belfiore , P. 2024. Manual de Análise de Dados: Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Fernandes, T. 2017. Impacto da terapêutica nutricional individualizada no controlo glicémico de pessoas com Diabetes Mellitus. Acta Portuguesa de Nutrição 9 (1): 18-22.
Flor, L. S.; Campos , M. R. 2017. Prevalência de diabetes mellitus e fatores associados na população adulta brasileira: evidências de um inquérito de base populacional. Rev ista Brasileira de Epidemiol ogia 20(1): 16-29.
Freund , Y.; Schapire , R. E. 1997. A decision -theoretic generalization of on -line learning and an application to boosting. Jornal of Computer and System Sciences 55(1): 119 -139.
Harreiter, J.; Roden, M. 2023. Diabetes mellitus – definition, klassifikation, diagnose, screening und prävention ( update 2023). Wien Klin Wochenschr 135(1): 7 -17.
Instituto Brasileiro de Geografia e Estatística [IBGE]. 2023. Censo demográfico 2022: primeiros resultados de população e domicílios. Disponível em: < https://www. gov. br/planejamento/pt -br/assuntos/noticias/2023/junho/ibge -divulga -os-primeiros -resultados -do-censo -demografico -2022 >. Acesso em: 04 mar. 2025.
Ministério da Saúde. 2024. Vigitel Brasil 2023: vigilância de fatores de risco e proteção para doenças crônicas por inquérito telefônico. Brasília: Ministério da Saúde, 2024. Disponível em: <https://www. gov. br/saude/pt -br/centrais -de-conteudo/publicacoes/svsa/vigitel>. Acesso em: 04 mar. 2025.
Ministério da Saúde. 2025. Diabetes. Disponível em: < https://www. gov. br/saude/pt -br/assuntos/saude -de-a-a-z/d/diabetes >. Acesso em: 08 mar. 2025.
Müller, V. M.; Costa, J. B. de O.; Vasconcelos, J. S. C. de; Santos, G. C. dos; Soares, D. A. 2024. Diabetes tipo 1 e suas principais complicações. Revista Eletrônica Acervo Saúde 24(1) : 1-11.
Nascimento, T. S.; Amaral, T. L. M.; Amaral, C. de A.; Vasconcellos, M. T. L. de; Monteiro, G. T. R. 2023. Prevalência de diabetes mellitus e fatores associados em adultos: inquérito de base populacional. Saúde e Pesquisa 16(2): 1-14.
Ottavio, B . P. 2024. Predição de diabetes na idade adulta a partir de dados do Estudo ERICA. Dissertação de Mestrado em Avaliação de Tecnologias em Saúde. Instituto Nacional de Cardiologia, Rio de Janeiro, RJ, Brasil.
Park, S. H.; G oo, J. M; J o, C. H 2004. Receiver operating characteristic (ROC) Curve: practical review for radiologists. Korean Journal of Radiology 5(1): 11–18.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade