13 de abril de 2026
Machine learning na predição de diabetes e análise de fatores de risco
Wellington Vilaça Pacheco; Douglas Augusto de Paula
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A diabetes mellitus representa uma das patologias não infecciosas mais prevalentes na contemporaneidade, sendo classificada como a quarta causa de morte em nações desenvolvidas. Estimativas globais indicam que, até o ano de 2025, aproximadamente 438 milhões de indivíduos apresentem algum tipo dessa condição metabólica. A patologia caracteriza-se por alterações que resultam na deficiência da produção de insulina ou na incapacidade do organismo de utilizá-la adequadamente, o que desencadeia quadros de hiperglicemia persistente. Clinicamente, as formas mais comuns manifestam-se como o tipo 1, predominante em jovens e decorrente da destruição das células beta pancreáticas pelo sistema imunológico, e o tipo 2, frequentemente associado a indivíduos com idade superior a 40 anos e quadros de obesidade, nos quais a resistência à insulina é o fator preponderante (Kalil Filho e Granja, 2023). Por ser uma doença crônica com impactos sistêmicos, a adoção de estilos de vida saudáveis torna-se imperativa para a mitigação de riscos (Lottenberg et al., 2010). O aumento do sedentarismo na população global transformou a diabetes em um desafio crítico de saúde pública, elevando consideravelmente as taxas de hospitalização por complicações secundárias, como a insuficiência cardíaca (Oliveira e Milech, 2006; Kalil Filho e Granja, 2023).
A prevenção da doença fundamenta-se em ações primárias e secundárias. As intervenções primárias focam no incentivo à atividade física regular, manutenção do calendário vacinal e cessação do tabagismo. Já as ações secundárias abrangem o diagnóstico precoce, o controle rigoroso do peso corporal e a implementação de dietas balanceadas. Estudos indicam que a combinação dessas práticas possui o potencial de reduzir em até 58% o risco de desenvolvimento da diabetes tipo 2 (Lottenberg et al., 2010). Nesse cenário, a integração de métodos preditivos baseados em inteligência artificial tem ganhado destaque na área da saúde, pois permite a redução de custos operacionais e a melhoria na qualidade do atendimento prestado. A eficácia de algoritmos como árvores de decisão, florestas aleatórias e regressão logística já foi demonstrada em estudos anteriores voltados à previsão de readmissões hospitalares de pacientes diabéticos (Aslam et al., 2021). O aprendizado de máquina, ou machine learning, surge como uma subárea da inteligência artificial dedicada ao desenvolvimento de programas que aprendem padrões a partir da exposição a grandes volumes de dados (Chollet, 2021). A aplicação dessas técnicas visa identificar os fatores de maior influência no surgimento da doença e traçar perfis de risco precisos, considerando o histórico clínico e o estilo de vida dos pacientes.
A fundamentação teórica para a análise preditiva da diabetes envolve diversos modelos estatísticos e computacionais. A regressão logística, por exemplo, é uma técnica de aprendizado supervisionado utilizada quando a variável dependente é qualitativa e binária, como a presença ou ausência de uma enfermidade. O modelo busca estimar a probabilidade de ocorrência de um evento por meio da função logito, que relaciona as variáveis explicativas a um resultado binário (Fávero e Belfiore, 2024). Para lidar com problemas de multicolinearidade ou sobreajuste, aplicam-se técnicas de regularização como a Ridge Regression e a Elastic Net. A Ridge Regression utiliza uma penalização matemática conhecida como L2, que reduz e equilibra os coeficientes para evitar instabilidades nas estimativas (Draper e Smith, 1998; Hastie et al., 2009). A Elastic Net, por sua vez, combina as penalizações L1 e L2, sendo eficaz em cenários com alta correlação entre os preditores, pois permite a seleção de variáveis ao mesmo tempo em que mantém a estabilidade do modelo (Zou e Hastie, 2005).
Outra abordagem relevante é o uso de árvores de decisão, que operam de forma análoga a fluxogramas para classificar dados e prever valores de saída. O processo de divisão dos nós da árvore baseia-se em métricas como o índice Gini, que mensura o nível de heterogeneidade dos dados em relação à classe alvo. O objetivo é realizar divisões que resultem em grupos o mais homogêneos possível (Breiman et al., 1984; Chollet, 2021). A evolução desse conceito leva ao Random Forest, um algoritmo que cria múltiplas árvores de decisão especializadas e agrega seus resultados para obter uma previsão mais robusta e menos suscetível a variações aleatórias (James et al., 2023). Em um nível de complexidade superior, o XGBoost (Extreme Gradient Boosting) destaca-se pela eficiência e portabilidade. Esse algoritmo utiliza uma função de custo regularizada e o princípio do boosting, no qual modelos sequenciais são construídos para corrigir os erros dos modelos anteriores, sendo amplamente aplicado na predição de doenças crônicas com resultados satisfatórios (Wade, 2020; Xie e Xu, 2024). Por fim, as redes neurais artificiais mimetizam o funcionamento do sistema nervoso humano, utilizando neurônios artificiais conectados por pesos que são ajustados durante o treinamento para minimizar os erros de previsão (Aggarwal, 2023).
A metodologia aplicada compreende uma pesquisa de objetivo explicativo e natureza quantitativa, fundamentada no levantamento de dados secundários de fonte internacional pública. A base de dados utilizada provém do Behavioral Risk Factor Surveillance System (BRFSS) do ano de 2015, um sistema de monitoramento telefônico coordenado pelo Centers for Disease Control and Prevention (CDC) nos Estados Unidos. O BRFSS coleta anualmente cerca de 400.000 entrevistas para analisar comportamentos de risco, prevalência de doenças crônicas e o uso de serviços preventivos. Para a presente análise, utilizou-se um recorte da base disponibilizado no Kaggle, previamente estruturado e limpo, contendo 70.693 registros. A amostra foi balanceada para garantir a integridade dos resultados, apresentando uma distribuição equitativa entre as classes de pacientes diabéticos e não diabéticos. O conjunto de dados é composto por 17 variáveis preditoras e uma variável dependente binária, que indica o diagnóstico de diabetes.
As variáveis explicativas selecionadas abrangem aspectos demográficos, clínicos e comportamentais. A idade foi segmentada em 13 categorias, variando de 18 a 24 anos até a faixa de 80 anos ou mais. O gênero foi codificado de forma binária, assim como a presença de colesterol alto, a realização de exames de colesterol nos últimos cinco anos, o hábito de fumar (definido como o consumo de pelo menos 100 cigarros na vida), o histórico de doença cardíaca ou infarto, a prática de atividade física nos últimos 30 dias e o consumo regular de frutas e vegetais. O índice de massa corporal (IMC) foi incluído como uma variável numérica contínua. Outros fatores considerados foram o consumo excessivo de álcool (definido por doses semanais), a autoavaliação da saúde geral em uma escala de um a cinco, os dias de saúde mental ou física debilitada nos últimos 30 dias, a dificuldade de locomoção, o histórico de acidente vascular cerebral (AVC) e a presença de hipertensão arterial.
O processamento dos dados e o desenvolvimento dos modelos foram realizados em linguagem Python, utilizando a plataforma Google Colab. A escolha do Python justifica-se pela sua versatilidade e pelo suporte a bibliotecas especializadas em ciência de dados, como Scikit-learn para algoritmos clássicos e TensorFlow com Keras para a implementação de redes neurais. O fluxo operacional envolveu a divisão da base de dados em dois conjuntos: 70% para o treinamento dos modelos e 30% para o teste e validação. Para as redes neurais, aplicou-se uma etapa adicional de normalização dos dados para garantir a estabilidade do treinamento, visto que esses modelos são sensíveis à escala das variáveis de entrada. A arquitetura da rede neural consistiu em três camadas densas com 128, 64 e 32 neurônios, respectivamente, utilizando a função de ativação ReLU e camadas de Dropout de 30% para mitigar o risco de sobreajuste. A camada de saída utilizou a função sigmoide para fornecer a probabilidade de ocorrência da doença.
A avaliação do desempenho dos modelos baseou-se em métricas de classificação rigorosas. A matriz de confusão permitiu a visualização dos acertos e erros, diferenciando verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos (Skansi, 2018). A precisão foi calculada para determinar a proporção de diagnósticos positivos corretos entre todos os previstos como positivos. O recall, também denominado sensibilidade, foi priorizado por mensurar a capacidade do modelo em identificar todos os casos reais de diabetes, minimizando os falsos negativos, o que é crítico em contextos de saúde (Santos et al., 2024). A acurácia forneceu a taxa geral de acertos, enquanto o f1-score foi utilizado como uma média harmônica entre precisão e sensibilidade, oferecendo uma visão equilibrada do desempenho (Rokach e Maimon, 2014; Hand et al., 2021). Adicionalmente, a curva Receiver Operating Characteristic (ROC) e a Área sob a Curva (AUC) foram empregadas para analisar a capacidade de distinção entre as classes.
Os resultados obtidos revelaram nuances importantes sobre a eficácia de cada algoritmo. O modelo inicial de regressão logística binária apresentou uma sensibilidade de 77,3% e um f1-score de 75,4%, com uma acurácia geral de 74,9%. Ao aplicar a regularização Ridge (L2), observou-se uma estabilização dos coeficientes, resultando em uma sensibilidade de 77,2% e f1-score de 75,4%. A utilização da Elastic Net, que combina as penalidades L1 e L2, não apresentou variações significativas em relação à Ridge, mantendo a sensibilidade em 77,2%. A análise comparativa dos coeficientes entre Elastic Net e Ridge demonstrou diferenças mínimas, sugerindo que nenhuma variável era irrelevante a ponto de ser excluída pela penalização L1, reforçando a importância de todos os preditores selecionados para a construção do modelo.
A implementação da árvore de decisão, configurada inicialmente com uma profundidade máxima de cinco níveis, alcançou uma sensibilidade de 78,5% e f1-score de 74,9%. Com o intuito de otimizar o desempenho, realizou-se um ajuste de hiperparâmetros por meio de busca exaustiva em grade, testando 32 combinações de profundidade, número mínimo de amostras por folha e critérios de impureza. O modelo otimizado elevou a sensibilidade para 78,9%. Em uma etapa posterior, o algoritmo Random Forest foi configurado com 100 árvores e profundidade limitada a sete níveis para evitar o sobreajuste. Essa abordagem resultou em uma sensibilidade de 79,4% e f1-score de 76,0%, demonstrando a superioridade dos métodos de conjunto (ensemble) sobre as árvores individuais.
O algoritmo XGBoost apresentou o desempenho mais elevado entre todos os modelos testados. Em sua configuração inicial, atingiu 79,9% de sensibilidade. Após a aplicação de uma busca aleatória por hiperparâmetros (RandomizedSearchCV), que explorou variações no número de estimadores, profundidade da árvore, taxa de aprendizado e proporção de amostras por árvore, o modelo alcançou uma sensibilidade de 80,1% e um f1-score de 76,5%. A acurácia fixou-se em 75,4% e a AUC atingiu 83,0%, indicando uma excelente capacidade de separação entre pacientes diabéticos e não diabéticos. Esse resultado corrobora a eficácia do gradiente boosting em lidar com dados clínicos complexos e variáveis binárias correlacionadas. As redes neurais artificiais também apresentaram resultados competitivos, com sensibilidade de 80,0% e f1-score de 76,3%, embora tenham exigido um esforço computacional superior para a normalização e ajuste de camadas.
A discussão dos resultados permite identificar os fatores determinantes para o diagnóstico da diabetes na amostra estudada. A análise de importância das variáveis revelou que a pressão alta é o preditor de maior impacto, contribuindo com 50,8% para a decisão do modelo. Esse dado é clinicamente relevante, pois a hipertensão está intrinsecamente ligada à síndrome metabólica e à resistência à insulina. A percepção da saúde geral apareceu como o segundo fator mais importante, com 16,0% de contribuição, sugerindo que a autoavaliação do paciente reflete de forma fidedigna seu estado clínico subjacente. O colesterol alto contribuiu com 7,3%, enquanto a idade e a dificuldade de locomoção apresentaram contribuições de 3,7% e 3,6%, respectivamente. A relevância da dificuldade de locomoção pode estar associada a complicações neuromusculares decorrentes da diabetes ou ao baixo nível de atividade física, que por sua vez eleva o IMC.
A convergência dos achados com estudos nacionais, como os dados do Vigitel 2023, reforça a validade do perfil de risco traçado. Observa-se que o paciente com maior probabilidade de desenvolver diabetes é aquele que apresenta hipertensão arterial, relata uma saúde geral debilitada e possui níveis elevados de colesterol. A idade avançada e o sedentarismo, evidenciado pela dificuldade de caminhar, completam o quadro clínico de risco. A superioridade do XGBoost neste contexto alinha-se a pesquisas recentes que apontam este algoritmo como o estado da arte para predições em saúde pública (Macário, 2025). A capacidade do modelo em atingir uma sensibilidade superior a 80% é fundamental, pois em diagnósticos médicos, o custo social e clínico de um falso negativo é significativamente maior do que o de um falso positivo. Prever que um paciente não possui a doença quando ele a tem pode atrasar o início do tratamento e agravar o quadro clínico.
As limitações do estudo residem na natureza dos dados secundários, que dependem da veracidade dos relatos dos entrevistados no BRFSS. Além disso, a ausência de variáveis laboratoriais mais específicas, como níveis de hemoglobina glicada ou glicemia de jejum, restringe a análise a fatores comportamentais e diagnósticos prévios. No entanto, a robustez estatística proporcionada pelos mais de 70 mil registros e a aplicação de técnicas avançadas de regularização e boosting garantem a confiabilidade das inferências realizadas. A identificação de perfis de risco de forma precoce permite que gestores de saúde direcionem campanhas de prevenção e triagens para os grupos mais vulneráveis, otimizando a alocação de recursos públicos.
A aplicação de técnicas de aprendizado de máquina demonstra ser uma ferramenta poderosa para a medicina preventiva. A capacidade de processar múltiplas variáveis simultaneamente e identificar padrões não lineares supera as abordagens estatísticas tradicionais em termos de precisão preditiva. O estudo evidencia que a integração de dados de estilo de vida com indicadores clínicos básicos pode fornecer um diagnóstico preliminar altamente eficaz. Recomenda-se que pesquisas futuras explorem bases de dados desbalanceadas para testar a robustez dos modelos em cenários de baixa prevalência, além de incluir variáveis clínicas mais detalhadas para aprimorar a métrica AUC e a especificidade dos modelos.
Conclui-se que o objetivo foi atingido, uma vez que o desenvolvimento e a comparação dos modelos de machine learning permitiram identificar o XGBoost como o algoritmo de maior eficácia para a predição da diabetes mellitus, alcançando uma sensibilidade de 80,1% e um f1-score de 76,5%. A pesquisa demonstrou que fatores como hipertensão arterial, percepção de saúde geral e colesterol alto são os principais determinantes para o diagnóstico da doença na amostra analisada. A utilização dessas ferramentas computacionais revela-se essencial para a detecção precoce e para o suporte à tomada de decisão clínica, possibilitando intervenções preventivas mais assertivas e contribuindo para a redução dos impactos da diabetes na saúde pública.
Referências Bibliográficas:
Aslam, N.; Khan, I.U.; Alkhalifah, S.; Al-Sadiq, S.A.; Bughararah, S.W.; Al-Otabi, M.A.; Al-Odinie, Z.M. 2021. Predicting diabetic patient hospital readmission using optimized random forest and firefly evolutionary algorithm. International Journal on Advanced Science, Engineering and Information Technology 11(5): 1-8.
Breiman, L.; Friedman, J.; Olshen, R.; Stone, C. 1984. Classification and regression trees. Chapman & Hall/CRC, New York, NY, USA.
Chollet, F. 2021. Deep learning with Python. 2ed. Manning, Shelter Island, NY, USA.
Draper, N.R.; Smith, H. 2001. Applied regression analysis. 3ed. Wiley, New York, NY, USA.
Fávero, L.P.; Belfiore, P. 2021. Manual de análise de dados – Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, New York, NY, USA.
Kalil Filho, R.; Granja, L.A.R. 2023. Diabetes e doença cardiovascular. 1ed. Atheneu, Rio de Janeiro, RJ, Brasil.
Lottenberg, S.A.; Lottenberg, A.M.P.; Glezer, A.; Turatti, L.A.; Buonacorso, V.; Mesquita, E.M.; Oyama, R.H. (Eds.). 2010. Manual de diabetes mellitus: Liga de controle de diabetes mellitus do Hospital das Clínicas da Faculdade de Medicina – USP. Hospital das Clínicas da Faculdade de Medicina da USP, São Paulo, SP, Brasil.
Oliveira, J.E.P.; Milech, A. 2006. Diabetes mellitus: clínica, diagnóstico, tratamento multidisciplinar. Atheneu, São Paulo, SP, Brasil.
Zou, H.; Hastie, T. 2005. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67(2): 301–320.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























