Como a ciência de dados está (re)programando a saúde

Inovação

27 de janeiro de 2026

Como a ciência de dados está (re)programando a saúde

Tecnologia transforma diagnóstico, prevenção e gestão em sistemas de saúde pública e privada

A integração entre ciência de dados e saúde não é apenas uma tendência tecnológica, mas um dos movimentos mais promissores e complexos da transformação digital contemporânea. À medida que os sistemas de saúde enfrentam desafios como o envelhecimento populacional, o aumento das doenças crônicas e a sobrecarga orçamentária, cresce a necessidade de soluções baseadas em dados para melhorar a eficiência, a precisão diagnóstica e a personalização do cuidado.

A abundância de dados clínicos, genômicos, ambientais e comportamentais exige abordagens capazes de lidar com grande volume de informações, variedade e velocidade — o que transforma técnicas de machine learning, redes neurais, mineração de texto e análise preditiva em ferramentas estratégicas. Mais do que automatizar rotinas, trata-se de redesenhar a forma como o conhecimento médico é produzido, as decisões clínicas são tomadas e as políticas públicas são formuladas.

Grandes revistas científicas como “The Lancet Digital Health”, “Nature Medicine” e “JAMA” vêm apontando, com frequência, que a adoção responsável da ciência de dados pode gerar impactos concretos na redução de desigualdades, na antecipação de surtos e na otimização de tratamentos — desde que acompanhada de critérios éticos, transparência algorítmica e validação rigorosa.

Diagnóstico e previsão

As ferramentas de ciência de dados têm ampliado significativamente a capacidade de detectar padrões precoces em exames médicos, possibilitando diagnósticos mais rápidos e assertivos. Modelos de aprendizado profundo, por exemplo, já superam especialistas humanos em tarefas como interpretação de imagens de retina para detecção de retinopatia diabética ou análise de tomografias para identificação de nódulos pulmonares. O poder dessas técnicas está na habilidade de correlacionar milhares de variáveis em segundos, revelando sinais sutis que passariam despercebidos em métodos tradicionais. Com isso, cria-se um novo paradigma, em que a decisão médica passa a ser assistida por sistemas inteligentes, capazes de combinar precisão estatística com sensibilidade clínica.

Um dos exemplos mais emblemáticos desse potencial vem da pesquisa publicada na “Nature” (McKinney et al., 2020), na qual um sistema de inteligência artificial desenvolvido pelo Google Health foi treinado com milhões de mamografias para identificar câncer de mama. O modelo obteve desempenho superior ao de radiologistas em diversos parâmetros, reduzindo tanto os falsos negativos quanto os falsos positivos. A proposta não é substituir o profissional humano, mas fornecer uma segunda opinião algoritmicamente, com impacto direto na sobrevida de pacientes e na alocação de recursos.

Saúde pública e epidemiologia

Na esfera coletiva, a ciência de dados tem revolucionado a vigilância epidemiológica, permitindo identificar surtos, prever demandas hospitalares e orientar estratégias preventivas. O uso de modelos preditivos alimentados por dados em tempo real — como registros hospitalares, buscas on-line e dados meteorológicos — vem permitindo antecipar comportamentos de epidemias com semanas de antecedência. Além disso, a integração de dados sociodemográficos, de mobilidade e de redes sociais permite entender como fatores estruturais afetam a propagação de doenças, fortalecendo políticas públicas mais direcionadas.

Durante a pandemia da Covid-19, Cheng (2020) e colaboradores publicaram artigo apresentando o desenvolvimento e a validação de um modelo de machine learning baseado em random forest para prever a transferência de pacientes hospitalizados com Covid-19 para unidades de terapia intensiva no intervalo de até 24 horas, utilizando dados rotineiros de prontuário eletrônico, como sinais vitais, exames laboratoriais, avaliações de enfermagem e eletrocardiogramas.

A partir de um coorte retrospectivo de 1.987 pacientes internados em unidades não intensivas de um grande sistema hospitalar de Nova York, entre fevereiro e abril de 2020, os autores estruturaram séries temporais diárias e aplicaram técnicas de balanceamento de classes e validação cruzada para lidar com a baixa taxa de eventos e a heterogeneidade dos dados clínicos. O modelo alcançou desempenho consistente como ferramenta de triagem, com sensibilidade de aproximadamente 73%, especificidade de 76% e AUC em torno de 0,80 no conjunto de teste, destacando-se como preditores mais relevantes a frequência respiratória, contagem de leucócitos, saturação de oxigênio, marcadores inflamatórios, parâmetros hemodinâmicos e indicadores de função renal (Cheng, 2020).

Os resultados sugerem que abordagens preditivas baseadas em machine learning podem apoiar a priorização clínica e o planejamento operacional hospitalar em contextos de crise sanitária, ao permitir a identificação precoce de pacientes com maior risco de deterioração, embora os autores ressaltem limitações relacionadas ao baixo valor preditivo positivo, ao uso de dados de um único centro e à necessidade de refinamento do modelo para ampliar precisão e generalização (Cheng, 2020).

Medicina personalizada

Outra fronteira promissora é a chamada medicina personalizada, que utiliza ciência de dados para integrar informações genéticas, clínicas e ambientais a fim de oferecer tratamentos sob medida. Ao invés de terapias padronizadas, os algoritmos identificam quais grupos de pacientes respondem melhor a determinados medicamentos, quais mutações genéticas estão ligadas à progressão da doença e quais interações medicamentosas devem ser evitadas. Com isso, a prática médica se torna mais precisa, reduzindo desperdícios e aumentando as chances de sucesso terapêutico.

Um estudo publicado na “Cell” (Khera et al., 2018) exemplifica esse potencial ao propor um escore poligênico — calculado a partir de milhões de variantes genéticas — capaz de estimar o risco de ter um infarto do miocárdio ou desenvolver doenças como diabetes tipo 2 e câncer de próstata.

O artigo demonstra que scores poligênicos genômicos de larga escala podem identificar indivíduos com risco elevado para doenças comuns em níveis comparáveis aos conferidos por mutações monogênicas raras, superando uma limitação histórica da genética clínica. Utilizando dados de grandes estudos de associação genômica ampla e validação em mais de 400 mil participantes do UK Biobank, os autores desenvolveram e testaram polygenic risk scores para cinco doenças de grande impacto em saúde pública: doença arterial coronariana, fibrilação atrial, diabetes tipo 2, doença inflamatória intestinal e câncer de mama (Khera et al., 2018).

Os resultados mostram que uma fração substancial da população — por exemplo, cerca de 8% no caso da doença arterial coronariana — apresenta risco três vezes maior ou mais, proporção muito superior à de portadores de mutações monogênicas clássicas associadas ao mesmo nível de risco. Os autores evidenciam que o risco aumenta de forma acentuada na cauda superior da distribuição dos escores e que esses preditores têm desempenho discriminatório consistente, com AUCs variando aproximadamente entre 0,63 e 0,81, dependendo da doença. O estudo argumenta que a estratificação poligênica pode viabilizar estratégias mais precisas de prevenção, rastreamento e alocação de recursos em saúde, ao mesmo tempo em que destaca desafios, como comunicação de risco, integração com fatores clínicos e ambientais e a limitação atual de aplicabilidade em populações não europeias (Khera et al., 2018).

Essa convergência entre ciência de dados e saúde não representa apenas uma inovação tecnológica, mas uma mudança paradigmática na forma como se compreende, administra e promove o cuidado em saúde. Ao transformar dados brutos em conhecimento, os sistemas inteligentes permitem antecipar agravos, personalizar terapias e otimizar recursos em níveis até então inalcançáveis por abordagens tradicionais.

Contudo, o entusiasmo diante dessas inovações deve vir acompanhado de uma postura crítica e ética, especialmente diante de riscos como viés algorítmico, exclusão digital, opacidade nos critérios decisórios e uso inadequado de informações sensíveis. A validação científica rigorosa, o controle social, a governança de dados e o desenvolvimento de marcos regulatórios são condições indispensáveis para que os benefícios da ciência de dados se convertam em ganhos reais para a coletividade.

A saúde, enquanto direito social e campo de alta complexidade, demanda que cada avanço tecnológico seja acompanhado de responsabilidade, transparência e compromisso com o bem comum. Assim, mais do que algoritmos sofisticados, é a inteligência humana — coletiva, empática e ética — que deve guiar o uso dessas ferramentas rumo a um sistema de saúde mais justo, eficiente e centrado nas pessoas.

Para ter acesso às referências desse texto clique aqui

Quem publicou esta coluna

Renato Máximo Sátiro

Doutor em Administração pela UFG, professor e orientador no curso de Data Science, Inteligência Artificial e Analytics, do MBA USP/Esalq. Administrador de Empresas na Saneago e pesquisador em grupos de pesquisa da UFG e da UnB, com foco em IA, políticas públicas e acesso à Justiça. Desenvolve projetos em machine learning, deep learning, modelos estatísticos, algoritmos e ética na IA, domínio de ferramentas R, Python, Gretl, SPSS e Stata.

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade