
20 de fevereiro de 2026
Avaliação da qualidade informacional de redes neurais generativas sobre malária
Marcus Vinicius Freire Junior; Andréia Aparecida Silva Moreira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada á sinstese e redação.
A malária é uma grande ameaça à saúde global, com impacto desproporcional em regiões tropicais e subtropicais. Causada por parasitas do gênero Plasmodium e transmitida por mosquitos fêmeas do gênero Anopheles, a doença afeta milhões anualmente. A OMS estima mais de 240 milhões de casos e 600 mil óbitos por ano, com alta prevalência em crianças menores de cinco anos na África Subsaariana (Savi, 2022). A persistência da malária como problema de saúde pública decorre de desafios como diagnóstico tardio, resistência a medicamentos e inseticidas, e carência de sistemas de dados robustos para orientar intervenções de controle e prevenção (Poespoprodjo et al., 2023). A complexidade do ciclo de vida do parasita e dos fatores socioambientais que influenciam sua transmissão torna a comunicação sobre o tema particularmente desafiadora, exigindo clareza e precisão.
O avanço da inteligência artificial, em particular das RNGs, é uma ferramenta potente para a análise de grandes volumes de dados em saúde. Essas redes podem processar e sintetizar informações complexas de fontes clínicas, epidemiológicas e ambientais, permitindo a detecção antecipada de surtos, a previsão de padrões de transmissão e a identificação de áreas de alto risco (Maturana et al., 2022). A aplicação dessas tecnologias pode aprimorar a triagem de casos, otimizar a alocação de recursos e subsidiar o desenvolvimento de políticas públicas baseadas em evidências para o controle da malária (Theodosiou et al., 2023). Além da análise de dados, seu papel como interface de comunicação direta com o público abre novas fronteiras para a educação em saúde, mas também impõe a responsabilidade de garantir que essa comunicação seja fidedigna. A implementação de RNGs no combate à malária exige uma abordagem crítica.
Barreiras incluem a necessidade de personalização para contextos locais, a garantia de equidade no acesso e limitações de infraestrutura. A eficácia dos modelos depende da qualidade, representatividade e atualização dos dados de treinamento, exigindo integridade informacional, privacidade e validação clínica e epidemiológica rigorosa dos resultados (Attal et al., 2024). A adoção responsável pode viabilizar abordagens preditivas que considerem variáveis como clima e mobilidade populacional, contribuindo para reduzir desigualdades no acesso ao diagnóstico e ao cuidado. A auditoria contínua do desempenho desses modelos é, portanto, um componente essencial para mitigar riscos como a perpetuação de vieses ou a geração de recomendações inadequadas. Este estudo realiza uma avaliação focada na precisão informacional das respostas de IAs generativas sobre malária, usando documentos da OMS como padrão-ouro.
A análise concentra-se na comparação de métricas de legibilidade e similaridade textual para aferir a consistência das respostas ao padrão institucional. A pesquisa não visa validar a correção médica das informações, mas fornecer um método sistemático para auditar a qualidade da comunicação gerada por essas tecnologias, passo essencial para seu uso seguro na saúde pública. O framework proposto pode ser adaptado para avaliar outros temas de saúde, contribuindo para o desenvolvimento de práticas de IA mais responsáveis e alinhadas às necessidades da sociedade. O estudo é uma análise quantitativa e comparativa, na qual as respostas de dez plataformas de IA foram confrontadas com as informações da seção “Fact Sheets” da OMS sobre malária. As plataformas selecionadas foram: Deep Seek, ChatGPT 4.0, ChatGPT Vision, ScholarGPT, Gemini, Llama3, Bing AI (Copilot), Perplexity, Claude e ReKa Core.
A escolha foi motivada pela popularidade e acessibilidade, representando um espectro variado das RNGs disponíveis, desde modelos de uso geral até aqueles com foco acadêmico. A metodologia simulou um cenário de uso realista; um usuário leigo ou um profissional de saúde não especializado busca informações de saúde em chatbots de uso corrente, um comportamento cada vez mais comum na era digital.
Para a coleta de dados, foi elaborado um conjunto de doze perguntas extraídas diretamente do guia da OMS, cobrindo quatro tópicos centrais: “Definição e Visão Geral”, “Prevenção e Tratamento”, “Fatores de Risco e Transmissão” e “Vulnerabilidade e Desigualdade”. Esta abordagem garantiu que as perguntas fossem relevantes e alinhadas com o conteúdo de referência.
Para evitar vieses de formulação, os pesquisadores não utilizaram qualquer ferramenta de IA na elaboração ou refino das perguntas. Cada pergunta foi submetida em uma nova sessão de chat para evitar o viés de memória contextual entre as interações. As interações foram conduzidas em inglês, a língua predominante nos dados de treinamento dos modelos, com posterior tradução automatizada e revisão manual para o português para análise.
A análise das respostas usou métricas textuais e estatísticas implementadas em Python. A legibilidade foi avaliada pelo índice Flesch Reading Ease (facilidade de leitura) e Flesch-Kincaid Grade Level (anos de escolaridade necessários para compreensão) (Kincaid et al., 1975). Essas métricas são padrões na avaliação de materiais de saúde pública, pois quantificam a complexidade sintática e lexical, fatores determinantes para a acessibilidade da informação. A similaridade textual e semântica foi medida por um conjunto complementar de três métricas: Similaridade do Cosseno, que mede a proximidade temática e conceitual entre os vetores de texto (Huang, 2020); Distância de Levenshtein, que quantifica a diferença literal entre sequências de caracteres, sendo sensível a pequenas alterações em terminologias-chave (Levenshtein, 1966); e Coeficiente de Jaccard, que analisa a sobreposição de vocabulário único entre os textos, indicando o grau de compartilhamento terminológico (Chowdhury et al., 2020).
A escolha combinada dessas métricas de similaridade foi deliberada para capturar diferentes dimensões da fidelidade informacional. Enquanto a Similaridade do Cosseno avalia se a IA discute os mesmos conceitos que a OMS, a Distância de Levenshtein verifica se ela o faz usando uma formulação textual parecida, o que é crucial para preservar nuances e evitar ambiguidades. O Coeficiente de Jaccard, por sua vez, foca na consistência do léxico, um aspecto importante para a padronização da comunicação em saúde. Juntas, essas métricas fornecem uma visão multifacetada do alinhamento de cada resposta com o texto de referência, indo além de uma simples comparação de palavras-chave.
Para a análise estatística, os dados brutos das métricas foram padronizados via Z-score para permitir a comparação em uma escala comum. Em seguida, aplicou-se a técnica de clusterização K-means para agrupar as IAs com base em seus perfis de desempenho, identificando grupos de modelos com comportamentos similares. O número ótimo de clusters foi determinado objetivamente pelos métodos do Cotovelo e da Silhueta, que avaliam, respectivamente, a variância intra-cluster e o equilíbrio dos grupos formados (Rousseeuw, 1987; Wani, 2024). A significância estatística da segmentação foi validada por meio de testes de Análise de Variância (ANOVA) para as variáveis contínuas e testes de Qui-quadrado para as categóricas. Por fim, uma Análise de Correspondência Múltipla (MCA) foi utilizada para explorar visualmente as associações entre os clusters, os modelos de IA e os tópicos das perguntas, permitindo identificar padrões de comportamento e especializações temáticas (Greenacre, 2017).
Os resultados da análise de legibilidade revelaram uma lacuna significativa entre as respostas das IAs e o padrão de comunicação da OMS. No índice Flesch Reading Ease; pontuações mais altas indicam maior facilidade de leitura, os modelos de melhor desempenho, ScholarGPT e ChatGPT Vision (médias de 21-22), ainda ficaram consideravelmente abaixo do nível de acessibilidade do texto da OMS (29,23). Modelos como Claude e Perplexity apresentaram textos ainda mais densos e complexos (médias inferiores a 14). Estes achados são preocupantes, pois a complexidade linguística pode criar barreiras à literacia em saúde, excluindo populações com menor nível de escolaridade do acesso a informações vitais e contrariando as melhores práticas de comunicação em saúde pública (Benjamin, 2022; Patel, Satpathy e Mishra, 2021). Na avaliação da similaridade, o desempenho foi heterogêneo, revelando diferenças marcantes na capacidade dos modelos de se alinharem ao conteúdo de referência.
ScholarGPT e ChatGPT 4.0 registraram a maior similaridade semântica (Cosine Similarity de 0,30) e a menor distância de edição (Levenshtein Distance de 104-108), sugerindo um maior alinhamento tanto temático quanto literal com os textos da OMS. Em contrapartida, Claude e Perplexity exibiram a maior divergência em ambas as métricas, indicando que suas respostas se afastaram mais substancialmente do padrão. Um achado notável foi o baixo desempenho geral no Coeficiente de Jaccard (médias inferiores a 0,25 para todos os modelos), o que indica que mesmo os modelos mais alinhados semanticamente utilizam um vocabulário significativamente diferente do padrão institucional. Essa divergência lexical, embora possa enriquecer a explicação, também pode comprometer a padronização da comunicação em saúde e introduzir terminologias não sancionadas por órgãos de saúde (Singhal et al., 2022; Navarro, 2021).
A consolidação das diversas métricas em um ranking geral, realizado após a normalização min-max dos scores, destacou um grupo de liderança claro. O ScholarGPT obteve o maior score geral (0,911), seguido de perto pelo ChatGPT 4.0 (0,854) e GPT Vision (0,783). Estes modelos demonstraram um equilíbrio superior entre legibilidade, fidelidade textual e concisão, aproximando-se mais do perfil desejado para uma ferramenta de informação em saúde. Em contraste, Claude (0,311) e Perplexity (0,301) ficaram nas últimas posições, refletindo seu desempenho inferior nas métricas de similaridade e legibilidade.
A análise por tópico revelou que o desempenho das IAs não é homogêneo, mas sim dependente do contexto da pergunta. Esta granularidade é crucial, pois mostra que uma avaliação geral pode mascarar forças e fraquezas específicas. Modelos como a família ChatGPT mostraram-se particularmente robustos em tópicos que exigem a síntese de definições e recomendações práticas, como “Definition & Overview” e “Prevention & Treatment”. O DeepSeek, por sua vez, apresentou um desempenho superior em descrições mais técnicas sobre “Risk Factors & Transmission”. Notavelmente, o ChatGPT 4.0 destacou-se no tópico “Vulnerability & Inequity”, demonstrando uma maior capacidade para lidar com as nuances sociais e econômicas da malária, um tema complexo e multifacetado. Este resultado sugere que a escolha de um modelo de IA pode ser otimizada dependendo da tarefa específica, e que sistemas híbridos poderiam, no futuro, alavancar as especializações de diferentes modelos.
A clusterização K-means segmentou as IAs em três grupos com perfis de desempenho distintos e estatisticamente significativos (ANOVA, p < 0,001), confirmando a existência de padrões de comportamento consistentes. O Cluster 2 agrupou os modelos de alta performance (ScholarGPT, ChatGPTs), caracterizados por respostas consistentemente alinhadas ao padrão da OMS, com alta similaridade e boa legibilidade relativa. O Cluster 1 representou um grupo de desempenho intermediário e estável, com modelos como Gemini e Llama3. Finalmente, o Cluster 0 reuniu os modelos com desempenho mais baixo e inconsistente, como Claude e Perplexity. A validação estatística, seguindo as diretrizes de Montgomery (2017) e Field (2013), confirmou que os agrupamentos não são aleatórios, mas refletem padrões reais de comportamento das IAs frente aos desafios informacionais propostos.
A Análise de Correspondência Múltipla (MCA) aprofundou a compreensão das relações entre os clusters de desempenho e os tópicos das perguntas. O teste Qui-quadrado revelou uma associação estatisticamente significativa entre os clusters e os tópicos (p < 0,05), indicando que certos grupos de IAs tendem a performar melhor ou pior em tipos específicos de questões. Em contraste, o Cluster 0 (baixa performance) mostrou uma maior dispersão no mapa, sem uma associação clara com nenhum tópico específico, o que reforça a percepção de um desempenho mais errático e menos previsível. Este estudo demonstrou que, embora as redes neurais generativas sejam ferramentas promissoras, seu desempenho na comunicação de informações sobre malária é variável e frequentemente desalinhado com os padrões de acessibilidade e precisão da OMS.
A análise quantitativa revelou lacunas importantes na legibilidade e na fidelidade lexical, mesmo entre os modelos mais avançados. A segmentação por clusters e a análise por tópicos evidenciaram que o desempenho não é uniforme, sugerindo a necessidade de avaliações granulares para a seleção de ferramentas de IA em contextos de saúde. O framework metodológico proposto provou ser eficaz para auditar e comparar a qualidade informacional das respostas geradas.
Conclui-se que o objetivo foi atingido, pois o estudo conseguiu quantificar a aderência das IAs ao padrão institucional e identificar os modelos com maior potencial para uso seguro.
Pesquisas futuras devem expandir essa análise para outros idiomas e condições de saúde, além de explorar métodos para aprimorar o alinhamento dos modelos com fontes de autoridade.
Referências:
ABDI, H.; WILLIAMS, L. J. Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, v. 2, n. 4, p. 433–459, 2010.
AGRESTI, A. An introduction to categorical data analysis. 3. ed. Hoboken: Wiley, 2019.
ATTA L, A. et al. Artificial intelligence in malaria research: a systematic review. Malaria Journal, v. 23, n. 1, p. 1-15, 2024.
BENJAMIN, R. The readability of online health information: a meta-analysis. Journal of Health Communication, v. 27, n. 2, p. 85–94, 2022.
CHOWDHURY, G. G. et al. Text retrieval and overlap measures: applications of the Jaccard coefficient. Information Research, v. 25, n. 4, 2020.
DANCEY, C. P.; REIDY, J. Estatística sem matemática para psicologia. 7. ed. Porto Alegre: Penso, 2017.
FÁVERO, L. P.; BELFIORE, P. Análise de dados: estatística multivariada para tomada de decisões. Rio de Janeiro: Elsevier, 2020.
FIELD, A. Discovering statistics using IBM SPSS statistics. 5. ed. London: Sage, 2013.
GREENACRE, M. Correspondence analysis in practice. 3. ed. Boca Raton: CRC Press, 2017.
GREENACRE, M.; BLASIUS, J. Multiple correspondence analysis and related methods. Boca Raton: CRC Press, 2019.
HUANG, Z. The effectiveness of cosine similarity in medical text analysis. Journal of Biomedical Informatics, v. 108, p. 103495, 2020.
KINCAID, J. P. et al. Derivation of new readability formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel. Research Branch Report. Naval Technical Training Command, 1975.
LEVENSHTEIN, V. I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, v. 10, p. 707–710, 1966.
MATURANA, J. et al. The role of artificial intelligence in public health: a systematic review. The Lancet Digital Health, v. 4, n. 11, p. e820-e830, 2022.
MCHUGH, M. L. The chi-square test of independence. Biochemia Medica, v. 23, n. 2, p. 143–149, 2013.
MONTGOMERY, D. C. Design and analysis of experiments. 9. ed. Hoboken: Wiley, 2017.
NAVARRO, G. A guided tour to approximate string matching. ACM Computing Surveys, v. 33, n. 1, p. 31–88, 2021.
PATEL, S.; SATPATHY, S.; MISHRA, S. Readability of public health materials: a systematic review. Health Education Journal, v. 80, n. 1, p. 25–37, 2021.
POESPOPRODJO, J. R. et al. Challenges in malaria control and elimination in the Asia-Pacific region. The Lancet Global Health, v. 11, n. 3, p. e471-e480, 2023.
ROUSSEEUW, P. J. Silhouettes
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































