
20 de fevereiro de 2026
Classificação de risco de interrupção de tratamento antirretroviral no Brasil
Tiago Benoliel Rocha; Hugo Bampi
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo deste estudo foi desenvolver e validar um modelo de aprendizado de máquina para a classificação de risco de interrupção da terapia antirretroviral (TARV) entre pessoas vivendo com HIV/aids (PVHA) no Brasil, permitindo a implementação de intervenções preventivas. A pesquisa buscou preencher a lacuna de ferramentas preditivas que dificultam a identificação precoce de indivíduos vulneráveis à descontinuidade do tratamento, um dos maiores desafios para o controle da epidemia. A proposta foi transformar dados administrativos e clínicos, já coletados pelo Sistema Único de Saúde (SUS), em uma ferramenta estratégica para as equipes de saúde.
O Brasil, com mais de um milhão de pessoas vivendo com o vírus, destaca-se pela política de acesso universal e gratuito à TARV, instituída pela Lei Federal 9.313 de 1996 (Brasil, 1996). Essa política permitiu ao país atingir metas como garantir que 95% das pessoas diagnosticadas iniciem o tratamento e que 95% daquelas em tratamento alcancem a supressão viral (Ministério da Saúde, 2025). A terapia antirretroviral transformou a infecção pelo HIV em uma condição crônica manejável, com a maioria dos pacientes mantendo a saúde e a qualidade de vida (Gibas et al., 2022; Madeddu et al., 2021).
Apesar desses sucessos, a interrupção do tratamento é um obstáculo fundamental. Estima-se que mais de 130 mil pessoas no Brasil tenham interrompido a TARV, o que representa 13% de todas as PVHA diagnosticadas (Ministério da Saúde, 2023b). O Ministério da Saúde define a interrupção como um atraso superior a 60 dias na retirada dos medicamentos (Ministério da Saúde, 2021). A descontinuidade acarreta consequências como falha virológica, resistência viral e progressão para a aids, além de aumentar o risco de transmissão do HIV. Após a interrupção, a revinculação do paciente ao serviço de saúde torna-se um processo complexo.
A viabilidade deste estudo baseia-se na infraestrutura de dados de saúde do Brasil. O Sistema de Controle Logístico de Medicamentos (Siclom) registra as dispensações de TARV desde 2000, enquanto o Sistema de Controle de Exames Laboratoriais (Siscel) consolida os resultados de carga viral e contagem de linfócitos T-CD4+ (Brasil, 2007; Ministério da Saúde, 2000). Esses sistemas alimentam plataformas como o Painel Integrado de Monitoramento do Cuidado do HIV (PIMC) e o Sistema de Monitoramento Clínico do HIV (SIMC). Essa riqueza de dados longitudinais, embora utilizada para monitoramento epidemiológico, ainda não havia sido explorada para a criação de modelos preditivos de risco individual.
Este trabalho se propõe a preencher a ausência de um perfil de risco definido e de uma escala de classificação que permita aos serviços de saúde priorizar ações preventivas (De Vito et al., 2023; Matimbwa et al., 2025). A identificação de fatores associados à não adesão é um campo de pesquisa consolidado (S. I. Ikpe et al., 2025), mas a tradução desse conhecimento em uma ferramenta preditiva, automatizada e escalável para o contexto brasileiro é uma inovação. O estudo visa capacitar as equipes de saúde a identificar, de forma antecipada, os indivíduos com maior probabilidade de abandono, possibilitando intervenções eficazes antes que a interrupção ocorra.
A metodologia adotada foi um estudo quantitativo, retrospectivo, baseado na análise de dados secundários públicos, envolvendo etapas de coleta, processamento, modelagem e validação. As análises foram conduzidas em Python (Python Software Foundation, 2025), com o suporte das bibliotecas Pandas (McKinney, 2010), NumPy (Harris et al., 2020), Scikit-learn (Pedregosa et al., 2011), XGBoost (Chen & Guestrin, 2016), SHAP (Lundberg & Lee, 2017), Matplotlib (Hunter, 2007) e Seaborn (Waskom, 2021).
A fonte de dados foi a base PVHAultano, disponibilizada pelo Ministério da Saúde (2025), que consolida a série histórica de dispensações de TARV e exames laboratoriais (carga viral e CD4) para cada PVHA de 2015 a 2024. Este conjunto de dados, com 8,2 milhões de registros e 19 variáveis, inclui informações sociodemográficas, clínicas e de tratamento. A utilização de dados públicos e anonimizados respeitou a Lei de Acesso à Informação (Brasil, 2011). O pré-processamento envolveu a limpeza de dados, como o tratamento de valores ausentes em variáveis como raça/cor e escolaridade, optando-se por criar categorias como “Não informado” para reter a informação da ausência de dados, que pode ser um preditor de vulnerabilidade.
O desenho do estudo segmentou a base de dados em conjuntos anuais. Para cada ano de referência (ex: 2022), foram selecionadas apenas as pessoas em tratamento regular ao final daquele ano. A variável-alvo, Interrupcaoanoseguinte, foi criada para indicar se essa pessoa interrompeu o tratamento no ano subsequente (2023), configurando um problema de classificação binária. Essa abordagem permite que o modelo seja treinado com dados de um período para prever desfechos em um período futuro. Foram excluídos os registros de pessoas que faleceram ou que não haviam iniciado a TARV, garantindo o foco na população sob risco de interrupção.
A modelagem foi realizada com o algoritmo XGBoost (Extreme Gradient Boosting). Para encontrar a configuração ótima do modelo, utilizou-se a técnica de busca em grade com validação cruzada (GridSearchCV), que testa sistematicamente múltiplas combinações de hiperparâmetros. A métrica escolhida para otimização foi a precisão média (Average Precision), adequada para cenários com classes desbalanceadas. A avaliação final do modelo foi realizada em um conjunto de teste separado, utilizando métricas como a Área Sob a Curva ROC (AUC-ROC), F1-score, precisão e sensibilidade.
A análise exploratória dos dados revelou que a proporção de pessoas que interrompem a TARV manteve-se estável de 2015 a 2024, com uma média de 6,43% (desvio padrão de 0,43%), sugerindo que os fatores subjacentes à interrupção são crônicos. A análise de correlação de Pearson não identificou variáveis com forte correlação linear direta com o desfecho, o que justifica a utilização de modelos não lineares como o XGBoost. A análise detectou alta colinearidade entre o tempo desde o diagnóstico e o tempo em TARV, levando à exclusão da primeira para evitar instabilidade no modelo.
O processo de treinamento e avaliação do modelo foi conduzido através de múltiplas estratégias. A abordagem principal consistiu em treinar o modelo com os dados de 2022-2023 e testá-lo na base de 2023-2024. O melhor modelo alcançou uma precisão média de 0,43 e uma AUC-ROC de 0,84. A AUC-ROC demonstra uma excelente capacidade discriminativa do modelo em diferenciar um paciente que irá interromper o tratamento de um que não irá. Para verificar a consistência, o mesmo processo foi repetido para todos os pares de anos consecutivos desde 2015, e os resultados mostraram variação mínima nas métricas de desempenho, confirmando a estabilidade e a generalização do modelo.
Foram exploradas abordagens alternativas. Um modelo treinado com a base de dados histórica acumulada de 2015 a 2023, embora com maior custo computacional, teve desempenho praticamente idêntico no teste de 2023-2024 (precisão média de 0,44 e AUC-ROC de 0,84), validando a escolha do modelo anual, mais ágil. Outra hipótese testada foi a de que o desbalanceamento de classes prejudicaria o desempenho. Um modelo treinado com uma base enriquecida com todos os casos positivos da série histórica resultou em uma queda no desempenho (precisão média de 0,39 e AUC-ROC de 0,82), corroborando estudos que alertam sobre os riscos de distorcer a distribuição natural dos dados (Van Den Goorbergh et al., 2022; Yang et al., 2024).
Após a seleção do modelo anual, uma segunda rodada de otimização de hiperparâmetros, com uma busca mais refinada, resultou em um modelo final com uma precisão média de 0,44 e uma AUC-ROC de 0,84. Embora o ganho de desempenho tenha sido marginal, ele representa o potencial máximo de predição alcançável. A performance do modelo brasileiro se mostra competitiva em comparação com iniciativas internacionais, superando em precisão modelos desenvolvidos na África do Sul (Esra et al., 2023) e com AUC-ROC comparável a estudos na Etiópia (Endebu et al., 2025) e em Uganda (Harris et al., 2018), mesmo operando em um cenário de maior escala.
A análise de interpretabilidade do modelo, com o método SHAP, forneceu insights sobre os principais fatores de risco. As variáveis mais impactantes foram aquelas relacionadas ao histórico de adesão. A variável Atrasosum, que representa o somatório de dias de atraso na retirada de medicamentos no ano, emergiu como o preditor mais forte. Em seguida, o TempoTARV mostrou-se relevante, com o risco sendo maior nos estágios iniciais da terapia. Esses achados estão alinhados com a literatura, que aponta o histórico de falhas na adesão como o principal preditor de futuras interrupções (S. Ikpe et al., 2024). O modelo, portanto, prevê o risco com base em fatores clinicamente coerentes.
A contribuição mais prática deste estudo foi a tradução da probabilidade de risco em uma escala de classificação de risco relativo. Ciente das diferentes capacidades de intervenção dos serviços de saúde, foi proposta uma estratificação em cinco níveis, baseada em faixas de sensibilidade: Risco Muito Elevado, Risco Elevado, Risco Intermediário, Risco Baixo e Risco Muito Baixo. Cada nível foi associado a um risco relativo aproximado em comparação com o risco basal da população (6,4%). Por exemplo, o grupo de “Risco Muito Elevado” apresenta uma probabilidade de interrupção cerca de 10 vezes maior que a média, enquanto o grupo de “Risco Elevado” tem um risco 3,5 vezes maior.
Essa escala de risco estratificada oferece uma ferramenta de gestão. Ao aplicar o modelo à coorte de pacientes em tratamento no final de 2024, foi possível classificar cada indivíduo em uma dessas cinco categorias para 2025. Com essa informação, um gestor de saúde pode visualizar a distribuição de risco e dimensionar suas ações. Uma unidade com recursos limitados poderia focar suas intervenções no grupo de “Risco Muito Elevado”, enquanto uma unidade mais equipada poderia abr
Referências:
Bakhanashvili, M.; Hizi, A. 1992. Fidelity of the RNA-Dependent DNA Synthesis Exhibited by the Reverse Transcriptases of Human Immunodeficiency Virus Types 1 and 2 and of Murine Leukemia Virus: Mispair Extension Frequencies. Biochemistry, 31(39), 9393–9398.
Brasil. 1996. Lei 9.313 de 13 de novembro de 1996. Dispõe sobre a distribuição gratuita de medicamentos aos portadores do HIV e doentes de AIDS. Diário Oficial da União, Brasília, 14 nov. 1996.
Brasil. 2007. Portaria 334 de 08 de junho de 2007 do Ministério da Saúde. Estabelece as normas de credenciamento/habilitação dos laboratórios especializados para contagem de linfócitos T-CD4+/CD8+ e quantificação do RNA do HIV-1, nos estabelecimentos de saúde do Sistema Único de Saúde. Diário Oficial da União, Brasília, 09 junho. 2007.
Brasil. 2011. Lei 12527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5º, no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição Federal; altera a Lei nº 8.112, de 11 de dezembro de 1990; revoga a Lei nº 11.111, de 5 de maio de 2005, e dispositivos da Lei nº 8.159, de 8 de janeiro de 1991; e dá outras providências. Diário Oficial da União, Brasília, 18 nov. 2011.
Chen, T.; Guestrin, C. 2016. XGBoost: A scalable tree boosting system. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13-17-August-2016, 785–794.
Chirnet, A. T. ; Habtewold, E. M. ; Aman, H. ; Wakwoya, E. B. ; Workie, S. G. 2024. Time to viral load suppression and its predictors among people living with HIV on antiretroviral therapy in Gebi Resu zone, Afar Region, Ethiopia, 2023. Frontiers in public health
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































