Resumo Executivo

23 de fevereiro de 2026

Modelo preditivo para endometriose com dados da Pesquisa Nacional de Saúde

Mateus de Sousa Oliveira; Ana Julia Righetto

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa foi desenvolver e avaliar um modelo de aprendizado de máquina para classificar e prever casos de endometriose, utilizando os microdados das edições de 2013 e 2019 da Pesquisa Nacional de Saúde (PNS). A investigação buscou construir uma ferramenta preditiva com alta sensibilidade e identificar os principais fatores demográficos, socioeconômicos e de saúde associados ao diagnóstico autorreferido da condição no Brasil, visando fornecer subsídios para estratégias de triagem em saúde pública. A abordagem focou em superar o desafio do severo desbalanceamento de classes, característico de estudos sobre doenças subdiagnosticadas, por meio de técnicas de modelagem e ajuste de limiar de decisão para maximizar a identificação de casos positivos.

A endometriose é uma condição inflamatória crônica que afeta aproximadamente 10% das mulheres em idade reprodutiva, o que equivale a cerca de 190 milhões de pessoas globalmente (World Health Organization, 2023; Zondervan et al., 2018). Caracterizada pela presença de tecido semelhante ao endométrio fora do útero, a doença manifesta-se por sintomas debilitantes como dor pélvica crônica, dismenorreia severa e infertilidade, impactando a qualidade de vida, a saúde mental e a produtividade (Zondervan, Becker & Missmer, 2020). Em populações que buscam tratamento para infertilidade, a prevalência da endometriose pode chegar a 50% (Becker et al., 2022).

Apesar da alta prevalência, o diagnóstico da endometriose é complexo e tardio. A heterogeneidade dos sintomas, a ausência de um biomarcador não invasivo e a dependência histórica de cirurgia para confirmação contribuem para um atraso diagnóstico de seis a dez anos (De Corte et al., 2024; Armour et al., 2019). Embora diretrizes recentes valorizem a avaliação clínica e exames de imagem como ultrassonografia transvaginal e ressonância magnética, a jornada diagnóstica permanece longa e custosa (Becker et al., 2022).

No Brasil, o Ministério da Saúde possui protocolos para a endometriose, mas persistem lacunas sobre sua distribuição populacional e fatores de risco (Brasil, 2016; Podgaec, 2019). Inquéritos de saúde de base populacional como a Pesquisa Nacional de Saúde (PNS) são fontes de dados estratégicas. Com sua representatividade nacional, a PNS permite investigar condições crônicas e seus correlatos em larga escala, utilizando informações autorreferidas para construir modelos de risco e identificar padrões epidemiológicos (Souza-Júnior et al., 2015; Stopa et al., 2020).

A aplicação de aprendizado de máquina a grandes conjuntos de dados de saúde é uma fronteira promissora. Modelos preditivos podem atuar como ferramentas de triagem, identificando indivíduos com maior probabilidade de ter uma condição com base em características coletáveis. Para a endometriose, um modelo que sinalize mulheres de alto risco a partir de um questionário de saúde poderia otimizar o uso de recursos diagnósticos, priorizar encaminhamentos e reduzir o tempo até o diagnóstico. Este estudo explora o potencial dos dados da PNS para criar um classificador robusto, com foco na maximização da detecção de casos verdadeiros, requisito essencial para uma ferramenta de triagem.

A metodologia utilizou os microdados da Pesquisa Nacional de Saúde (PNS) de 2013 e 2019, conduzida pelo IBGE em parceria com o Ministério da Saúde. As bases de dados, dicionários e documentação técnica foram obtidos dos repositórios oficiais do IBGE (IBGE, 2013; IBGE, 2020; IBGE, 2022a; IBGE, 2022b). A PNS emprega um desenho de amostragem complexo por conglomerados em três estágios, garantindo representatividade nacional. Para as análises descritivas, foram aplicados os pesos amostrais e o desenho complexo da amostra para gerar estimativas populacionais acuradas (Stopa et al., 2020).

O processo de preparação dos dados incluiu a unificação e harmonização das bases de 2013 e 2019. A população-alvo foi definida como mulheres em idade reprodutiva. A variável-alvo, indicativa da presença de endometriose, foi construída de forma binária a partir do diagnóstico médico autorreferido em mulheres que relataram ter sido submetidas a histerectomia devido à condição. As variáveis explicativas abrangeram dados demográficos (idade, cor/raça, região), socioeconômicos (escolaridade, ocupação) e de saúde (outras doenças crônicas, dor crônica de coluna, uso de serviços de saúde, tabagismo, consumo de álcool e histórico de procedimentos ginecológicos).

No pré-processamento, dados ausentes foram tratados por imputação simples (mediana para numéricos, moda para categóricos). Variáveis categóricas foram transformadas por codificação one-hot-encoding (estratégia k-1 para evitar multicolinearidade) (James et al., 2013). As variáveis numéricas foram padronizadas (subtração da média e divisão pelo desvio padrão) para que não influenciassem desproporcionalmente o modelo (Hastie, Tibshirani & Friedman, 2009). Dado o forte desbalanceamento de classes, foram exploradas três estratégias: aplicação de pesos de classe inversamente proporcionais à sua frequência, reamostragem sintética da classe minoritária com SMOTE (Synthetic Minority Over-sampling Technique) (Chawla et al., 2002), e ajuste do limiar de decisão do classificador para priorizar a sensibilidade.

Para a modelagem, foi utilizada a regressão logística devido à sua robustez, desempenho em classificação binária e alta interpretabilidade dos coeficientes (Hosmer, Lemeshow & Sturdivant, 2013). O fluxo de trabalho foi implementado em Python com as bibliotecas scikit-learn para modelagem (Pedregosa et al., 2011) e imbalanced-learn para técnicas de balanceamento (Lemaître, Nogueira & Aridas, 2017). A avaliação do desempenho do modelo foi realizada com as métricas de sensibilidade (recall), precisão, F1-score, área sob a curva ROC (AUC-ROC) e área sob a curva Precision-Recall (PR-AUC). A curva PR-AUC é particularmente informativa em cenários de grande desequilíbrio de classes (Davis & Goadrich, 2006; Saito & Rehmsmeier, 2015). A matriz de confusão foi analisada para visualizar a contagem de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos (Powers, 2011).

A análise exploratória revelou uma prevalência de endometriose na amostra combinada inferior a 0,4%, caracterizando um desbalanceamento de classes extremo. A amostra final, após filtros, consistiu em 76.065 mulheres, com 294 casos positivos. O conjunto de dados foi dividido em treino (60.852 registros, 235 casos positivos) e validação (15.213 registros, 59 casos positivos). A análise descritiva ponderada indicou que mulheres com histórico de histerectomia, laqueadura, dor pélvica ou dor crônica na coluna apresentavam taxas mais elevadas de diagnóstico. A faixa etária com maior concentração de casos foi entre 30 e 45 anos, em conformidade com a epidemiologia da doença (Giudice, 2010).

A análise de importância das variáveis, derivada dos coeficientes da regressão logística, revelou os fatores mais influentes na predição. As variáveis mais relevantes incluíram a resposta sobre a menopausa (R028), a idade (C008), e diagnósticos de problemas de coluna (Q084), depressão (Q092) e doenças pulmonares (Q11604). A variável sobre menopausa (R028) apresentou o maior coeficiente em valor absoluto e negativo (-5,1631), indicando que estar na menopausa reduz drasticamente a chance de ser classificada como um caso, o que é clinicamente esperado. A idade (C008) mostrou um coeficiente positivo (1, 7413), sugerindo que o risco aumenta com a idade dentro do período reprodutivo. A presença de dor crônica na coluna (Q084) também foi um preditor importante com coeficiente positivo (0, 1909), reforçando a associação entre endometriose e síndromes de dor crônica (Malta et al., 2022). A análise destacou a relevância de variáveis que capturam o estado hormonal, a idade e a presença de dor crônica como proxies clinicamente plausíveis para o risco de endometriose.

O desempenho do modelo foi avaliado com foco na sua capacidade de identificar corretamente os casos positivos. Após ajustar o limiar de decisão para 0,010, o modelo alcançou uma sensibilidade (recall) de 100% no conjunto de validação. Isso significa que todos os 59 casos reais de endometriose na base de validação foram corretamente identificados, sem falsos negativos. Este é um resultado extremamente positivo para uma ferramenta de triagem; o custo de não identificar um caso real é muito maior do que o de investigar um caso suspeito que se revela negativo.

No entanto, a maximização da sensibilidade ocorreu à custa da precisão. A matriz de confusão para o conjunto de validação mostrou 59 verdadeiros positivos e 0 falsos negativos, mas também 10.507 falsos positivos e 4.647 verdadeiros negativos. Consequentemente, a precisão foi de apenas 0,56%, indicando que menos de 1% dos casos classificados como positivos pelo modelo eram de fato reais. O F1-score, média harmônica entre precisão e recall, foi baixo (0, 0111), refletindo esse desequilíbrio. Este trade-off é central em problemas de classificação com classes desbalanceadas.

Apesar da baixa precisão, outras métricas indicaram forte capacidade discriminativa. A área sob a curva ROC (AUC-ROC) atingiu 0,8997, demonstrando uma excelente habilidade do modelo em distinguir entre as classes positiva e negativa (Fawcett, 2006). Adicionalmente, a análise da curva Precision-Recall, mais sensível ao desempenho na classe minoritária, corroborou que o modelo é informativo, embora a precisão caia à medida que se aumenta o recall (Saito & Rehmsmeier, 2015).

Os resultados demonstram que o modelo de regressão logística, calibrado para alta sensibilidade, funciona como uma ferramenta de triagem eficaz, capaz de criar uma “rede de segurança” para capturar todos os casos potenciais. Embora gere um número elevado de falsos positivos, essa abordagem permite que os sistemas de saúde concentrem recursos de investigação diagnóstica em um subgrupo de maior risco da população. A discussão aponta para a necessidade de estratégias de segundo nível para lidar com os indivíduos sinalizados como “falsos positivos”, como a aplicação de questionários mais detalhados ou avaliação por profissionais de atenção primária.

Os resultados indicam que a aplicação de modelos de aprendizado de máquina aos microdados da PNS é uma abordagem viável para apoiar a identificação de mulheres com alto risco de endometriose. A capacidade do modelo de alcançar 100% de sensibilidade, aliada a uma AUC-ROC de 0,8997, reforça seu potencial como ferramenta de triagem primária. Na prática, um modelo com essas características pode ser integrado aos sistemas da Atenção Primária à Saúde para sinalizar pacientes que necessitam de avaliação aprofundada, otimizando encaminhamentos e contribuindo para a redução dos atrasos diagnósticos. A estratégia de priorizar a sensibilidade alinha-se com os princípios de saúde pública; o custo de um falso negativo é substancialmente maior que o de um falso positivo.

Contudo, é imperativo reconhecer as limitações. A baixa precisão (0,56%) implica um número elevado de falsos positivos, exigindo planejamento da capacidade assistencial para absorver a demanda adicional. As limitações da fonte de dados incluem o desfecho baseado em diagnóstico autorreferido, sujeito a viés e podendo subestimar a prevalência real, e a ausência de variáveis clínicas granulares, que restringe a complexidade do modelo. Para trabalhos futuros, recomenda-se a exploração de algoritmos mais complexos, a aplicação de técnicas de balanceamento mais avançadas, a ampliação da base de treinamento e a realização de validações temporal e externa para assegurar a robustez do modelo. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade de desenvolver um modelo de aprendizado de máquina com dados de inquérito nacional como uma ferramenta de triagem para endometriose, sinalizando um caminho concreto para evoluir a abordagem e apoiar a gestão desta condição complexa no Sistema Único de Saúde.

Referências:
AMERICAN COLLEGE OF OBSTETRICIANS AND GYNECOLOGISTS. Practice Bulletin No. 114: Management of Endometriosis —Obstetrics & Gynecology, Washington, v. 116, n. 1, p. 223–236, 2010.
ARMOUR, M. et al. The cost of illness and economic burden of endometriosis and chronic pelvic pain in Australia: a national online survey.
BECKER, C. M. et al. ESHRE guideline: endometriosis. Human Reproduction Open, 2022, 2022(2): hoac009. DOI: 10.1093/hropen/hoac009.
BRASIL. Ministério da Saúde. Portaria nº 879, de 12 de julho de 2016. Aprova o Protocolo Clínico e Diretrizes Terapêuticas da Endometriose. Diário Oficial da União, Brasília, 2016.
CHAWLA, N. V. et al. SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, v. 16, p. 321–357, 2002.
DAVIS, J.; GOADRICH, M. The Relationship Between Precision-Recall and ROC Curves. In: Proceedings of the 23rd International Conference on Machine Learning (ICML 2006). Pittsburgh: ACM, 2006. p. 233–240.
DE CORTE, P. et al. Time to diagnose endometriosis: current status, determinants, impact and new solutions. Journal of Clinical Medicine, 2024, 13(10):2865.
FAWCETT, T. An Introduction to ROC Analysis. Pattern Recognition Letters, v. 27, n. 8, p. 861–874, 2006.
GIUDICE, LINDA C. Clinical practice. Endometriosis. The New England Journal of Medicine, Boston, v. 362, n. 25, p. 2389–2398, 2010.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning. 2ª ed., Springer, 2009.
HOSMER, D. W.; LEMESHOW, S.; STURDIVANT, R. X. Applied Logistic Regression. 3. ed. Hoboken: Wiley, 2013.
IBGE — INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. PNS 2013 — Microdados (PNS2013. zip). Rio de Janeiro: IBGE, 2013.
IBGE — INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. PNS 2013 — Dicionário e Input (Dicionario
einput20200930. zip). Rio de Janeiro: IBGE, 2020.
IBGE — INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. PNS 2019 — Microdados (PNS201920220525. zip). Rio de Janeiro: IBGE, 2022a.
IBGE — INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. PNS 2019 — Dicionário e Input (Dicionarioeinput_20220530. zip). Rio de Janeiro: IBGE, 2022b.
JAMES, G.; WITTEN, D.; HASTIE, T.; TIBSHIRANI, R. An Introduction to Statistical Learning. Springer, 2013.
KLEINBAUM, D. G.; KLEIN, M. Logistic Regression: A Self-Learning Text. 3ª ed. Springer, 2010.
LEMAÎTRE, G.; NOGUEIRA, F.; ARIDAS, C. K. Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning. Journal of Machine Learning Research, v. 18, n. 17, p. 1–5, 2017.
MALTA, D. C. et al. Dor crônica na coluna e fatores associados no Brasil: resultados da PNS 2013 e 2019. Epidemiologia e Serviços de Saúde, 2022, 31(esp1): e2022315.
PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825–2830, 2011.
PODGAEC, S. Endometriose. Femina, 2019, 48(4):233–237.
POWERS, D. M. W. (2011). Evaluation: From Precision, Recall, and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies, 2(1), 37-63.
SAITO, T., & REHMSMEIER, M. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3), e0118432.
SOKOLOVA, M.; LAPALME, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427–437.
SOUZA-JÚNIOR, P. R. B. et al. Desenho da amostra da Pesquisa Nacional de Saúde 2013. Epidemiologia e Serviços de Saúde, 2015, 24(2):207–216.
STOPA, S. R. et al. Pesquisa Nacional de Saúde 2019: histórico, métodos e perspectivas. Epidemiologia e Serviços de Saúde, 2020, 29(5): e2020315.
WORLD HEALTH ORGANIZATION. Endometriosis: fact sheet. Geneva: WHO, 2023.
ZONDERVAN, K. T. et al. Endometriosis. Nature Reviews Disease Primers, London, vol. 4, no. 9, 2018.
ZONDERVAN, K. T.; BECKER, C. M.; MISSMER, S. A. Endometriosis. New England Journal of Medicine, 2020, 382(13):1244-1256.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade