
08 de janeiro de 2026
Ecossistema da Ciência de Dados: Modelagem de Tópicos da Comunidade Stack Exchange
Autora: Valeria Miranda — Orientadora: Ana Julia Righetto
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa analisa as discussões na comunidade “Data Science” do Stack Exchange para identificar padrões de uso, interconexões de tecnologias e tópicos emergentes. Por meio de uma abordagem quantitativa e qualitativa, busca-se mapear o ecossistema tecnológico da prática contemporânea da ciência de dados, conforme refletido nas interações de uma comunidade global de profissionais.
A análise aprofundada das interações nesta plataforma permite não apenas identificar quais tecnologias são populares, mas também como elas são combinadas para resolver problemas do mundo real, revelando a arquitetura de conhecimento tácito que sustenta a disciplina. Este mapa do ecossistema serve como um guia para a tomada de decisões estratégicas, tanto para indivíduos que planejam suas carreiras quanto para organizações que definem suas pilhas tecnológicas. A produção de dados cresce exponencialmente, com estimativas de 149 zetabytes em 2024 e projeção de 349 zetabytes até 2028 (Statista, 2024). Essa expansão, vinda de fontes heterogêneas como redes sociais, transações de e-commerce, dados corporativos e sensores da Internet das Coisas (IoT) (Lundberg e Grahn, 2022), gera uma demanda sem precedentes por profissionais capazes de transformar dados brutos em conhecimento acionável.
O Relatório do Fórum Econômico Mundial (WEF, 2023) destaca a necessidade crítica de especialistas em dados para impulsionar a inovação, a otimização de processos e a vantagem competitiva em todos os setores da economia. Essa conjuntura consolida o cientista de dados como uma das profissões mais proeminentes e estratégicas do século XXI (Davenport e Patil, 2012), atuando como um elo fundamental entre o potencial latente nos dados e o valor de negócio tangível. O papel do cientista de dados é multifacetado, abrangendo todo o ciclo de vida dos dados, desde a coleta, limpeza e pré-processamento até a modelagem, avaliação e comunicação dos resultados (Cao, 2018). A função exige um conjunto de competências híbridas, combinando profundidade em estatística e matemática para a formulação de hipóteses e validação de modelos, com fluência em programação, especialmente em linguagens como Python e R, para a implementação de soluções.
Além disso, é crucial a familiaridade com um ecossistema de ferramentas em constante evolução, o “data stack”, que inclui bancos de dados (SQL e NoSQL), sistemas de processamento distribuído como Apache Spark, plataformas de visualização como Tableau e Power BI, e um vasto leque de bibliotecas de aprendizado de máquina (Chen et al., 2014; Oussous et al., 2018). Contudo, o domínio técnico por si só é insuficiente; o entendimento do contexto de negócio e habilidades de comunicação são indispensáveis para traduzir achados complexos em recomendações estratégicas e narrativas compreensíveis para stakeholders não técnicos (Databricks, 2024). A carreira em ciência de dados enfrenta o desafio intrínseco da rápida evolução tecnológica (Rong e Grover, 2009), que impõe a necessidade de um aprendizado contínuo e adaptativo para manter a relevância profissional.
A pressão para dominar um “tech stack” cada vez mais complexo e fragmentado, e para aplicar as técnicas mais recentes de aprendizado de máquina e inteligência artificial, representa um obstáculo significativo à progressão na carreira (Li, L., 2024). A meia-vida do conhecimento técnico em áreas como aprendizado profundo ou engenharia de dados é notavelmente curta. Essa dinâmica de renovação do conhecimento técnico ocorre em um ritmo muito mais acelerado do que o conhecimento gerencial ou de domínio de negócio, demandando dos profissionais uma agilidade intelectual e uma capacidade de aprendizado autônomo e contínuo que são raras em outras profissões.
Para enfrentar esses desafios de complexidade e obsolescência de conhecimento, cientistas de dados recorrem massivamente a comunidades de prática online, com o Stack Exchange sendo um dos exemplos mais proeminentes (OrbusSoftware, n. d.; Cyron et al., 2024). A plataforma funciona não apenas como um repositório de soluções para problemas técnicos específicos, mas também como um termômetro das tecnologias, frameworks e desafios que definem o cotidiano profissional (Stack Overflow, 2013). Embora a documentação oficial de ferramentas e bibliotecas seja um recurso primário (Parnin et al., 2012), ela frequentemente falha em abordar os problemas de integração, os casos de uso não convencionais e os erros sutis que surgem na prática. Existe, portanto, uma lacuna na compreensão de como as tecnologias são interconectadas e aplicadas em conjunto para resolver problemas complexos, e quais são os principais tópicos de dificuldade enfrentados pela comunidade (Barua et al., 2014).
As interações no Stack Exchange, materializadas nas marcações (“tags”) e no conteúdo textual das perguntas e respostas, oferecem um registro autêntico, em larga escala e longitudinal para a análise dessas dinâmicas (Treude et al., 2011; Allamanis et al., 2018). A metodologia adotada neste estudo foi de natureza quantitativa e exploratória, focada na análise de dados públicos e anonimizados provenientes do dump de dados da comunidade Data Science do Stack Exchange. O corpus de dados abrangeu todas as postagens e comentários criados entre janeiro de 2020 e março de 2025, extraídos dos arquivos “Posts. xml” e “Comments. xml”. As análises descritivas subsequentes e a geração de visualizações foram conduzidas com os pacotes Python padrão do ecossistema de ciência de dados, como “pandas” para manipulação de dataframes, e “matplotlib” e “seaborn” para a criação de gráficos. Uma técnica central na metodologia foi a análise de co-ocorrência das “tags”.
As “tags” são metadados cruciais, atribuídos pelos próprios usuários para categorizar o conteúdo das perguntas por tecnologia, conceito ou área de conhecimento.
Para realizar essa análise, o pacote “itertools” de Python foi utilizado para gerar todas as combinações de pares de “tags” presentes em cada pergunta. A frequência de cada par foi então agregada em todo o conjunto de dados. Essa matriz de co-ocorrência serviu de base para a construção de uma rede de relações, onde cada “tag” é um nó e a espessura da aresta entre dois nós é proporcional à frequência com que aparecem juntas. Essa abordagem permite mapear visualmente o ecossistema tecnológico da área, identificar a centralidade de certas ferramentas e descobrir clusters de tecnologias que são frequentemente utilizadas em conjunto para resolver tipos específicos de problemas (Fávero e Belfiore, 2017).
Para a análise do conteúdo textual e a descoberta de tópicos latentes, foi empregado o modelo BERTopic. A escolha por este modelo se deu por sua capacidade de aproveitar os embeddings contextuais de modelos de linguagem baseados em transformers, superando as limitações de modelos mais antigos como o Latent Dirichlet Allocation (LDA), que tratam palavras como entidades isoladas.
Na fase de implementação, o pré-processamento do texto foi deliberadamente minimalista, consistindo na remoção de blocos de código e marcações HTML, mas omitindo etapas como a lematização ou a remoção de stopwords. Essa decisão foi baseada em recomendações da literatura, que indicam que tais etapas podem degradar o contexto semântico capturado pelos transformers (Grootendorst, 2022). O hiperparâmetro mintopicsize, que define o número mínimo de documentos para formar um tópico, foi otimizado por meio de uma busca em grade, avaliando o resultado com base na métrica de coerência de tópicos (C_v). Esta métrica alinha a avaliação quantitativa com a interpretabilidade humana, medindo o grau de similaridade semântica entre as palavras mais representativas de um tópico (Röder et al., 2015). A etapa final da metodologia envolveu a interpretação e rotulagem dos tópicos gerados pelo BERTopic.
Para facilitar esse processo, foram utilizadas múltiplas técnicas de representação. A representação padrão, baseada em TF-IDF por classe, foi complementada pela técnica “keyBERTInspired”, que extrai palavras-chave mais representativas do conteúdo semântico dos documentos de um tópico. Adicionalmente, para gerar rótulos concisos e descritivos, foi utilizado o modelo de linguagem generativa flan-t5-base (Chung et al., 2022), que foi instruído a sintetizar o tema central de cada tópico com base em suas palavras-chave e documentos mais representativos.
A análise foi enriquecida por visualizações, como o mapa de distância intertópicos, que utiliza a técnica de redução de dimensionalidade UMAP para projetar os tópicos em um espaço bidimensional, permitindo a identificação visual de clusters de temas semanticamente próximos e a compreensão da estrutura geral do discurso na comunidade (Sievert e Shirley, 2014).
A análise abrangeu um total de 34.533 postagens, das quais 17.906 eram perguntas e 16.627 eram respostas, além de 34.618 comentários, todos coletados no período entre janeiro de 2020 e março de 2025. Uma observação inicial relevante foi a tendência de diminuição no volume mensal de postagens ao longo do período analisado, especialmente a partir de 2023. Esta queda pode ser atribuída, em parte, ao uso crescente de ferramentas de Inteligência Artificial generativa, como o GitHub Copilot e o ChatGPT, que funcionam como assistentes de programação e podem resolver dúvidas técnicas que antes seriam postadas na comunidade (Li et al., 2025).
A análise da interação revelou que, embora o número de perguntas tenha diminuído, a proporção de perguntas que recebem ao menos uma resposta permaneceu estável, sugerindo que a comunidade, embora menor em volume de postagens, continua ativa e engajada.
A análise de co-ocorrência de “tags” revelou um ecossistema tecnológico densamente conectado, com “python” como o nó mais central, confirmando sua posição como a linguagem franca da ciência de dados. Em torno de “python”, orbitam outros nós de alta centralidade como “pandas”, “scikit-learn”, “numpy” e “matplotlib”, formando o núcleo do stack tecnológico para tarefas de manipulação, modelagem e visualização de dados. Foram identificados clusters tecnológicos distintos. Um cluster proeminente foi o de “Aprendizado Profundo”, conectando “tensorflow”, “keras” e “pytorch” com conceitos como “neural-network”, “cnn” e “nlp”. Outro cluster significativo foi o de “Big Data e Engenharia de Dados”, onde “apache-spark”, “pyspark” e “hadoop” co-ocorreram frequentemente com “aws” e “dataframe”, indicando a importância das soluções em nuvem e do processamento distribuído para lidar com grandes volumes de dados.
A análise também mostrou pontes importantes entre esses clusters, como a forte conexão entre “pandas” e “pyspark”, refletindo a necessidade de integrar ferramentas de análise local com pipelines de processamento em larga escala. A modelagem de tópicos com BERTopic identificou 12 tópicos principais com alta coerência e interpretabilidade. Um tópico particularmente interessante que emergiu foi o de “Gerenciamento de Ambientes e Dependências”, que agrupou discussões sobre erros de instalação de pacotes, conflitos de versão e configuração de ambientes virtuais (conda, venv), evidenciando que os desafios de infraestrutura e configuração de software são uma fonte significativa de dificuldades para os praticantes.
A análise temporal dos tópicos revelou uma evolução sutil nas preocupações da comunidade. Tópicos relacionados a frameworks de aprendizado profundo mais tradicionais, como as versões mais antigas do TensorFlow, mostraram um leve declínio em popularidade, enquanto discussões envolvendo “pytorch” e bibliotecas de alto nível como “hugging-face” para processamento de linguagem natural ganharam tração, especialmente a partir de 2022. Além disso, observou-se um aumento gradual na frequência de “tags” e discussões relacionadas a MLOps (Machine Learning Operations), como “docker”, “mlflow” e “airflow”, indicando uma crescente maturidade da comunidade, que passa de um foco exclusivo em modelagem para uma preocupação maior com a implantação, monitoramento e automação de modelos em produção.
Esses resultados sugerem que o campo está se movendo em direção a uma maior industrialização de suas práticas, onde a engenharia de software e os princípios de DevOps se tornam cada vez mais integrados ao ciclo de vida da ciência de dados.
Conclui-se que o objetivo foi atingido.
A análise combinada da co-ocorrência de “tags” e da modelagem de tópicos proporcionou um mapa detalhado e multifacetado do ecossistema da ciência de dados, conforme praticado e discutido pela comunidade do Stack Exchange. Os resultados confirmam a centralidade do ecossistema Python, mas também revelam a estrutura de clusters tecnológicos especializados e as pontes que os conectam. A identificação de tópicos latentes, incluindo os desafios não algorítmicos como o gerenciamento de ambientes, oferece uma visão granular sobre as dificuldades cotidianas dos profissionais. As tendências temporais observadas apontam para a rápida evolução do campo, com um interesse crescente em NLP avançado e MLOps. Este estudo contribui com uma perspectiva empírica sobre as ferramentas e competências mais relevantes na prática atual, servindo como um recurso valioso para profissionais que buscam se manter atualizados, para educadores que desenvolvem currículos e para empresas que estruturam suas equipes e pilhas tecnológicas.
Referências:
Allamanis, M.; Barr, E. T.; Devanbu, P.; Sutton, C. 2018. A survey of machine learning for big code and naturalness. ACM Computing Surveys 51(4): 1-37.
Barua, A.; Thomas, S. W.; Hassan, A. E. 2014. What are developers talking about? An analysis of topics and trends in Stack Overflow. Empirical Software Engineering 19(3): 619-654.
Bird, S.; Klein E.; Loper E. 2009. Natural Language Processing with Python. O’Reilly Media, Sebastopol, CA, EUA.
Blei, D. M. 2012. Probabilistic topic models. Communications of the ACM 55(4): 77-84.
Cao, L. 2018. Data Science: A Comprehensive Overview. ACM Computing Surveys 50(3): 1-42.
Chang, J.; Gerrish, S.; Wang, C.; Boyd-graber, J.; Blei, D. 2009. Reading tea leaves: How humans interpret topic models. Advances in Neural Information Processing Systems 32: 288-296.
Chen, M., Mao, S., Zhang, Y., Leung, V. C. M. 2014. Big Data Related Technologies, Challenges and Future Prospects. Springer, Heidelberg, New York.
Chung, H. W.; Hou, L.; Longpre, S.; Zoph, B.; Tay, Y.; Fedus, W.; Li, Y.; Wang, X.; Dehghani, M.; Brahma, S.; Webson, A.; Gu, S. S.; Dai, Z.; Suzgun, M.; Chen, X.; Chowdhery, A.; Castro-Ros, A.; Pellat, M.; Robinson, K.; Valter, D.; Narang, S.; Mishra, G.; Yu, A.; Zhao, V.; Huang, Y.; Dai, A.; Yu, H.; Petrov, S.; Chi, E. H.; Dean, J.; Devlin, J.; Roberts, A.; Zhou, D.; Le, Q. V.; Wei, J. 2022. Scaling instruction-finetuned language models.
Cyron, T.; Garz, M.; Steigenberger, N. 2024. Beware the community type: engagement and growth in core vs. open online communities. Small Business Economics 62(4): 1383-1407.
Databricks. 2024. The Modern Data Stack: How the evolution of data architecture led to the data intelligence platform.
Davenport T. H.; Patil D. J. 2012. Data scientist: the sexiest job of the 21st century. Harvard Business Review(1210):72.
Egger, R.; Yu, J. 2022. A Topic modeling comparison between LDA, NMF, Top2Vec, and BERTopic to demystify Twitter posts. Frontiers in Sociology.
Fávero, L. P.; Belfiore, P. 2017. Manual de Análise de Dados: Estatística e Modelagem Multivariada com Excel, SPSS e Stata. Elsevier, Rio de Janeiro, RJ, Brasil.
Grootendorst, M. 2022. BERTopic: Neural topic modeling with a class-based TF-IDF procedure.
Gururangan, S.; Marasović, A.; Swayamdipta, S.; Lo, K.; Beltagy, I.; Downey, D.; Smith, N. A. 2020. Don’t stop pretraining: Adapt language models to domains and tasks. In: Annual Meeting of the Association for Computational Linguistics, 58., 2020, Online. Anais… p. 8342-8360.
Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A.; Fung, P. 2023. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys 55(12): 1-38.
Li, J.; Mynatt, E. D.; Mishra, V.; Bell, J. 2025. “Always nice and confident, sometimes wrong”: developer’s experiences engaging generative AI chatbots versus human-powered Q&A platforms. ACM of Human-Computer Interaction 9(2): CSCW029:1-CSCW029:22.
Li, L. 2024. Reskilling and Upskilling the Future-ready Workforce for Industry 4.0 and Beyond. Information Systems Frontiers 26(5): 1697-1712.
Lundberg, L.; Grahn, H. 2022. Research trends, enabling technologies and application areas for big data. Algorithms 15(8): 280.
OrbusSoftware, n. d. Staying current: keeping up-to-date with professional development.
Oussous A.; Benjelloun F. Z.; Lahcen A. A.; Belfkih, S. 2018. Big data technologies: a survey. Journal of King Saud University – Computer and Information Sciences 30(4): 431-448.
Parnin, C.; Treude, C.; Grammel, L.; Storey, M. A. 2012. Crowd documentation: Exploring the coverage and the dynamics of API discussions on Stack Overflow. Georgia Institute of Technology, Tech. Rep(11).
Röder, M.; Both, A.; Hinneburg, A. 2015. Exploring the space of topic coherence measures. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, 2015, Shanghai, China. Anais… p. 399-408.
Rong G.; Grover, V. 2009. Keeping up-to-date with information technology: testing a model of technological knowledge renewal effectiveness for IT professionals. Information & Management 46(7) 376-387.
Sánchez-Franco, M. J.; Rey-Moreno, M. 2022. Do travelers’ reviews depend on the destination? An analysis in coastal and urban peer-to-peer lodgings. Psychology & Marketing 39(2): 441-459.
Sievert, C.; Shirley, K. 2014. LDAvis: A method for visualizing and interpreting topics. Workshop on Interactive Language Learning, Visualization, and Interfaces 2014: 63-70.
Souza, M. de; Souza, R. R. 2019. Modelagem de tópicos: Resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina. Múltiplos Olhares em Ciência da Informação 9(2).
Stack Overflow. 2013. Five years ago, Stack Overflow launched. Then, a miracle occurred.
Statista. 2024. Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2023, with forecasts from 2024 to 2028.
Treude, C.; Barzilay, O.; Storey, M. A. 2011. How do programmers ask and answer questions on the web? (NIER track). International Conference on Software Engineering(11): 804-807.
World Economic Forum [WEF]. 2023. The Future of jobs report 2023.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































