
23 de fevereiro de 2026
Análise preditiva de demissões voluntárias com machine learning no setor de tecnologia
Mariana Rodrigues da Silva; Gustavo Dantas Lobo
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada á síntese e redação.
Este trabalho determina um padrão de resposta sobre demissões voluntárias em uma organização de tecnologia, utilizando modelos preditivos para identificar os fatores mais influentes na decisão de saída e fornecer subsídios para a tomada de decisão estratégica na gestão de pessoas. A investigação busca promover maior assertividade na elaboração de políticas corporativas, focando na retenção de talentos e no planejamento sucessório em um ambiente de alta competitividade e escassez de profissionais qualificados.
A convergência das economias globais impõe às organizações desafios e oportunidades, pressionando-as a aprimorarem seu desempenho e a otimizarem a entrega de produtos e serviços com maior qualidade e eficiência (Tiwari et al., 2007). No setor de tecnologia, essa dinâmica é mais acentuada. Corporações estabelecem unidades operacionais em diferentes países para acessar recursos e talentos com melhor custo-benefício (Medcof, 2001), transformando-as em centros de competências técnicas essenciais para o desenvolvimento de produtos globais. Países como Brasil, China e Índia destacam-se como polos de atração de investimentos em pesquisa e desenvolvimento, devido a mercados em crescimento, acesso a talentos e custos reduzidos, atraindo corporações multinacionais (WIPO, 2016). Em 2023, as indústrias de software e hardware consolidaram sua liderança em intensidade de P&D, reforçando o papel central dos profissionais de tecnologia que criam as aplicações que moldam o uso das tecnologias (WIPO, 2023; Dorschel, 2022).
A retenção desses profissionais, contudo, é um desafio. Saura e Gomez-Mejia (1997) identificaram neles características como orientação para a conquista, disposição para assumir riscos, alta tolerância à incerteza e baixa lealdade organizacional, o que contribui para taxas de rotatividade voluntária elevadas. Fatores que influenciam a permanência são categorizados por Zhang et al. (2013) em quatro grupos: incentivos materiais (salários, bônus); suporte ambiental (clima organizacional, relações interpessoais); oportunidades de desenvolvimento (treinamentos, carreira); e condições pessoais (gênero, idade, atitude). O desalinhamento entre as expectativas do colaborador e a oferta da organização em qualquer uma dessas áreas pode gerar insatisfação e a decisão de buscar novas oportunidades.
A teoria de enraizamento no trabalho, de Mitchell et al. (2001), aprofunda a compreensão sobre os vínculos que mantêm os indivíduos em seus empregos. A teoria se baseia em três dimensões: as conexões, referentes às redes sociais, psicológicas e financeiras do colaborador; a compatibilidade, que mede o alinhamento entre valores pessoais e a cultura da empresa; e o sacrifício, que representa o custo percebido da saída, como a perda de benefícios e estabilidade. Quando esses vínculos são fracos ou a percepção de propósito diminui, a probabilidade de rotatividade aumenta.
A rotatividade de colaboradores é uma questão estratégica que afeta a produtividade e o crescimento a longo prazo. Para mitigar esses impactos, organizações têm recorrido a abordagens analíticas. O uso de Machine Learning para prever o risco de rotatividade permite que gestores adotem medidas proativas para reter talentos ou planejar a sucessão (Punnoose e Ajit, 2016). No contexto brasileiro, essa abordagem é ainda mais crítica, considerando a projeção de um déficit de 30,2% entre a demanda e a oferta de profissionais de tecnologia até o final de 2024 (BRASSCOM, 2025), o que intensifica a competição por talentos.
O estudo foi conduzido em uma organização de médio porte do setor de tecnologia, com sede em Fortaleza, Ceará, e aproximadamente 600 colaboradores. A base de dados compreende 1.062 eventos de permanência e desligamento voluntário entre janeiro de 2021 e julho de 2025. A metodologia seguiu o Processo Padrão Inter-Indústrias para Mineração de Dados (CRISP-DM), um modelo que oferece uma estrutura sistemática para projetos de mineração de dados (Wirth e Hipp, 2000). Para a implementação, utilizou-se a linguagem Python com as bibliotecas Pandas, NumPy, Scikit-learn, Seaborn, Matplotlib e SHAP para manipulação, modelagem, visualização e interpretabilidade dos dados.
A fase de entendimento do negócio focou em desenvolver um modelo preditivo capaz de identificar padrões associados às saídas voluntárias, conectando a variável resposta (desligamento) a variáveis preditoras (James et al., 2013). A coleta de dados envolveu a extração de informações de sistemas corporativos, abrangendo atributos contratuais, demográficos, de benefícios e de trajetória profissional. Na preparação dos dados, realizou-se um tratamento rigoroso, incluindo a substituição de valores nulos de baixa representatividade pela mediana para mitigar o impacto de outliers (Aggarwal, 2016), a eliminação de variáveis com alta concentração de valores ausentes e a conversão de atributos categóricos em valores booleanos via “one-hot encoding”. Atributos derivados, como “Tempo de Casa” e “Taxa de Promoção”, foram criados para enriquecer a análise.
Na modelagem, foram selecionados três algoritmos de Machine Learning: Árvore de Decisão, que cria modelos em estrutura hierárquica; Random Forest, um método de “ensemble” que combina múltiplas árvores para melhorar a generalização (Breiman, 2001); e Gradient Boosting, outro “ensemble” que constrói modelos de forma sequencial; cada árvore corrige os erros da anterior, destacando-se pela precisão (Friedman, 2001; Zhao et al., 2019). Os dados foram divididos em conjuntos de treino e teste, e a otimização dos hiperparâmetros foi realizada por “grid search” com validação cruzada “k-fold” para encontrar a configuração de melhor desempenho (Alibrahim e Ludwig, 2021).
A avaliação dos modelos baseou-se em métricas para problemas de classificação com classes desbalanceadas. Foram utilizadas a acurácia balanceada, que calcula a média da sensibilidade por classe (Brodersen et al., 2010); a área sob a curva ROC (AUC-ROC), que mede a capacidade de discriminação (Hand e Till, 2001); a precisão; a sensibilidade (recall); e a pontuação F1, uma média harmônica entre precisão e sensibilidade (Sokolova e Lapalme, 2009). A interpretabilidade foi aprimorada com o método SHAP (Shapley Additive Explanations), que permite entender a contribuição de cada variável para as previsões (Lundberg et al., 2020). O processo foi iterativo até a seleção do modelo final.
A análise descritiva e exploratória confirmou o desequilíbrio entre as classes (ativos vs. saídas), um fator que exige tratamento específico em algoritmos para evitar vieses (He e Garcia, 2009). A análise de outliers informou a necessidade de ajustar hiperparâmetros como a profundidade máxima das árvores (maxdepth) para evitar “overfitting” (Hastie et al., 2009) e a taxa de aprendizado (learningrate) para melhorar a generalização (Friedman, 2001). A exploração dos dados mostrou que a maior parte dos colaboradores é do sexo masculino, com idade entre 20 e 30 anos, e a maioria possui até cinco anos de tempo de casa. A função de desenvolvedor e o nível superior concentram a maior parte da força de trabalho.
Ao segmentar os dados entre colaboradores ativos e desligados, padrões emergiram. A análise de variáveis contínuas mostrou que os colaboradores que saíram tendiam a ter salários ligeiramente inferiores e menos tempo na empresa. Contudo, a análise das variáveis de carreira revelou os insights mais significativos. Embora os “scores” médios de desempenho fossem similares entre os grupos, a grande maioria dos colaboradores que se desligaram apresentava uma taxa de progressão próxima de zero, sem promoções ou premiações recentes. Em contraste, o grupo de ativos exibia uma distribuição mais positiva de reconhecimentos. Este achado sugere que a rotatividade voluntária não está primariamente ligada a baixo desempenho, mas à percepção de estagnação e falta de oportunidades de crescimento.
A análise das variáveis categóricas corroborou essa visão, revelando que a maior incidência de desligamentos ocorria entre colaboradores do sexo masculino, em funções técnicas de desenvolvimento, com formação superior e em níveis de senioridade júnior e pleno. Em contrapartida, a organização demonstrava maior eficácia na retenção de líderes e profissionais em posições mais elevadas. Esse padrão indica um desafio na gestão de talentos em estágios iniciais de carreira, que parecem mais propensos a buscar novas oportunidades caso não percebam uma trajetória de crescimento clara. A combinação desses fatores aponta para um cenário onde a falta de perspectiva de progressão se torna um gatilho para a saída.
O modelo de Árvore de Decisão, embora interpretável, teve desempenho limitado. Na base de dados com variáveis de carreira, alcançou acurácia balanceada de 0,92 e sensibilidade de 0,94, mas sua precisão foi de apenas 0,72. Isso significa que quase 30% das previsões de desligamento seriam falsos positivos, o que poderia levar a custos desnecessários com ações de retenção ineficientes.
O modelo de Random Forest demonstrou melhoria na precisão, superando 0,90 em ambos os conjuntos de dados, devido à sua natureza de “ensemble” que confere robustez (Louppe, 2014). No entanto, essa melhoria veio ao custo de uma sensibilidade menor (0,77 na base com variáveis de carreira). Na prática, o modelo geraria menos falsos alarmes, mas falharia em identificar uma proporção maior de saídas reais, uma desvantagem crítica para um sistema de alerta proativo; a perda de talentos não identificados tem impacto substancial (Fernández et al., 2018).
O algoritmo de Gradient Boosting emergiu como a abordagem mais eficaz, com o melhor desempenho consolidado. Sua capacidade de construir modelos sequencialmente permite a detecção de padrões complexos (Natekin e Knoll, 2013). O modelo com variáveis de carreira alcançou acurácia balanceada de 0,94, AUC-ROC de 0,98 e pontuação F1 de 0,94. Mais importante, conseguiu um excelente equilíbrio entre precisão e sensibilidade, capturando a maioria das saídas reais sem gerar excesso de falsos positivos. Embora observado um leve risco de “overfitting”, verificações confirmaram que os resultados eram estáveis.
A análise de importância das variáveis reforçou os achados da análise exploratória. No modelo sem variáveis de carreira, salário, função de desenvolvedor e tempo de casa foram os preditores mais importantes. O modelo de Gradient Boosting também destacou a relevância da liderança, do pacote de benefícios e das características de cada área. Quando as variáveis de carreira foram incluídas, a quantidade e a taxa de promoções e premiações emergiram como os fatores mais decisivos em todos os modelos, especialmente no Gradient Boosting. Isso confirma que a percepção de estagnação e a falta de reconhecimento são os principais impulsionadores da rotatividade.
A análise com SHAP aprofundou essa compreensão, visualizando a direção e a intensidade do impacto de cada variável. Os gráficos SHAP confirmaram que salários mais baixos e ausência de benefícios aumentam a probabilidade de saída. De forma contundente, a análise revelou que valores baixos na quantidade de promoções e premiações contribuem fortemente para a previsão de desligamento. Um achado interessante foi que, em alguns casos, “scores” de desempenho elevados também contribuíam para a previsão de saída, sugerindo que a empresa está perdendo talentos de alta performance, provavelmente frustrados pela falta de reconhecimento e oportunidades compatíveis com sua contribuição.
Este estudo demonstrou a eficácia do Machine Learning para compreender os fatores da demissão voluntária. A análise revelou que, embora a remuneração seja relevante, a percepção de estagnação na carreira e a ausência de reconhecimento formal são os catalisadores da rotatividade. O modelo de Gradient Boosting, enriquecido com variáveis de trajetória profissional, provou ser uma ferramenta preditiva robusta e precisa, oferecendo um equilíbrio superior entre identificar saídas reais e minimizar falsos alarmes. Os insights gerados fornecem suporte para que a organização redirecione seus esforços para planos de carreira mais claros, sistemas de reconhecimento eficientes e práticas de liderança que promovam o desenvolvimento dos colaboradores.
A implementação de um modelo preditivo como este permite que a gestão de pessoas adote uma postura proativa, antecipando riscos e agindo de forma direcionada para reter talentos, em vez de apenas reagir a demissões. A capacidade de identificar padrões ocultos nos dados transforma a gestão de pessoas em uma função mais estratégica e baseada em evidências, contribuindo para a sustentabilidade e competitividade da organização. Conclui-se que o objetivo foi atingido: demonstrou-se um padrão resposta sobre eventos de demissões voluntárias por meio de modelos preditivos, identificando a estagnação na carreira e a falta de reconhecimento como fatores críticos.
Referências:
Aggarwal, C. C. 2016. Outlier analysis. 2ed. Springer, Yorktown Heights, NY, EUA.
Alibrahim, H.; Ludwig, S. A. 2021. Hyperparameter optimization: Comparing genetic algorithm against grid search and Bayesian optimization. In: Congress on Evolutionary Computation [CEC], 2021, Cracóvia, Polônia. Anais… p. 1551-1559.
Associação das Empresas de Tecnologia da Informação e Comunicação e de Tecnologias Digitais [BRASSCOM]. 2025. Perspectivas do Mercado de Trabalho do Macrossetor de TIC. Disponível em: https://brasscom. org. br/pdfs/relatorio-perspectivas-do-mercado-de-trabalho-do-macrossetor-de-tic/. Acesso em: 03 abr. 2025.
Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.
Brodersen, K. H.; Ong C. S.; Stephan K. E.; Buhmann J. M. 2010. The balanced accuracy and its posterior distribution. In: International Conference on Pattern Recognition [ICPR], 2010, Istanbul, Turquia. Anais… p. 3121-3124.
Chen, T.; Guestrin, C. 2016. XGBoost: A scalable tree boosting system. In: International Conference on Knowledge Discovery and Data Mining [KDD], 2016, San Francisco, CA, EUA. Anais… p. 785-794.
Dorscheli, R. 2022. Reconsidering digital labour: bringing tech workers into the debate. New Technology, Work and Employment 37(2): 288-307.
Fernández, A.; García, S.; Galar, M.; Prati, R. C.; Krawczyk, B.; Herrera, F. 2018. Learning from imbalanced data sets. ACM Computing Surveys [CSUR] 52(4): 1-36
Friedman, J. H. 2001. Greedy function approximation: A gradient boosting machine. Annals of Statistics 29(5): 1189-1232.
Hand, D. J.; Till, R. J. 2001. A simple generalisation of the area under the ROC curve for multiple class classification problems. Machine Learning 45(2): 171-186.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, Nova Iorque, NY, USA.
He, H.; Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9): 1263-1284.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2013. An introduction to statistical learning: With applications in R. 1ed. Springer, Nova Iorque, NY, USA.
Louppe, G. 2014. Understanding Random Forests: From Theory to Practice. Tese de Doutorado em Ciências da Computação. Universidade de Liège, Liège, Bélgica.
Lundberg, S. M.; Erion, G.; Chen, H.; DeGrave, A.; Prutkin, J. M.; Nair, B.; Katz, R.; Himmelfarb, J.; Bansal, N.; Lee S. 2020. From local explanations to global understanding with explainable AI for trees. Nature Machine Intelligence 2(1): 56-67.
Medcof, J. W. 2001. Resource‐based strategy and managerial power in networks of internationally dispersed technology units. Strategic Management Journal 22(11): 999-1012.
Mitchell, T. R.; Holtom, B. C.; Lee, T. W.; Sablynski, C. J.; Erez, M. 2001. Why people stay: Using job embeddedness to predict voluntary turnover. Academy of Management Journal 44(6): 1102-1121.
Natekin, A.; Knoll, A. 2013. Gradient boosting machines, a tutorial. Frontiers in Neurorobotics 7: 1-21.
Punnoose, R.; Ajit, P. 2016. Prediction of employee turnover in organizations using machine learning algorithms. International Journal of Advanced Research in Artificial Intelligence 5(9): 11-16.
Saura, M. D.; Gómez-Mejía, L. R. 1996. The effectiveness of organization-wide compensation strategies in technology intensive firms. DEE-Working Papers.
Sokolova, M.; Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks. Information Processing & Management 45(4): 427-437.
Tiwari, R.; Buse, S.; Herstatt, C. 2007. Innovation via Global Route: Proposing a Reference Model for Chances and Challenges of Global Innovation Processes. In: International Conference on Globally Distributed Work, 2007, Bangalore, Karnataka, Índia. Anais… p. 451-465.
Wirth, R.; Hipp, J. 2000. CRISP-DM: Towards a Standard Process Model for Data Mining. In: International Conference on the Practical Applications of Knowledge Discovery and Data Mining [PAKD], 2000, Manchester, Reino Unido. Anais… p. 29-40.
World Intellectual Property Organization [WIPO]. 2016. Global Innovation Index 2016: Winning with Global Innovation. Disponível em: https://www. wipo. int/edocs/pubdocs/en/wipopubgii_2016. pdf. Acesso em: 03 abr. 2025.
World Intellectual Property Organization [WIPO]. 2023. Global Innovation Index 2023: Innovation in the face of uncertainty. Disponível em: https://www. wipo. int/edocs/pubdocs/en/wipo-pub-2000-2023-en-main-report-global-innovation-index-2023-16th-edition. pdf. Acesso em: 03 abr. 2025.
Zhang, Y.; Cai, Z.; Fei, H. 2024. Predicting employee turnover in high-tech enterprises using machine learning: Based on the psychological contract perspective. In: International Conference
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































