Imagem Análise preditiva de demissões voluntárias com machine learning no setor de tecnologia

23 de fevereiro de 2026

Análise preditiva de demissões voluntárias com machine learning no setor de tecnologia

Mariana Rodrigues da Silva; Gustavo Dantas Lobo

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada á síntese e redação.

Este trabalho determina um padrão de resposta sobre demissões voluntárias em uma organização de tecnologia, utilizando modelos preditivos para identificar os fatores mais influentes na decisão de saída e fornecer subsídios para a tomada de decisão estratégica na gestão de pessoas. A investigação busca promover maior assertividade na elaboração de políticas corporativas, focando na retenção de talentos e no planejamento sucessório em um ambiente de alta competitividade e escassez de profissionais qualificados.

A convergência das economias globais impõe às organizações desafios e oportunidades, pressionando-as a aprimorarem seu desempenho e a otimizarem a entrega de produtos e serviços com maior qualidade e eficiência (Tiwari et al., 2007). No setor de tecnologia, essa dinâmica é mais acentuada. Corporações estabelecem unidades operacionais em diferentes países para acessar recursos e talentos com melhor custo-benefício (Medcof, 2001), transformando-as em centros de competências técnicas essenciais para o desenvolvimento de produtos globais. Países como Brasil, China e Índia destacam-se como polos de atração de investimentos em pesquisa e desenvolvimento, devido a mercados em crescimento, acesso a talentos e custos reduzidos, atraindo corporações multinacionais (WIPO, 2016). Em 2023, as indústrias de software e hardware consolidaram sua liderança em intensidade de P&D, reforçando o papel central dos profissionais de tecnologia que criam as aplicações que moldam o uso das tecnologias (WIPO, 2023; Dorschel, 2022).

A retenção desses profissionais, contudo, é um desafio. Saura e Gomez-Mejia (1997) identificaram neles características como orientação para a conquista, disposição para assumir riscos, alta tolerância à incerteza e baixa lealdade organizacional, o que contribui para taxas de rotatividade voluntária elevadas. Fatores que influenciam a permanência são categorizados por Zhang et al. (2013) em quatro grupos: incentivos materiais (salários, bônus); suporte ambiental (clima organizacional, relações interpessoais); oportunidades de desenvolvimento (treinamentos, carreira); e condições pessoais (gênero, idade, atitude). O desalinhamento entre as expectativas do colaborador e a oferta da organização em qualquer uma dessas áreas pode gerar insatisfação e a decisão de buscar novas oportunidades.

A teoria de enraizamento no trabalho, de Mitchell et al. (2001), aprofunda a compreensão sobre os vínculos que mantêm os indivíduos em seus empregos. A teoria se baseia em três dimensões: as conexões, referentes às redes sociais, psicológicas e financeiras do colaborador; a compatibilidade, que mede o alinhamento entre valores pessoais e a cultura da empresa; e o sacrifício, que representa o custo percebido da saída, como a perda de benefícios e estabilidade. Quando esses vínculos são fracos ou a percepção de propósito diminui, a probabilidade de rotatividade aumenta.

A rotatividade de colaboradores é uma questão estratégica que afeta a produtividade e o crescimento a longo prazo. Para mitigar esses impactos, organizações têm recorrido a abordagens analíticas. O uso de Machine Learning para prever o risco de rotatividade permite que gestores adotem medidas proativas para reter talentos ou planejar a sucessão (Punnoose e Ajit, 2016). No contexto brasileiro, essa abordagem é ainda mais crítica, considerando a projeção de um déficit de 30,2% entre a demanda e a oferta de profissionais de tecnologia até o final de 2024 (BRASSCOM, 2025), o que intensifica a competição por talentos.

O estudo foi conduzido em uma organização de médio porte do setor de tecnologia, com sede em Fortaleza, Ceará, e aproximadamente 600 colaboradores. A base de dados compreende 1.062 eventos de permanência e desligamento voluntário entre janeiro de 2021 e julho de 2025. A metodologia seguiu o Processo Padrão Inter-Indústrias para Mineração de Dados (CRISP-DM), um modelo que oferece uma estrutura sistemática para projetos de mineração de dados (Wirth e Hipp, 2000). Para a implementação, utilizou-se a linguagem Python com as bibliotecas Pandas, NumPy, Scikit-learn, Seaborn, Matplotlib e SHAP para manipulação, modelagem, visualização e interpretabilidade dos dados.

A fase de entendimento do negócio focou em desenvolver um modelo preditivo capaz de identificar padrões associados às saídas voluntárias, conectando a variável resposta (desligamento) a variáveis preditoras (James et al., 2013). A coleta de dados envolveu a extração de informações de sistemas corporativos, abrangendo atributos contratuais, demográficos, de benefícios e de trajetória profissional. Na preparação dos dados, realizou-se um tratamento rigoroso, incluindo a substituição de valores nulos de baixa representatividade pela mediana para mitigar o impacto de outliers (Aggarwal, 2016), a eliminação de variáveis com alta concentração de valores ausentes e a conversão de atributos categóricos em valores booleanos via “one-hot encoding”. Atributos derivados, como “Tempo de Casa” e “Taxa de Promoção”, foram criados para enriquecer a análise.

Na modelagem, foram selecionados três algoritmos de Machine Learning: Árvore de Decisão, que cria modelos em estrutura hierárquica; Random Forest, um método de “ensemble” que combina múltiplas árvores para melhorar a generalização (Breiman, 2001); e Gradient Boosting, outro “ensemble” que constrói modelos de forma sequencial; cada árvore corrige os erros da anterior, destacando-se pela precisão (Friedman, 2001; Zhao et al., 2019). Os dados foram divididos em conjuntos de treino e teste, e a otimização dos hiperparâmetros foi realizada por “grid search” com validação cruzada “k-fold” para encontrar a configuração de melhor desempenho (Alibrahim e Ludwig, 2021).

A avaliação dos modelos baseou-se em métricas para problemas de classificação com classes desbalanceadas. Foram utilizadas a acurácia balanceada, que calcula a média da sensibilidade por classe (Brodersen et al., 2010); a área sob a curva ROC (AUC-ROC), que mede a capacidade de discriminação (Hand e Till, 2001); a precisão; a sensibilidade (recall); e a pontuação F1, uma média harmônica entre precisão e sensibilidade (Sokolova e Lapalme, 2009). A interpretabilidade foi aprimorada com o método SHAP (Shapley Additive Explanations), que permite entender a contribuição de cada variável para as previsões (Lundberg et al., 2020). O processo foi iterativo até a seleção do modelo final.

A análise descritiva e exploratória confirmou o desequilíbrio entre as classes (ativos vs. saídas), um fator que exige tratamento específico em algoritmos para evitar vieses (He e Garcia, 2009). A análise de outliers informou a necessidade de ajustar hiperparâmetros como a profundidade máxima das árvores (maxdepth) para evitar “overfitting” (Hastie et al., 2009) e a taxa de aprendizado (learningrate) para melhorar a generalização (Friedman, 2001). A exploração dos dados mostrou que a maior parte dos colaboradores é do sexo masculino, com idade entre 20 e 30 anos, e a maioria possui até cinco anos de tempo de casa. A função de desenvolvedor e o nível superior concentram a maior parte da força de trabalho.

Ao segmentar os dados entre colaboradores ativos e desligados, padrões emergiram. A análise de variáveis contínuas mostrou que os colaboradores que saíram tendiam a ter salários ligeiramente inferiores e menos tempo na empresa. Contudo, a análise das variáveis de carreira revelou os insights mais significativos. Embora os “scores” médios de desempenho fossem similares entre os grupos, a grande maioria dos colaboradores que se desligaram apresentava uma taxa de progressão próxima de zero, sem promoções ou premiações recentes. Em contraste, o grupo de ativos exibia uma distribuição mais positiva de reconhecimentos. Este achado sugere que a rotatividade voluntária não está primariamente ligada a baixo desempenho, mas à percepção de estagnação e falta de oportunidades de crescimento.

A análise das variáveis categóricas corroborou essa visão, revelando que a maior incidência de desligamentos ocorria entre colaboradores do sexo masculino, em funções técnicas de desenvolvimento, com formação superior e em níveis de senioridade júnior e pleno. Em contrapartida, a organização demonstrava maior eficácia na retenção de líderes e profissionais em posições mais elevadas. Esse padrão indica um desafio na gestão de talentos em estágios iniciais de carreira, que parecem mais propensos a buscar novas oportunidades caso não percebam uma trajetória de crescimento clara. A combinação desses fatores aponta para um cenário onde a falta de perspectiva de progressão se torna um gatilho para a saída.

O modelo de Árvore de Decisão, embora interpretável, teve desempenho limitado. Na base de dados com variáveis de carreira, alcançou acurácia balanceada de 0,92 e sensibilidade de 0,94, mas sua precisão foi de apenas 0,72. Isso significa que quase 30% das previsões de desligamento seriam falsos positivos, o que poderia levar a custos desnecessários com ações de retenção ineficientes.

O modelo de Random Forest demonstrou melhoria na precisão, superando 0,90 em ambos os conjuntos de dados, devido à sua natureza de “ensemble” que confere robustez (Louppe, 2014). No entanto, essa melhoria veio ao custo de uma sensibilidade menor (0,77 na base com variáveis de carreira). Na prática, o modelo geraria menos falsos alarmes, mas falharia em identificar uma proporção maior de saídas reais, uma desvantagem crítica para um sistema de alerta proativo; a perda de talentos não identificados tem impacto substancial (Fernández et al., 2018).

O algoritmo de Gradient Boosting emergiu como a abordagem mais eficaz, com o melhor desempenho consolidado. Sua capacidade de construir modelos sequencialmente permite a detecção de padrões complexos (Natekin e Knoll, 2013). O modelo com variáveis de carreira alcançou acurácia balanceada de 0,94, AUC-ROC de 0,98 e pontuação F1 de 0,94. Mais importante, conseguiu um excelente equilíbrio entre precisão e sensibilidade, capturando a maioria das saídas reais sem gerar excesso de falsos positivos. Embora observado um leve risco de “overfitting”, verificações confirmaram que os resultados eram estáveis.

A análise de importância das variáveis reforçou os achados da análise exploratória. No modelo sem variáveis de carreira, salário, função de desenvolvedor e tempo de casa foram os preditores mais importantes. O modelo de Gradient Boosting também destacou a relevância da liderança, do pacote de benefícios e das características de cada área. Quando as variáveis de carreira foram incluídas, a quantidade e a taxa de promoções e premiações emergiram como os fatores mais decisivos em todos os modelos, especialmente no Gradient Boosting. Isso confirma que a percepção de estagnação e a falta de reconhecimento são os principais impulsionadores da rotatividade.

A análise com SHAP aprofundou essa compreensão, visualizando a direção e a intensidade do impacto de cada variável. Os gráficos SHAP confirmaram que salários mais baixos e ausência de benefícios aumentam a probabilidade de saída. De forma contundente, a análise revelou que valores baixos na quantidade de promoções e premiações contribuem fortemente para a previsão de desligamento. Um achado interessante foi que, em alguns casos, “scores” de desempenho elevados também contribuíam para a previsão de saída, sugerindo que a empresa está perdendo talentos de alta performance, provavelmente frustrados pela falta de reconhecimento e oportunidades compatíveis com sua contribuição.

Este estudo demonstrou a eficácia do Machine Learning para compreender os fatores da demissão voluntária. A análise revelou que, embora a remuneração seja relevante, a percepção de estagnação na carreira e a ausência de reconhecimento formal são os catalisadores da rotatividade. O modelo de Gradient Boosting, enriquecido com variáveis de trajetória profissional, provou ser uma ferramenta preditiva robusta e precisa, oferecendo um equilíbrio superior entre identificar saídas reais e minimizar falsos alarmes. Os insights gerados fornecem suporte para que a organização redirecione seus esforços para planos de carreira mais claros, sistemas de reconhecimento eficientes e práticas de liderança que promovam o desenvolvimento dos colaboradores.

A implementação de um modelo preditivo como este permite que a gestão de pessoas adote uma postura proativa, antecipando riscos e agindo de forma direcionada para reter talentos, em vez de apenas reagir a demissões. A capacidade de identificar padrões ocultos nos dados transforma a gestão de pessoas em uma função mais estratégica e baseada em evidências, contribuindo para a sustentabilidade e competitividade da organização. Conclui-se que o objetivo foi atingido: demonstrou-se um padrão resposta sobre eventos de demissões voluntárias por meio de modelos preditivos, identificando a estagnação na carreira e a falta de reconhecimento como fatores críticos.

Referências:
Aggarwal, C. C. 2016. Outlier analysis. 2ed. Springer, Yorktown Heights, NY, EUA.
Alibrahim, H.; Ludwig, S. A. 2021. Hyperparameter optimization: Comparing genetic algorithm against grid search and Bayesian optimization. In: Congress on Evolutionary Computation [CEC], 2021, Cracóvia, Polônia. Anais… p. 1551-1559.
Associação das Empresas de Tecnologia da Informação e Comunicação e de Tecnologias Digitais [BRASSCOM]. 2025. Perspectivas do Mercado de Trabalho do Macrossetor de TIC. Disponível em: https://brasscom. org. br/pdfs/relatorio-perspectivas-do-mercado-de-trabalho-do-macrossetor-de-tic/. Acesso em: 03 abr. 2025.
Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.
Brodersen, K. H.; Ong C. S.; Stephan K. E.; Buhmann J. M. 2010. The balanced accuracy and its posterior distribution. In: International Conference on Pattern Recognition [ICPR], 2010, Istanbul, Turquia. Anais… p. 3121-3124.
Chen, T.; Guestrin, C. 2016. XGBoost: A scalable tree boosting system. In: International Conference on Knowledge Discovery and Data Mining [KDD], 2016, San Francisco, CA, EUA. Anais… p. 785-794.
Dorscheli, R. 2022. Reconsidering digital labour: bringing tech workers into the debate. New Technology, Work and Employment 37(2): 288-307.
Fernández, A.; García, S.; Galar, M.; Prati, R. C.; Krawczyk, B.; Herrera, F. 2018. Learning from imbalanced data sets. ACM Computing Surveys [CSUR] 52(4): 1-36
Friedman, J. H. 2001. Greedy function approximation: A gradient boosting machine. Annals of Statistics 29(5): 1189-1232.
Hand, D. J.; Till, R. J. 2001. A simple generalisation of the area under the ROC curve for multiple class classification problems. Machine Learning 45(2): 171-186.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, Nova Iorque, NY, USA.
He, H.; Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9): 1263-1284.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2013. An introduction to statistical learning: With applications in R. 1ed. Springer, Nova Iorque, NY, USA.
Louppe, G. 2014. Understanding Random Forests: From Theory to Practice. Tese de Doutorado em Ciências da Computação. Universidade de Liège, Liège, Bélgica.
Lundberg, S. M.; Erion, G.; Chen, H.; DeGrave, A.; Prutkin, J. M.; Nair, B.; Katz, R.; Himmelfarb, J.; Bansal, N.; Lee S. 2020. From local explanations to global understanding with explainable AI for trees. Nature Machine Intelligence 2(1): 56-67.
Medcof, J. W. 2001. Resource‐based strategy and managerial power in networks of internationally dispersed technology units. Strategic Management Journal 22(11): 999-1012.
Mitchell, T. R.; Holtom, B. C.; Lee, T. W.; Sablynski, C. J.; Erez, M. 2001. Why people stay: Using job embeddedness to predict voluntary turnover. Academy of Management Journal 44(6): 1102-1121.
Natekin, A.; Knoll, A. 2013. Gradient boosting machines, a tutorial. Frontiers in Neurorobotics 7: 1-21.
Punnoose, R.; Ajit, P. 2016. Prediction of employee turnover in organizations using machine learning algorithms. International Journal of Advanced Research in Artificial Intelligence 5(9): 11-16.
Saura, M. D.; Gómez-Mejía, L. R. 1996. The effectiveness of organization-wide compensation strategies in technology intensive firms. DEE-Working Papers.
Sokolova, M.; Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks. Information Processing & Management 45(4): 427-437.
Tiwari, R.; Buse, S.; Herstatt, C. 2007. Innovation via Global Route: Proposing a Reference Model for Chances and Challenges of Global Innovation Processes. In: International Conference on Globally Distributed Work, 2007, Bangalore, Karnataka, Índia. Anais… p. 451-465.
Wirth, R.; Hipp, J. 2000. CRISP-DM: Towards a Standard Process Model for Data Mining. In: International Conference on the Practical Applications of Knowledge Discovery and Data Mining [PAKD], 2000, Manchester, Reino Unido. Anais… p. 29-40.
World Intellectual Property Organization [WIPO]. 2016. Global Innovation Index 2016: Winning with Global Innovation. Disponível em: https://www. wipo. int/edocs/pubdocs/en/wipopubgii_2016. pdf. Acesso em: 03 abr. 2025.
World Intellectual Property Organization [WIPO]. 2023. Global Innovation Index 2023: Innovation in the face of uncertainty. Disponível em: https://www. wipo. int/edocs/pubdocs/en/wipo-pub-2000-2023-en-main-report-global-innovation-index-2023-16th-edition. pdf. Acesso em: 03 abr. 2025.
Zhang, Y.; Cai, Z.; Fei, H. 2024. Predicting employee turnover in high-tech enterprises using machine learning: Based on the psychological contract perspective. In: International Conference

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade