Artigo

Imagem Previsão de desligamento voluntário e involuntário de colaboradores de uma empresa de bebidas com atuação no Brasil

22 de junho de 2026

Previsão de desligamento voluntário e involuntário de colaboradores de uma empresa de bebidas com atuação no Brasil

Cássia Cristina Marques Wasseda; Auberth Henrik Venson

DOI: 10.22167/2675-6528-2026M19

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação

Resumo

A previsão de desligamentos voluntários e involuntários de colaboradores é crucial para a gestão de talentos em empresas competitivas. Este estudo objetivou prever tais desligamentos em uma empresa de bebidas no Brasil, utilizando técnicas de Machine Learning. Para isso, aplicaram-se regressão logística multinomial e multinível sobre uma base de dados interna de 4.657 colaboradores, abrangendo 153 unidades em 23 estados brasileiros. A metodologia envolveu a coleta e tratamento de dados de Recursos Humanos, desempenho e variáveis contextuais. Os modelos desenvolvidos identificaram que salários mais elevados, maior tempo de empresa, remuneração variável e programas de coaching reduziram a probabilidade de desligamento voluntário. Por outro lado, absenteísmo, horas extras excessivas e medidas disciplinares foram associados positivamente a desligamentos involuntários. O modelo multinível alcançou uma acurácia geral de 82,56%, demonstrando capacidade de capturar efeitos individuais e estruturais. Concluiu-se que a análise preditiva oferece ferramentas estratégicas para a gestão de pessoas, permitindo antecipar riscos e subsidiar ações direcionadas de retenção e engajamento, apesar das limitações inerentes à complexidade do comportamento humano. Palavras-chave: análise preditiva; machine learning; modelo multinível; regressão logística multinomial; retenção.

1. Introdução

O mercado brasileiro de bebidas ocupa uma posição de destaque global, figurando entre os principais consumidores de produtos alcoólicos e não alcoólicos. Este setor dinâmico é sustentado por uma vasta infraestrutura, evidenciada pelos 406.498 estabelecimentos varejistas especializados na venda de bebidas, registrados sob o CNAE 4723-7/100 em 2022 (Sebrae, 2022). Tal cenário ressalta a relevância econômica e a intensa competitividade inerente a esta indústria.

Neste ambiente altamente competitivo, empresas que produzem cervejas e refrigerantes travam uma disputa contínua para conquistar e manter seus clientes. O sucesso neste contexto frequentemente depende de investimentos substanciais em campanhas de marketing e na gestão eficiente dos canais de distribuição, garantindo a disponibilidade e o apelo dos produtos aos consumidores (Panoramas Setoriais 2030 – Bebidas). Contudo, para além das dinâmicas externas de mercado, desafios internos, particularmente aqueles relacionados ao capital humano, impactam significativamente o desempenho e a estabilidade organizacional.

Um dos desafios mais críticos enfrentados pelas organizações, especialmente em setores competitivos, é o desligamento de colaboradores, que pode ser voluntário ou involuntário. Este fenômeno representa uma ameaça substancial à estabilidade organizacional e exige o desenvolvimento de estratégias eficazes para a retenção de talentos. A saída de colaboradores, independentemente do motivo subjacente, gera repercussões financeiras consideráveis e afeta negativamente o desempenho organizacional geral (Cascio, 2006; Mobley, 1982).

A carga financeira associada ao desligamento de funcionários vai além dos custos imediatos de substituição. Quando um colaborador se desliga, a organização incorre em despesas adicionais relacionadas ao recrutamento, seleção e capacitação de novos contratados. Além disso, a alta rotatividade de pessoal pode comprometer severamente a eficiência operacional e diminuir a qualidade dos serviços oferecidos. Este fluxo constante de colaboradores frequentemente desequilibra o ambiente organizacional, impactando diretamente a produtividade e a motivação das equipes. Estudos na área de gestão estratégica indicam que tais efeitos podem levar a perdas financeiras e dificuldades na retenção de conhecimento interno (Davenport, Harris e Shapiro, 2010; Hom et al., 2017).

Diante da importância multifacetada desta questão, a capacidade de antecipar tanto os desligamentos voluntários quanto os involuntários emerge como um imperativo estratégico para as organizações. Prever quais colaboradores possuem maior propensão a pedir demissão ou a serem desligados pela empresa capacita a liderança a agir proativamente na retenção de talentos e no planejamento eficaz da força de trabalho (Mobley, 1977; Allen et al., 2003). Essa antecipação permite a implementação de intervenções direcionadas que podem mitigar as consequências negativas da rotatividade.

Para os desligamentos voluntários, os insights preditivos permitem ajustes oportunos nas políticas de gestão, nos pacotes de benefícios e no clima organizacional geral, aumentando a satisfação e o engajamento dos colaboradores. No contexto dos desligamentos involuntários, a previsão precoce pode apoiar o desenvolvimento de programas de requalificação profissional e estratégias de realocação interna, minimizando os impactos adversos tanto para a empresa quanto para os funcionários. Nesse cenário, as técnicas de Machine Learning oferecem uma abordagem metodológica eficiente para identificar padrões subjacentes e perfis de risco, facilitando processos de tomada de decisão mais informados e eficazes (Bohlander e Snell, 2010; Breiman et al., 1986).

Organizações capazes de estruturar processos analíticos para compreender as causas fundamentais da rotatividade podem transformar esse conhecimento em uma vantagem competitiva significativa (Cascio, 2006; Davenport, Harris e Shapiro, 2010). Este estudo, portanto, justifica-se pela necessidade crítica de ferramentas analíticas avançadas para abordar as complexas dinâmicas de retenção e desligamento de colaboradores em uma empresa de grande porte.

O presente trabalho tem como objetivo aplicar técnicas de Machine Learning supervisionado para prever os desligamentos voluntários e involuntários de colaboradores em um cargo específico de uma empresa de bebidas com atuação em todo o Brasil, utilizando exclusivamente dados internos da organização para identificar padrões e perfis de risco que subsidiem a gestão de pessoas.

2. Material e Métodos

A presente pesquisa caracterizou-se como um estudo quantitativo de natureza preditiva, com o objetivo de aplicar técnicas de Machine Learning supervisionado para antecipar desligamentos voluntários e involuntários de colaboradores. A abordagem metodológica envolveu a coleta e o tratamento de dados internos de uma organização, seguida pela aplicação de modelos estatísticos avançados para identificar padrões e perfis de risco.

O estudo foi conduzido em uma empresa de bebidas com atuação em todo o território brasileiro, abrangendo 153 unidades distribuídas em 23 estados. A unidade de análise concentrou-se em um cargo específico, comum a todas as localidades, totalizando 4.867 colaboradores na base de dados inicial. O período de coleta de dados abrangeu informações de janeiro de 2024 a setembro de 2024, excluindo-se os colaboradores desligados em janeiro de 2024 e os admitidos em setembro de 2024 para garantir a consistência temporal da análise.

As informações necessárias para a construção do modelo foram obtidas de quatro áreas distintas da organização: Recursos Humanos, Remuneração Variável, Produtividade e Planejamento Estratégico. Os dados estavam armazenados em diferentes formatos e plataformas, predominantemente no Microsoft SQL Server (MSSQL) on-premisses, utilizando 13 views e duas tabelas do sistema ERP corporativo. Complementarmente, algumas informações foram coletadas por meio de formulários e planilhas em Excel. Dados referentes à Entrevista de Desligamento foram coletados via modelo semântico do Power BI.

Para assegurar a integridade e a qualidade das informações, realizou-se um processo de tratamento e pré-processamento dos dados. Inicialmente, procedeu-se à extração das variáveis de diversas fontes, consolidando-as em um ambiente único. Em seguida, foi realizada a transformação e padronização do formato de datas, nomes e identificadores, visando à consistência dos dados.

O tratamento de valores ausentes foi executado por meio de estratégias como a remoção de registros incompletos, quando irrelevantes ou em pequena parcela da base, e a imputação de valores utilizando média, mediana ou valor mais frequente, conforme a relevância da informação. Variáveis relacionadas ao tempo foram transformadas para facilitar a análise, incluindo o cálculo de médias para indicadores contínuos e a obtenção de valores acumulados ou do último mês apurado.

Durante a inspeção da base de dados, identificaram-se 296 inconsistências. Destas, 37 registros foram removidos por se referirem a unidades encerradas e não relevantes para a análise. Para os 259 registros com ausência de informação sobre o tipo de veículo, adotou-se a imputação com a categoria mais frequente, considerando o estado e a faixa de quilometragem média. Colaboradores afastados pelo INSS, totalizando 173 observações, foram excluídos devido à sua dinâmica de trabalho diferenciada.

Variáveis como “Motivo de Desligamento”, “Medida de Desligamento”, “Tipo de Desligamento”, “Ocorrências de HE” e “GPS” foram removidas após análise. As variáveis “raça” e “gênero” também foram excluídas para evitar a introdução de vieses discriminatórios na construção do modelo, promovendo maior equidade e imparcialidade. As variáveis quantitativas foram padronizadas utilizando o Z-Score, e as variáveis categóricas foram transformadas em variáveis *dummies*.

A análise de multicolinearidade foi realizada por meio do Fator de Inflação da Variância (VIF) para as variáveis preditoras, garantindo que não houvesse alta correlação entre elas (Fávero e Belfiore, 2024). As variáveis finais consideradas para o modelo incluíram: Salário, Idade, Absenteísmo, Horas Extras, Tempo de Empresa, Entrevista Desligamento Liderança, Entrevista Desligamento Nota, Resultado, Remuneração Variável, Quantidade de Movimentações, Eficiência, Coaching Médio, KM, Estado Civil, Medida Disciplinar e Veículo.

Para a análise dos dados, utilizaram-se duas abordagens de modelagem estatística: a regressão logística multinomial tradicional e a regressão logística multinomial multinível. A regressão logística multinomial tradicional foi implementada em Python, utilizando a IDE Spyder, para estimar os efeitos fixos das variáveis explicativas sobre a variável dependente “Situação”, que possuía três desfechos: Ativo, Pedido de Demissão e Desligado.

A modelagem multinível, por sua vez, reconheceu a estrutura hierárquica dos dados, com observações agrupadas em diferentes níveis (colaboradores dentro de unidades de atuação, e unidades dentro de estados). Este modelo permitiu estimar simultaneamente efeitos fixos e efeitos aleatórios, capturando variações contextuais relevantes para o desligamento dos colaboradores (Fávero e Belfiore, 2024). O modelo foi ajustado por meio de técnicas de máxima verossimilhança e bayesianas.

3. Resultados e Discussão

A consolidação do conjunto de dados para a análise preditiva de desligamentos de colaboradores foi realizada a partir da integração de múltiplas fontes de informação da área de Recursos Humanos. Especificamente, foram utilizadas treze views e duas tabelas do SQL Server, provenientes do sistema ERP corporativo, as quais continham dados estruturados detalhados sobre os colaboradores da empresa. Para otimizar o desempenho do processo de extração e facilitar futuras execuções, implementou-se uma Common Table Expression (CTE) em SQL, que permitiu organizar a lógica de transformação dos dados de forma mais legível, modular e eficiente, aplicando regras de filtragem por período de análise e padronização de variáveis essenciais.

As informações coletadas abrangeram diversas áreas, incluindo Recursos Humanos, Remuneração Variável, Produtividade e Planejamento Estratégico. Dados específicos da Entrevista de Desligamento foram obtidos por meio de um modelo semântico no Power BI, enquanto as variáveis de Remuneração Variável e Resultado foram extraídas de views dedicadas. Informações sobre Coaching, Eficiência, GPS e Veículo foram consolidadas em planilhas Excel. O processo de pré-processamento inicial dos dados envolveu o carregamento e a estruturação das informações, garantindo a qualidade e consistência necessárias para as análises subsequentes, com verificações estruturais, identificação de tipos de variáveis e análise de estatísticas descritivas básicas.

Durante o pré-processamento, as variáveis categóricas foram convertidas para um formato que representasse atributos qualitativos, otimizando o armazenamento e a interpretação estatística. Identificou-se e removeu-se 173 observações de colaboradores afastados pelo INSS, cujas dinâmicas de trabalho, como ausência de horas extras e remuneração variável zerada, poderiam distorcer os resultados. Na inspeção da base, foram encontradas 296 inconsistências, das quais 37 registros referentes a unidades encerradas foram removidos. Para os 259 registros com ausência de informação sobre o tipo de veículo, adotou-se a imputação pela categoria mais frequente, considerando o estado e a faixa de quilometragem média.

A avaliação do desbalanceamento das variáveis categóricas também foi realizada, e categorias semelhantes foram unificadas para garantir uma distribuição mais equilibrada e evitar comprometimento da qualidade do modelo. Após essa etapa, foram removidas variáveis como Motivo de Desligamento, Medida de Desligamento, Tipo de Desligamento, Ocorrências de Horas Extras e GPS. As variáveis Raça e Gênero foram excluídas para evitar a introdução de vieses discriminatórios, assegurando maior equidade na análise. As variáveis quantitativas foram padronizadas pelo Z-Score, e as categóricas transformadas em variáveis dummies, seguido pela aplicação do Fator de Inflação da Variância (VIF) para verificar a multicolinearidade, com todos os valores abaixo de 2,38, indicando ausência de problemas significativos (Fávero e Belfiore, 2024).

A análise exploratória inicial dos dados revelou padrões e tendências importantes. A distribuição do desempenho, atrelada à Remuneração Variável (RV) por Unidade Federativa (UF), indicou que a categoria de colaboradores Ativos apresentava maior concentração em níveis de desempenho mais altos. Em contrapartida, as categorias Pedido de Demissão e Desligado tendiam a se concentrar em níveis de desempenho mais baixos, sugerindo que o desempenho é um fator relevante na determinação da situação do colaborador. Essa observação preliminar sublinha a importância de considerar o desempenho como um preditor significativo nos modelos de desligamento.

A distribuição das horas extras médias do período em relação à situação do colaborador também foi avaliada. Os dados indicaram que, em média, os colaboradores que deixaram a organização, seja por iniciativa própria ou por desligamento, realizavam menos horas extras do que aqueles que permaneciam ativos. Contudo, a presença de outliers em ambos os tipos de saída, com colaboradores que acumulavam mais horas extras do que a média dos ativos, sugere uma dinâmica complexa. A análise por UF revelou padrões distintos de horas extras, com o Estado 13 apresentando maior volumetria para desligados e o Estado 4 para pedidos de desligamento, enquanto os Estados 6 e 7 mostraram maior média para ativos, reforçando a necessidade de um modelo que capture esses efeitos locais.

Para identificar relações lineares fortes e potenciais multicolinearidades, foi realizada uma análise de correlação entre as variáveis. Uma matriz de correlação de Pearson foi construída utilizando variáveis numéricas padronizadas, e as variáveis categóricas foram tratadas com LabelEncoder. Embora a matriz com One-Hot Encoding também tenha sido gerada, optou-se por manter a matriz com LabelEncoder no corpo do trabalho devido à sua maior compactação e viabilidade para apresentação. Essa etapa foi crucial para garantir que as variáveis preditoras não fossem altamente correlacionadas, um requisito fundamental para a robustez dos modelos estatísticos.

A avaliação do modelo de regressão logística multinomial (MNLogit) visou identificar os fatores associados à variável categórica “Situação”, que descreve o vínculo dos colaboradores com a organização em três categorias: Ativo, Pedido de Demissão e Desligado. O modelo foi ajustado com base em 4.657 observações e 50 variáveis explicativas, sendo a categoria “Ativo” utilizada como referência. O modelo convergiu com sucesso, conforme indicado pelos resultados, demonstrando estabilidade na estimação dos parâmetros por máxima verossimilhança. O valor do Pseudo R² de McFadden foi de 0,2840, o que sugere que aproximadamente 28% da variabilidade na variável dependente é explicada pelas covariáveis incluídas no modelo, um valor considerado aceitável em contextos aplicados de fenômenos organizacionais complexos (Menard, 2002).

O teste de razão de verossimilhança (Log-Likelihood Ratio Test), com um p-valor inferior a 0,001, confirmou que o modelo como um todo é estatisticamente significativo, oferecendo uma melhoria substancial em relação a um modelo nulo. Para a categoria “Pedido de Demissão”, os resultados indicaram que salários mais elevados estão significativamente associados a uma menor probabilidade de desligamento voluntário, com um coeficiente de -0,3984 (p < 0,001). Similarmente, um maior tempo de empresa demonstrou um forte efeito protetivo, com coeficiente de -0,8094 (p < 0,001), indicando que colaboradores com maior tempo de casa são menos propensos a pedir demissão.

A remuneração variável (RV_9m) e os deslocamentos realizados (KM_9m) também apresentaram associações negativas e altamente significativas com a intenção de saída, com coeficientes expressivos (p < 0,001). A mentoria fornecida aos profissionais, representada pela variável Coaching Médio, exibiu um efeito negativo relevante (coeficiente de -0,4581; p < 0,001), reforçando a importância do suporte gerencial contínuo na retenção de talentos. Por outro lado, a variável Horas Extras apresentou uma associação positiva (coeficiente de 0,2101; p = 0,013), sugerindo que a sobrecarga de trabalho pode aumentar a propensão à saída voluntária.

No que tange ao grau de instrução, colaboradores com pós-graduação incompleta apresentaram uma maior propensão ao pedido de desligamento voluntário, com um coeficiente de 1,9544 (p = 0,004). Esse achado pode indicar frustrações relacionadas às expectativas de desenvolvimento profissional ou um desalinhamento entre a qualificação do colaborador e as oportunidades internas de crescimento, conforme discutido por Menezes e Bastos (2010). Embora com menor significância estatística, colaboradores com ensino superior completo ou pós-graduação completa também exibiram coeficientes positivos, o que pode reforçar a hipótese de um possível desencaixe entre o perfil profissional e as exigências da função.

Para a categoria “Desligado” (desligamento involuntário), o salário manteve seu papel protetivo, com um coeficiente de -0,3815 (p < 0,001), indicando que salários mais altos reduzem a probabilidade de desligamento pela empresa. A remuneração variável (RV_9m), a quantidade de movimentações (Qtd Movim_9m), o coaching médio e o reembolso de quilometragem (KM_9m) também demonstraram efeitos protetivos significativos, com p-valores inferiores a 0,001, corroborando a importância desses fatores para a permanência do colaborador na organização. O uso de motocicleta como tipo de veículo também se mostrou um fator protetivo, com coeficiente de -0,7754 (p < 0,001) para desligamentos involuntários.

Em contraste, o absenteísmo e as horas extras mostraram-se positivamente associados ao desligamento involuntário, com coeficientes de 0,2661 e 0,3029, respectivamente (p < 0,001), sinalizando que esses comportamentos podem ser indicadores de risco para a empresa. A presença de medidas disciplinares apresentou um coeficiente positivo e altamente significativo de 0,7301 (p = 0,001), o que está em conformidade com a expectativa de que comportamentos inadequados resultem em desligamentos involuntários. Notavelmente, o tempo de empresa, que foi protetivo para desligamentos voluntários, apresentou um coeficiente positivo de 0,1611 (p = 0,009) para desligamentos involuntários, sugerindo que, em alguns contextos, um tempo de empresa mais longo pode estar associado a uma maior probabilidade de desligamento pela organização.

A acurácia geral do modelo de regressão logística multinomial foi de 81%, impulsionada pela alta performance na classe Ativo, que obteve uma precisão de 0,85, recall de 0,97 e F1-Score de 0,90. Contudo, as classes Pedido de Demissão e Desligado apresentaram desempenho inferior, com recall baixo (0,30 e 0,24, respectivamente), indicando a dificuldade do modelo em identificar corretamente esses casos. A média ponderada do F1-score foi de 0,78, enquanto a média macro (que trata todas as classes igualmente) foi de apenas 0,54, evidenciando um desequilíbrio no desempenho entre as classes (Saito; Rehmsmeier, 2015).

A matriz de confusão revelou 3494 acertos na classe Ativo, mas também uma alta taxa de falsos positivos para as classes Pedido e Desligado, com muitos casos dessas classes sendo erroneamente classificados como Ativo. As curvas ROC indicaram boa capacidade discriminativa para as classes Ativo (AUC = 0,87) e Pedido (AUC = 0,85), e desempenho satisfatório para a classe Desligado (AUC = 0,84). A posição das curvas acima da linha diagonal sugere que o modelo é eficaz em distinguir entre as diferentes situações dos colaboradores, apesar das limitações na identificação de eventos de desligamento.

A avaliação do modelo de regressão logística multinomial multinível reconheceu a organização hierárquica dos colaboradores por unidade e estado, incorporando efeitos fixos de variáveis individuais e efeitos aleatórios nos níveis de unidade organizacional (CdCentroCusto_Ger) e estado (UF_Ajuste). Os parâmetros estimados indicaram uma variação significativa entre esses grupos, tanto nos interceptos quanto nos efeitos das variáveis explicativas. Os centros de custo e as unidades federativas exibiram desvios padrão consideráveis para os efeitos aleatórios, evidenciando características próprias que influenciam o resultado e a necessidade de modelar esses agrupamentos para evitar generalizações indevidas (Fávero e Belfiore, 2024).

O bom ajuste do modelo multinível foi comprovado pelos valores próximos de 1 para o parâmetro Rhat e pelos elevados valores do Effective Sample Size, que indicam a robustez e a confiabilidade das estimativas. As correlações entre interceptos e efeitos das variáveis dentro de cada nível, embora baixas, contribuíram para capturar a independência relativa desses componentes, aumentando a precisão e a interpretação dos resultados. Os principais efeitos protetivos relacionados às variáveis individuais permaneceram consistentes com aqueles identificados no modelo de regressão logística tradicional, reforçando a robustez das associações previamente observadas, mesmo com a inclusão da estrutura multinível.

A comparação entre o modelo multinível e o modelo tradicional revelou um desempenho superior do modelo multinível. A acurácia geral do modelo multinível foi de 82,56%, um aumento de 1,85% em relação ao modelo tradicional (81,06%). Houve melhorias significativas no F1-score para a classe Pedido (0,43 vs. 0,38, um aumento de 13,16%) e para a classe Desligado (0,42 vs. 0,33, um aumento de 27,27%). O índice Kappa também apresentou um ganho de 15,98% (0,4304 vs. 0,3711), e o Log-Likelihood melhorou em 4,45% (-2197,8 vs. -2300,1), reforçando a maior capacidade de ajuste e discriminação do modelo multinível.

O índice Kappa de 0,4304, embora a acurácia aparente seja alta, indica uma concordância moderada entre as previsões e a realidade, especialmente devido à baixa sensibilidade para as classes de desligamento voluntário (34,6%) e involuntário (31,1%), que possuem baixa prevalência e são pouco reconhecidas pelo modelo. Em contraste, a sensibilidade para a classe Ativo foi alta (97,1%). A matriz de confusão do modelo multinível confirmou a alta acurácia na classe Ativo, com 3501 acertos, mas ainda evidenciou uma taxa considerável de falsos positivos para as classes Pedido e Desligado, que foram classificadas como Ativo, indicando que o modelo ainda apresenta desafios na identificação precisa dos casos de saída.

Em síntese, os resultados da pesquisa demonstram que o modelo preditivo desenvolvido é capaz de transformar dados internos de RH em inteligência estratégica, identificando fatores individuais e estruturais que influenciam os desligamentos. Salários mais elevados, maior tempo de empresa, remuneração variável, programas de coaching e mobilidade interna foram consistentemente associados a uma menor probabilidade de desligamento voluntário e, em sua maioria, involuntário. Por outro lado, absenteísmo, horas extras excessivas e medidas disciplinares foram identificados como fatores de risco para desligamentos involuntários. O modelo multinível, com acurácia de 82,56%, mostrou-se superior ao modelo tradicional, capturando variações contextuais e oferecendo uma ferramenta estratégica para a gestão de pessoas, permitindo antecipar riscos e subsidiar ações direcionadas de retenção e engajamento, apesar das limitações inerentes à complexidade do comportamento humano e ao desequilíbrio das classes de desligamento.

4. Conclusão

O presente estudo buscou analisar e predizer os desligamentos voluntários e involuntários de colaboradores em um cargo específico de uma empresa de bebidas no Brasil, por meio da aplicação de técnicas de Machine Learning sobre dados internos. Verificou-se que salários mais elevados, maior tempo de empresa, remuneração variável e programas de coaching reduziram a probabilidade de desligamento voluntário. Em contrapartida, absenteísmo, horas extras excessivas e medidas disciplinares foram associados positivamente a desligamentos involuntários. Observou-se que pedidos voluntários tenderam a ocorrer entre colaboradores mais qualificados, sobrecarregados ou com baixa percepção de valorização, enquanto desligamentos pela empresa foram mais frequentes entre aqueles com histórico de absenteísmo, medidas disciplinares ou menor estabilidade interna. O modelo multinível desenvolvido, com acurácia geral de 82,56%, demonstrou capacidade de capturar tanto os efeitos individuais quanto as variações estruturais por unidade e estado, oferecendo uma ferramenta estratégica valiosa para a gestão de pessoas. Essa abordagem transforma dados internos em inteligência acionável, permitindo antecipar riscos e subsidiar ações direcionadas de retenção e engajamento.

Apesar dos avanços alcançados, o estudo reconhece as limitações inerentes à complexidade do comportamento humano e organizacional. Notou-se que o modelo apresentou desafios na previsão de desligamentos, tanto voluntários quanto involuntários, devido ao desequilíbrio entre as classes e à baixa prevalência dos eventos de saída, o que resultou em sensibilidade reduzida para essas categorias. Fatores subjetivos, como clima organizacional, qualidade das relações interpessoais e satisfação no trabalho, que influenciam as decisões de desligamento, não foram plenamente capturados pelos dados quantitativos utilizados. Para estudos futuros, sugere-se revisitar e incorporar variáveis que possam abranger esses aspectos subjetivos e contextuais. Recomenda-se também a avaliação de modelos alternativos de aprendizado supervisionado, como Random Forest e XGBoost, que podem oferecer ganhos adicionais de desempenho e robustez na identificação de padrões de desligamento.

Referências Bibliográficas

Allen, D.G.; Shore, L.M.; Griffeth, R.W. 2003. The role of perceived organizational support and supportive human resource practices in the turnover process. Journal of Management 29(1): 99-118.

Banco Nacional de Desenvolvimento Econômico e Social [BNDES]. 2017. Panoramas Setoriais 2030: Bebidas. Disponível em: BNDES_PANORAMAS+SETORIAIS+2030_completo.pdf. Acesso em: 14/09/2025.

Bohlander, G.W.; Snell, S.A. 2010. Managing Human Resources. 15ed. Cengage Learning, Boston, MA, EUA.

Breiman, L.; Friedman, J. H.; Olshen, R. A.; Stone, C. J. 1986. Classification and Regression Trees. Wadsworth & Brooks/Cole, Belmont, EUA.

Cascio, W.F. 2006. Managing Human Resources: Productivity, Quality of Work Life, Profits. 7ed. McGraw-Hill, Nova York, EUA.

Davenport, T.H.; Harris, J.G.; Shapiro, J. 2010. Competing on Analytics: The New Science of Winning. Harvard Business Press, Boston, MA, EUA.

Fávero, L.; Belfiore, P. 2024. Manual de Análise de Dados: Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. LTC, Rio de Janeiro, Brasil.

Hom, P.W.; Lee, T.W.; Shaw, J.D.; Hausknecht, J.P. 2017. One hundred years of employee turnover theory and research. Journal of Applied Psychology 102(3): 530-545.

Menard, S. 2002. Applied Logistic Regression Analysis. 2ed. Sage Publications, Thousand Oaks, EUA.

Menezes, M.I.; Bastos, A.V.B. 2010. Comprometimento organizacional: uma análise crítica das dimensões afetiva, normativa e instrumental. Revista de Administração Contemporânea 14(4): 300-315.

Mobley, W.H. 1982. Employee Turnover: Causes, Consequences, and Control. Addison-Wesley, Reading, MA, EUA.

Saito, T.; Rehmsmeier, M. 2015. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS ONE 10(3): e0118432.

Serviço Brasileiro de Apoio às Micro e Pequenas Empresas [Sebrae]. 2022. Sebrae em dados: comércio varejista de bebidas. Disponível em: https://sebraepr.com.br/comunidade/artigo/sebrae-em-dados-comercio-varejista-de-bebidas. Acesso em: 05 set. 2025.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade