
19 de fevereiro de 2026
Agrupamento de empresas para apoio à decisão de carreira em tecnologia da informação
Renato Francisco Ferreira; João Vitor Matos Gonçalves
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A abordagem metodológica foi estruturada em três etapas sequenciais para garantir uma análise aprofundada e robusta. A primeira etapa consistiu na análise exploratória e na aplicação de algoritmos de clusterização de forma individual a cada um dos dois datasets selecionados, permitindo a identificação de padrões e características intrínsecas a cada fonte de dados. Na segunda etapa, os datasets foram integrados através de uma operação de inner join, baseada nos nomes das empresas, para criar um conjunto de dados unificado que foi submetido a uma nova rodada de clusterização. A terceira e última etapa envolveu uma análise comparativa e aprofundada dos resultados obtidos em todas as fases, buscando identificar insights acionáveis para profissionais em processo de tomada de decisão de carreira.
A escolha por algoritmos de clusterização não supervisionada, especificamente o K-means, justifica-se pela natureza exploratória do problema; não existem categorias pré-definidas de empresas, mas sim a necessidade de descobrir agrupamentos naturais e estruturas inerentes aos dados (Ezugwu et al., 2022). Esta abordagem permite uma compreensão mais profunda do panorama empresarial no setor de tecnologia da informação, revelando tipologias organizacionais que transcendem as classificações tradicionais. A determinação do número ótimo de clusters em cada análise foi realizada utilizando uma combinação do método do cotovelo (Elbow Method) com a análise de silhueta, uma abordagem metodologicamente recomendada para a validação de resultados em clustering não supervisionado (Rousseeuw, 1987).
A implementação dos algoritmos de machine learning foi conduzida com um rigoroso processo de pré-processamento de dados, adaptado às características de cada dataset. Para o conjunto “IT Job Markets”, que continha informações textuais não estruturadas nas colunas “highlyratedfor” e “criticallyratedfor”, foi desenvolvida uma abordagem de transformação de características baseada no conceito de polaridade de sentimento (Pang & Lee, 2008). Esta técnica consistiu na extração dos aspectos mais frequentemente mencionados nas avaliações, seguindo o princípio de sumarização estruturada (Liu, 2012), e na sua codificação numérica: +1 para aspectos positivos, -1 para aspectos negativos e 0 para ausência de menção, permitindo a quantificação da percepção dos funcionários.
Para o dataset “Glassdoor Companies”, o pré-processamento focou em variáveis estruturais e demográficas. Variáveis numéricas, como avaliações e contagens de vagas, foram submetidas à transformação logarítmica (log(x+1)) para reduzir a assimetria e estabilizar a variância, uma etapa crucial para algoritmos baseados em distância como o K-means, que são sensíveis à escala e distribuição dos dados (Osborne, 2002; Mueller & Massaron, 2018). Variáveis categóricas nominais, como localização e setor industrial, foram padronizadas e codificadas através de one-hot encoding, técnica que converte categorias em vetores binários para evitar a imposição de uma ordem artificial e garantir que cada categoria contribua de forma independente para o cálculo de similaridade (Müller & Guido, 2016). Finalmente, todas as features numéricas foram padronizadas utilizando StandardScaler, que transforma os dados para que tenham média zero e variância unitária, evitando que atributos com maiores escalas dominem o processo de clusterização (Han; Kamber; Pei, 2012).
A etapa de análise integrada, que uniu os dois datasets, apresentou um desafio metodológico significativo. A aplicação inicial de uma padronização uniforme (StandardScaler) a todas as features concatenadas resultou em uma clusterização dominada pelas variáveis de sentimento organizacional (codificadas como -1, 0, +1), mascarando a contribuição das variáveis quantitativas e replicando os resultados da análise individual do primeiro dataset. Este fenômeno, conhecido como dominância por “lacunas de distância” em dados mistos (Hennig & Liao, 2013), exigiu uma abordagem mais sofisticada. Após descartar alternativas como a categorização total das variáveis, que levaria à perda de informação e ao aumento da dimensionalidade (Dougherty et al., 1995; Beyer et al., 1999), foi implementada uma metodologia de pré-processamento diferenciado por blocos conceituais.
Esta abordagem avançada consistiu em dividir as features em três blocos: organizacional (dimensões textuais), contínuo (ratings e métricas de contagem) e categórico (porte, setor). Cada bloco recebeu um tratamento específico: MinMaxScaler para o bloco organizacional, para preservar a interpretabilidade ordinal; StandardScaler para o bloco contínuo, para normalização estatística; e One Hot Encoder para o bloco categórico. Adicionalmente, foram atribuídos pesos a cada bloco (40% organizacional, 40% contínuo, 20% categórico) para garantir uma contribuição equilibrada das diferentes fontes de informação, uma prática recomendada para ponderação de features em clustering (Modha & Spangler, 2003). Esta correção metodológica foi fundamental para revelar uma estrutura de agrupamento mais rica e precisa.
A análise individual do dataset “IT Job Markets” revelou uma segmentação do setor de TI em dois grupos distintos. O Cluster 0 (42,3% da amostra), denominado “Empresas com Ambiente Organizacional Desafiador”, apresentou um rating médio inferior (3,60) e um padrão de insatisfação sistêmica. As críticas foram massivas em relação a “Promoções e Avaliação” (94,9%) e elevadas para “Salário e Benefícios” (43,0%), enquanto os aspectos valorizados, como “Segurança no Emprego” (16,7%), apareceram com frequência muito baixa. Este perfil sugere organizações que operam sob modelos de liderança em custos (Porter, 1980); a eficiência operacional pode comprometer o investimento em capital humano, um padrão observado em grandes prestadoras globais de serviços de TI (Athreye, 2005; Dossani & Kenney, 2007). Em contraste, o Cluster 1 (57,7% da amostra), “Empresas com Ambiente Organizacional Favorável”, exibiu um rating médio superior (4,12) e altas frequências de valorização para “Cultura Organizacional” (66,4%), “Segurança no Emprego” (60,4%) e “Equilíbrio Trabalho-Vida” (59,5%). Este perfil alinha-se com a literatura sobre organizações de alto desempenho que integram práticas de gestão para alcançar tanto objetivos operacionais quanto a satisfação dos funcionários (Pfeffer, 1998; Huselid, 1995).
A análise do dataset “Glassdoor Companies”, após uma análise de sensibilidade que levou à exclusão de variáveis salariais para evitar o “missing data bias” (Little & Rubin, 2019), identificou quatro clusters com perfis estruturais distintos. O Cluster 2 emergiu como o grupo de excelência, com o maior rating médio (4,21), composto predominantemente por empresas de médio porte e menor visibilidade pública. Este achado corrobora o fenômeno da “vantagem do anonimato”; empresas menores frequentemente apresentam maior satisfação devido à menor burocratização e maior proximidade relacional (Gazioglu & Tansel, 2006). O Cluster 1 foi composto exclusivamente por megacorporações com ratings moderados (3,85), refletindo os desafios de escala, como burocracia e deseconomias de escala (Weber, 1947; Mintzberg, 1983). No entanto, outliers positivos como NASA e NVIDIA demonstraram que práticas de gestão deliberadas podem superar essas limitações estruturais. O Cluster 3 representou o grupo de performance inferior, com os ratings mais baixos (3,70) e um perfil de instabilidade organizacional, desalinhamento estratégico e gestão de escala problemática (Greiner, 1998; Probst & Brubaker, 2001).
A análise integrada, utilizando a metodologia de pré-processamento por blocos, revelou uma estrutura organizacional ainda mais granular, com quatro clusters. O Cluster 1 (30,9%), “Líderes em Satisfação Organizacional Integral”, representou o padrão de excelência, com o rating mais alto (4,17), ausência de críticas dominantes e alta valorização simultânea de cultura, equilíbrio e segurança, alinhando-se perfeitamente aos sistemas de trabalho de alto desempenho (Huselid, 1995). O Cluster 0 (30,0%), “Empresas de Excelência Cultural Resiliente”, apresentou um perfil paradoxal: críticas unânimes sobre promoções, mas alta valorização da cultura e do equilíbrio trabalho-vida. Este fenômeno é explicado pela literatura sobre career plateau; fatores como um ambiente de apoio podem mitigar os efeitos negativos da estagnação hierárquica (Chao, 1990; Armstrong-Stassen, 2008).
O Cluster 2 (12,4%), “Segmento de Transição Corporativa”, incluiu megacorporações como Amazon e IBM, caracterizadas por ratings intermediários e altíssima atividade de recrutamento. Este perfil sugere organizações em processo de transformação, enfrentando tensões entre sistemas de gestão tradicionais e as demandas por maior agilidade, um desafio comum em empresas estabelecidas que buscam a modernização (Kotter, 1996; Kane et al., 2019). Por fim, o Cluster 3 (26,7%), “Ambiente Organizacional Sistemicamente Problemático”, concentrou empresas com os ratings mais baixos (3,51) e críticas generalizadas em múltiplas dimensões (promoções, satisfação, segurança). Este grupo exemplifica organizações onde a busca por crescimento e eficiência operacional ocorre em detrimento de práticas sustentáveis de bem-estar, por vezes exibindo uma discrepância entre a imagem corporativa e a experiência real dos funcionários, um fenômeno conhecido como hipocrisia organizacional (Brunsson, 1989).
A comparação entre a abordagem de análise integrada inicial e a corrigida demonstrou um refinamento analítico significativo, com um aumento de 100% na granularidade (de 2 para 4 clusters). Esta melhoria permitiu distinções cruciais, como a separação entre excelência cultural com limitações de carreira (Cluster 0) e excelência integral (Cluster 1), e a identificação de um segmento de empresas em transição com potencial de melhoria (Cluster 2). As implicações para decisões de carreira são diretas: profissionais podem agora avaliar empresas não apenas por sua reputação, mas pelo perfil organizacional que melhor se alinha às suas prioridades, sejam elas cultura, progressão de carreira, estabilidade ou potencial de crescimento em ambientes de transformação.
Para profissionais que buscam excelência no ambiente de trabalho, a recomendação é priorizar empresas do Cluster 2 da análise do Glassdoor (médio porte, alta satisfação) ou os outliers positivos dos clusters de megacorporações que demonstram investimento deliberado em cultura. Para quem prioriza estabilidade, as grandes corporações dos Clusters 0 e 1 (Glassdoor) são opções viáveis, mas é crucial investigar as práticas de gestão específicas para identificar as exceções de alto desempenho. A análise integrada refina ainda mais essa orientação: o Cluster 1 (integrado) representa o ideal para quem busca desenvolvimento e cultura, enquanto o Cluster 0 (integrado) é adequado para quem valoriza um ambiente de apoio e equilíbrio, mesmo com progressão de carreira mais lenta, alinhando-se a âncoras de carreira de “estilo de vida” e “segurança” (Schein, 1990).
As limitações do estudo incluem a natureza pontual da análise, que não captura dinâmicas evolutivas, e o foco no setor de tecnologia, que pode restringir a generalização dos resultados. Direções futuras de pesquisa incluem a realização de análises longitudinais para acompanhar a evolução de empresas em transição, o desenvolvimento de modelos preditivos para classificar novas empresas e a validação cruzada dos padrões identificados em outros setores industriais.
Em suma, a implementação de algoritmos de machine learning, especialmente quando combinada com uma metodologia de pré-processamento avançada, demonstrou ser uma ferramenta poderosa para decodificar a complexidade do mercado de trabalho. A análise revelou que a satisfação dos funcionários é um construto multidimensional; fatores como cultura organizacional, práticas de RH e estabilidade estrutural desempenham papéis cruciais que não são capturados por avaliações numéricas isoladas. A pesquisa fornece um framework analítico que permite aos profissionais tomar decisões de carreira mais informadas, baseadas em uma compreensão profunda dos diferentes arquétipos organizacionais existentes no setor de tecnologia. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de algoritmos de clusterização com pré-processamento avançado revela perfis organizacionais multidimensionais que oferecem um suporte à decisão de carreira superior a métricas de avaliação isoladas.
Referências:
AGGARWAL, C. C.; REDDY, C. K. Data Clustering: Algorithms and Applications. Boca Raton: CRC Press, 2014.
AKZONOBEL. Careers: top employer recognition. Disponível em: https://www. akzonobel. com/en/careers. Acesso em: 24 set. 2025.
ALLEN, T. D. et al. Learning and development factors related to perceptions of job content and hierarchical plateauing. Journal of Organizational Behavior, v. 20, n. 7, p. 1113-1137, 1999.
APPELBAUM, S. H.; SANTIAGO, V. Career development in the plateaued organization. Career Development International, v. 2, n. 1, p. 11-20, 1997. DOI: 10.1108/13620439710157434.
ARMSTRONG-STASSEN, M. Factors associated with job content plateauing among older workers. Career Development International, v. 13, n. 7, p. 594-613, 2008.
ARTHUR, Michael B.; ROUSSEAU, Denise M. (org.). The Boundaryless Career: A New Employment Principle for a New Organizational Era. New York: Oxford University Press, 1996.
ATHREYE, S. The Indian Software Industry and its Evolving Service Capability. Industrial and Corporate Change, v. 14, n. 3, p. 393–418, 2005.
BARLEY, Stephen R.; KUNDA, Gideon. Gurus, Hired Guns, and Warm Bodies: Itinerant Experts in a Knowledge Economy. Princeton: Princeton University Press, 2004.
BARNEY, J. Firm Resources and Sustained Competitive Advantage. Journal of Management, v. 17, n. 1, p. 99-120, 1991.
BEYER, K.; GOLDSTEIN, J.; RAMAKRISHNAN, R.; SHAFT, U. When is “nearest neighbor” meaningful? In: International Conference on Database Theory. Berlin: Springer, 1999. p. 217-235.
BHARTI, K. K.; SINGH, P. K. Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering. Expert Systems with Applications, v. 42, n. 6, p. 3105-3114, 2015
BLAU, P. M. A formal theory of differentiation in organizations. American Sociological Review, v. 35, n. 2, p. 201-218, 1970.
BOCK, Laszlo. Work rules!: Insights from inside Google that will transform how you live and lead. New York: Twelve, 2015.
BRUNSSON, Nils. The Organization of Hypocrisy: Talk, Decisions and Actions in Organizations. Chichester: John Wiley & Sons, 1989
CABLE, D. M.; TURBAN, D. B. The value of organizational reputation in the recruitment context: a brand-equity perspective. Journal of Applied Social Psychology, v. 33, n. 11, p. 2244-2266, 2003.
CHAO, G. T. Exploration of the conceptualization and measurement of career plateau: A comparative analysis. Journal of Management, v. 16, n. 1, p. 181-193, 1990.
DOUGHERTY, J.; KOHAVI, R.; SAHAMI, M. Supervised and unsupervised discretization of continuous features. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML), 12., 1995, Tahoe City. Proceedings… San Francisco: Morgan Kaufmann, 1995. p. 194-202.
DOSSANI, R.; KENNEY, M. The Next Wave of Globalization: Relocating Service Provision to India. World Development, v. 35, n. 5, p. 772–791, 2007.
EZUGWU, A. E.; IKOTUN, A. M.; OYELADE, O. O.; ABUALIGAH, L.; AGUSHAKA, J. O.; EKE, C. I.; AKINYELU, A. A. A comprehensive survey of clustering algorithms: State-of-the-art machine learning applications, taxonomy, challenges, and future research prospects. Engineering Applications of Artificial Intelligence, v. 110, p. 104743, 2022.
FREIXO, Laureano. Das fontes de satisfação no trabalho à satisfação organizacional: estudo em duas empresas do setor metalúrgico do norte do país. 2010. 116 f. Dissertação (Mestrado em Psicologia Social) – Universidade Fernando Pessoa, Porto, 2010. Disponível em: https://bdigital. ufp. pt/bitstreams/3a06aa0d-21a2-4ea3-8c96-a350084e21d8/download. Acesso em: 29 set 2025.
GAUTHIER, D. Glassdoor Job Reviews Dataset. Kaggle, 2023. Disponível em: https://www. kaggle. com/datasets/davidgauthier/glassdoor-job-reviews. Acesso em: 16 set 2025.
GAZIOGLU, S.; TANSEL, A. Management-employee relations, firm size and job satisfaction. International Journal of Manpower, v. 37, n. 8, p. 1260-1275, 2006.
GLASSDOOR. Kellton Employee Experience. Disponível em: https://www. glassdoor. com/Overview/Working-at-Kellton-EI_IE727686.11,18. htm. Acesso em: 24 set. 2025.
GREENBERG, Jerald; BARON, Robert A. Behavior in Organizations. 8. ed. Upper Saddle River: Prentice Hall, 2003.
GREENHAUS, Jeffrey H.; BEUTELL, Nicholas J. Sources of Conflict Between Work and Family Roles. Academy of Management Review, v. 10, n. 1, p. 76–88, 1985.
GREINER, Larry E. Evolution and Revolution as Organizations Grow. Harvard Business Review, v. 50, n. 4, p. 37–46, 1972. Republicado em 1998.
GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. Journal of Machine Learning Research, v. 3, p. 1157-1182, 2003.
HACKMAN, J. Richard; OLDHAM, Greg R. Motivation through the Design of Work: Test of a Theory. Organizational Behavior and Human Performance, v. 16, n. 2, p. 250–279, 1976.
HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. 3. ed. Waltham: Morgan Kaufmann, 2012.
HENNIG, Christian; LIAO, Tim F. How to find an appropriate clustering for mixed-type variables with application to socio-economic stratification. Journal of the Royal Statistical Society: Series C (Applied Statistics), v. 62, n. 3, p. 309-369, 2013.
HERZBERG, F.; MAUSNER, B.; SNYDERMAN, B. B. The Motivation to Work. New York: Wiley, 1959.
HUANG, Z. Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values. Data Mining and Knowledge Discovery, v. 2, n. 3, p. 283-304, 1998.
HUSELID, M. A. The impact of human resource management practices on turnover, productivity, and corporate financial performance. Academy of Management Journal, v. 38, n. 3, p. 635-672, 1995.
JOYSHIL0599. Glassdoor Company Insights – Scraped Data Collection. Kaggle, 2023. Disponível em: https://www. kaggle. com/datasets/joyshil0599/glassdoor-company-insightsscraped-data-collection. Acesso em: 16 set 2025.
KANE, G. C.; PHILLIPS, A. N.; COPULSKY, J.; ANDRUS, G. The Technology Fallacy: How People Are the Real Key to Digital Transformation. Cambridge: MIT Press, 2019.
KAPLAN, Robert S.; NORTON, David P. Alignment: using the Balanced Scorecard to create corporate synergies. Boston: Harvard Business School Press, 2006.
KIRK, P.; GRIFFIN, J. E.; SAVAGE, R. S.; GHAHRAMANI, Z.; WILD, D. L. Bayesian correlated clustering to integrate multiple datasets. Bioinformatics, v. 28, n. 24, p. 3290-3297, 2012.
KÖNSGEN, R. et al. Examining the characteristics and effectiveness of online employee reviews. Computers in Human Behavior Reports, v. 15, 100458, 2024. Disponível em: https://www. sciencedirect. com/science/article/pii/S2451958824001040. Acesso em: 16 set 2025.
KOTTER, J. P. Leading Change. Boston: Harvard Business School Press, 1996.
KRISTOF, Amy L. Person-Organization Fit: An Integrative Review of its Conceptualizations, Measurement, and Implications. Personnel Psychology, v. 49, n. 1, p. 1–49, 1996.
LANDY, Frank J.; FARR, James L. Performance rating. Psychological Bulletin, Washington, v. 87, n. 1, p. 72-107, 1980.
LAWLER, Edward E.; WORLEY, Christopher G. Built to Change: How to Achieve Sustained Organizational Effectiveness. San Francisco
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































