Imagem Segmentação financeira de empresas da B3 com PCA e K-means

16 de janeiro de 2026

Segmentação financeira de empresas da B3 com PCA e K-means

Autor(a): Marcelo Witt Pivoto — Orientador(a): Lauro Marques Vicari

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa foi segmentar empresas listadas na B3 com base em métricas financeiras e de mercado, utilizando técnicas de análise estatística e aprendizado de máquina para identificar padrões e agrupamentos entre os ativos. A investigação buscou fornecer “insights” sobre a performance das empresas, com o intuito de auxiliar investidores e analistas na tomada de decisões estratégicas. Adicionalmente, o estudo investigou como a aplicação de metodologias quantitativas pode contribuir para uma compreensão aprofundada das dinâmicas do mercado financeiro brasileiro, aprimorando a formulação de estratégias de investimento e a alocação de ativos em um ambiente de crescente complexidade e volume de dados.

O mercado financeiro brasileiro, representado pela B3, tem experimentado uma expansão notável, atingindo mais de 5,4 milhões de investidores pessoa física no segmento de renda variável (B3, 2025). Esse crescimento, impulsionado por um CAGR de 70,9% entre 2017 e 2020 (Cruz Neto et al., 2022), introduziu um grande número de participantes que se deparam com um universo de 439 empresas listadas (B3, 2024). Diante dessa vasta gama de opções, a tomada de decisão de investimento torna-se um desafio significativo, exigindo ferramentas que transcendam a afinidade pessoal com marcas ou setores e se baseiem em análises objetivas e fundamentadas.

A avaliação de ativos financeiros é uma disciplina que depende de múltiplos fatores, incluindo análise fundamentalista, métricas contábeis e expectativas de mercado, como extensivamente documentado por Damodaran (2012). As empresas de capital aberto são obrigadas a divulgar regularmente suas informações financeiras e operacionais, fornecendo a matéria-prima para análises que visam equilibrar o retorno esperado com o risco assumido. Nesse cenário, o uso de modelos quantitativos e preditivos emerge como uma abordagem essencial para processar e interpretar grandes volumes de dados, permitindo a identificação de padrões que não seriam facilmente perceptíveis por meio de métodos tradicionais.

A análise multivariada, em particular, oferece ferramentas poderosas para a redução da dimensionalidade dos dados, auxiliando na construção de indicadores mais robustos para a tomada de decisão (Fávero et al., 2009). Técnicas como a Análise de Componentes Principais (PCA) permitem sintetizar um vasto conjunto de indicadores financeiros em um número menor de componentes, preservando a maior parte da variabilidade dos dados originais. Essa abordagem não apenas simplifica a análise, mas também revela as inter-relações latentes entre os indicadores, destacando as variáveis que mais influenciam a estrutura de capital e a rentabilidade das empresas.

Complementarmente, a clusterização surge como uma técnica eficaz para a segmentação de empresas com base em suas características financeiras. A aplicação de algoritmos como o K-Means possibilita a identificação de grupos homogêneos de empresas, destacando características únicas relacionadas a estratégias de gestão conservadora ou de crescimento agressivo (De Castro & Zanon, 2023). Essa segmentação é crucial para investidores que buscam construir carteiras diversificadas e alinhadas aos seus perfis de risco, tornando a análise de risco e retorno mais objetiva e reduzindo a subjetividade nas decisões financeiras (Assaf Neto, 2016).

A presente pesquisa foi caracterizada como quantitativa, descritiva e aplicada, seguindo a classificação proposta por Gil (2008). A abordagem quantitativa foi adotada devido à natureza dos dados, que consistiam em métricas financeiras mensuráveis. O caráter descritivo se manifestou na busca por identificar e descrever os padrões e agrupamentos existentes no conjunto de dados, enquanto a natureza aplicada se reflete no objetivo de gerar resultados que possam embasar diretamente a tomada de decisão de investidores e gestores financeiros no mercado de capitais. A análise foi conduzida utilizando a linguagem de programação Python (versão 3.9) e suas bibliotecas especializadas, como Pandas, NumPy e Scikit-learn, que se destacam pela flexibilidade e capacidade de integração, sendo amplamente adotadas no mercado financeiro para a construção de modelos preditivos em larga escala (Géron, 2019).

A coleta de dados foi realizada por meio da API do Yahoo Finance, abrangendo um conjunto inicial de 84 empresas que compõem o índice Ibovespa. Devido a inconsistências e valores ausentes em algumas variáveis, a amostra final foi refinada para 34 empresas, garantindo a completude dos dados para todas as 21 variáveis financeiras selecionadas. Essas variáveis foram categorizadas em quatro dimensões principais: múltiplos de mercado (ex: P/L, P/VPA), rentabilidade (ex: ROE, Margem Operacional), liquidez/endividamento (ex: Razão Corrente, Dívida/Patrimônio) e eficiência (ex: EBITDA, Fluxo de Caixa Operacional). A seleção de empresas do Ibovespa assegurou que o estudo se concentrasse em ativos de alta representatividade e liquidez no mercado brasileiro.

O tratamento dos dados iniciou-se com a normalização das variáveis numéricas por meio da técnica de z-score, utilizando a função StandardScaler da biblioteca Scikit-learn. Esse procedimento foi fundamental para padronizar a escala das métricas, evitando que variáveis com magnitudes distintas influenciassem desproporcionalmente o processo de clusterização. Em seguida, foi conduzida uma Análise Exploratória de Dados (AED) para compreender a distribuição das variáveis e identificar padrões iniciais. Foram gerados histogramas, boxplots e uma matriz de correlação para visualizar as relações entre os indicadores e detectar a presença de outliers, seguindo as melhores práticas de investigação preliminar de dados (Tukey, 1977; Montgomery & Runger, 2010).

Para a redução de dimensionalidade, aplicou-se a Análise de Componentes Principais (PCA), uma técnica estatística que transforma as variáveis originais correlacionadas em um conjunto menor de componentes principais não correlacionados (Jolliffe, 2002). O número de componentes foi definido com base no critério de variância explicada acumulada, selecionando-se componentes suficientes para representar ao menos 90% da variância total dos dados. Subsequentemente, o algoritmo K-Means foi aplicado sobre esses componentes principais para realizar a clusterização das empresas. O número ótimo de clusters foi determinado pelo método do cotovelo, que analisa a redução da inércia (WCSS) à medida que o número de grupos aumenta (Thorndike, 1953). A avaliação final dos resultados envolveu a análise descritiva das características de cada cluster formado, validando a coerência dos agrupamentos.

A análise exploratória dos dados revelou uma heterogeneidade significativa entre as empresas da amostra. As distribuições de diversas métricas financeiras, como ROA e Dívida Total, mostraram-se assimétricas, indicando que um pequeno número de companhias concentrava níveis elevados de rentabilidade ou endividamento, enquanto a maioria se agrupava em valores mais moderados. A análise de indicadores de liquidez, como o Quick Ratio, e de caixa também demonstrou uma ampla variação, refletindo estratégias financeiras distintas, que iam desde estruturas conservadoras com alta flexibilidade de capital de giro até modelos de negócio com maior alavancagem e dependência de capital de terceiros.

A matriz de correlação de Pearson confirmou a existência de fortes relações lineares entre diversas variáveis, justificando a necessidade da redução de dimensionalidade. Observaram-se correlações positivas muito altas, como entre P/Vendas e EV/Receita (0,96), e entre EBITDA e Fluxo de Caixa Operacional (0,95), indicando redundância de informação. Da mesma forma, métricas de liquidez como Quick Ratio e Razão Corrente apresentaram uma correlação de 0,91. Por outro lado, foram identificadas correlações negativas, como entre Receita Total e EV/Ebitda (-0,37), sugerindo que empresas maiores e mais consolidadas podem ser precificadas com múltiplos de crescimento menores pelo mercado. A presença dessas correlações significativas foi confirmada pelo teste de esfericidade de Bartlett (p < 0,0001), validando a adequação da aplicação do PCA (Hair et al., 2019).

A aplicação do PCA resultou na seleção de seis componentes principais, que, em conjunto, explicaram mais de 90% da variância total dos dados. A análise das cargas fatoriais permitiu a interpretação de cada componente. O primeiro componente (PC1) mostrou-se associado à capacidade de geração de caixa e receita, contrastando empresas com alto EBITDA e Fluxo de Caixa Operacional com aquelas de múltiplos de mercado elevados. O terceiro componente (PC3) capturou a eficiência operacional e a rentabilidade, enquanto o quarto (PC4) esteve fortemente ligado à liquidez de curto prazo. O quinto componente (PC5) refletiu a rentabilidade sobre o patrimônio (ROE), e o sexto (PC6) combinou indicadores de precificação de mercado (P/L, P/VPA) com liquidez.

Com base nesses seis componentes, a clusterização via K-Means foi realizada. O método do cotovelo indicou que a segmentação em sete clusters era a mais adequada para a estrutura dos dados, representando o ponto de equilíbrio onde a adição de novos grupos não proporcionava ganhos significativos na separação. A visualização dos clusters no espaço bidimensional dos componentes principais revelou uma segmentação clara, com a formação de grupos distintos e a identificação de casos atípicos. Três empresas (VALE, ITAUSA e ISA ENERGIA) formaram clusters individuais, destacando-se por características financeiras únicas: VALE pelo EBITDA excepcionalmente alto, ITAUSA pelo elevado EV/Receita e ISA ENERGIA pela sólida posição de liquidez.

Os quatro clusters restantes agruparam empresas com perfis financeiros mais homogêneos entre si. O cluster 0 foi composto por empresas de porte intermediário. O cluster 3 agrupou companhias com alta eficiência operacional e rentabilidade, caracterizadas por valores positivos no terceiro componente principal. O cluster 5 incluiu empresas que combinavam boa rentabilidade sobre o patrimônio com avaliação de mercado favorável e liquidez sólida. Em contrapartida, o cluster 6 foi caracterizado por empresas com menor performance, evidenciando baixa geração de caixa, receita reduzida e menor rentabilidade sobre o patrimônio, o que foi claramente observado em sua baixa pontuação de ROE.

A análise dos clusters nas variáveis originais confirmou essas interpretações. Por exemplo, o cluster 6 consistentemente apresentou os menores valores de ROE, enquanto o cluster 5 se destacou por valores positivos de P/VPA. Essa segmentação não apenas agrupou empresas com base em similaridades estatísticas, mas também forneceu uma estrutura interpretável para entender os diferentes perfis de risco e retorno presentes no mercado. A metodologia demonstrou ser eficaz em identificar tanto os gigantes operacionais, como a VALE, quanto grupos de empresas com estratégias financeiras específicas, como aquelas focadas em alta rentabilidade ou em gestão conservadora de liquidez.

Os resultados desta pesquisa oferecem implicações práticas significativas para diversos agentes do mercado financeiro. Para investidores e gestores de fundos, a segmentação em clusters pode servir como uma ferramenta para a construção de carteiras diversificadas e alinhadas a perfis de risco específicos. A identificação de empresas com baixa geração de caixa (cluster 6), por exemplo, sinaliza um risco maior que exige uma análise mais aprofundada ou estratégias de mitigação. A análise comparativa de empresas do mesmo setor, como ENGIE (cluster 3) e COPEL (cluster 6), revela diferenças substanciais em eficiência e rentabilidade que podem guiar decisões de alocação de capital.

A metodologia também contribui para a precificação de ativos, ao permitir a identificação de empresas que podem estar subvalorizadas ou sobrevalorizadas em relação a seus pares com características financeiras semelhantes. Analistas de mercado podem utilizar essa segmentação para refinar seus modelos de avaliação e para monitorar a evolução das empresas ao longo do tempo, observando, por exemplo, a migração de uma companhia entre clusters como um indicador de mudança em sua saúde financeira ou estratégia de negócios. A análise quantitativa, portanto, complementa a análise fundamentalista tradicional, fornecendo uma visão estruturada e objetiva do cenário competitivo (Martins & Rodrigues, 2024).

Em suma, a aplicação combinada de PCA e K-Means demonstrou ser uma abordagem robusta para a segmentação de empresas da B3, revelando a estrutura subjacente dos dados financeiros e classificando as companhias em grupos com perfis distintos de rentabilidade, liquidez, endividamento e eficiência. A análise identificou não apenas grupos homogêneos, mas também outliers significativos, cujas características financeiras únicas os diferenciam marcadamente do restante do mercado. As limitações do estudo, como a ausência de segmentação setorial prévia e a redução da amostra devido à disponibilidade de dados, abrem caminhos para pesquisas futuras. Sugere-se a inclusão de variáveis qualitativas, como governança corporativa, e a expansão da análise para um horizonte temporal mais longo para avaliar a estabilidade dos clusters.

Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de técnicas de aprendizado de máquina não supervisionado, como PCA e K-Means, permite uma segmentação eficaz e interpretável das empresas listadas na B3 com base em seus indicadores financeiros. A pesquisa forneceu uma classificação estruturada que diferencia perfis de risco e retorno, oferecendo “insights” valiosos para a formulação de estratégias de investimento e para uma compreensão mais aprofundada da heterogeneidade do mercado de capitais brasileiro.

Referências:
Assaf Neto, A. (2016). Mercado financeiro. Atlas.
B3. (2024). Azevedo & Travassos comemora 40 anos de listagem na B3. Disponível em: https://www. b3. com. br/ptbr/noticias/listagem-AE490C990B7D3850190C7C4AA1101E1. htm.
B3. (2025). Uma análise da evolução dos investidores na B3. Disponível em: https://www. b3. com. br/data/files/A2/A0/78/20/E61689100A29E189AC094EA8/Book%20PF%202TRI%202025
vF. pdf.
Cruz Neto, D. S., Ferreira, A. S., Mascarenhas, C. C., May, A. M., Vassão, T. C., & Martins, E. (2022). A Bolsa de Valores e os investidores nos tempos atuais. Revista Gestão em Foco, (14).
Damodaran, A. (2012). Investment valuation: Tools and techniques for determining the value of any asset. John Wiley & Sons.
De Castro, L. T., & Zanon, L. G. (2023). Análise de Indicadores Financeiros e Clusterização das Principais Empresas do Ibovespa via k-means.
Favero, L. P., Belfiore, P., Silva, F. L., & Chan, B. L. (2009). Análise de dados: Modelos estatísticos na gestão de negócios. Elsevier.
Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems. O’Reilly Media.
Gil, A. C. (2008). Métodos e técnicas de pesquisa social. Atlas.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate data analysis. Cengage Learning.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction. Springer.
Hongyu, K., Sandanielo, V. L. M., & de Oliveira Junior, G. J. (2015). Análise de Componentes Principais: resumo teórico, aplicação e interpretação.
Jain, A. K. (2010). Data clustering: 50 years beyond K-Means. Pattern Recognition Letters, 31(8), 651-666.
Jolliffe, I. T. (2002). Principal component analysis. Springer.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol. 1, No. 14, pp. 281-297).
Martins, A. C., & Rodrigues, A. C. M. (2024). Análise da relação dos indicadores contábeis de risco e retorno dos segmentos novo mercado, nível 2 e nível 1 da B3.
Montgomery, D. C., & Runger, G. C. (2010). Applied statistics and probability for engineers. John Wiley & Sons.
Ribeiro, J. (2024). Machine Learning em Python.
Tan, P. N., Steinbach, M., & Kumar, V. (2019). Introduction to data mining. Pearson.
Thorndike, R. L. (1953). Who belongs in the family? Psychometrika, 18(4), 267-276.
Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade