Imagem Desempenho de modelos lineares e multinível na avaliação de empresas no novo mercado

02 de fevereiro de 2026

Desempenho de modelos lineares e multinível na avaliação de empresas no novo mercado

Davi Brandeburgo Hülse; Adriano De Freitas Fernandes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho analisou a relação entre indicadores fundamentalistas e o valor de mercado de empresas brasileiras do Novo Mercado da B3, comparando o desempenho de modelos de regressão linear múltipla (OLS) e modelos hierárquicos lineares de dois níveis (HLM2). A pesquisa buscou identificar qual modelo estatístico oferece melhor ajuste e capacidade preditiva, considerando a estrutura aninhada dos dados, com empresas agrupadas em setores econômicos. A premissa central é que a heterogeneidade setorial pode influenciar tanto o nível base do valor de mercado quanto a forma como os indicadores fundamentalistas se relacionam com esse valor, uma hipótese que os modelos hierárquicos são projetados para explorar.

A análise fundamentalista, que se baseia na saúde financeira e nas perspectivas de crescimento das companhias (APIMEC e CVM, 2017), utiliza dados contábeis para avaliar o valor intrínseco de uma empresa. A eficiência dessa abordagem depende da qualidade das informações divulgadas. Nesse contexto, a B3 criou segmentos de listagem com governança corporativa aprimorada. O Novo Mercado representa o mais alto padrão, exigindo regras que ampliam os direitos dos acionistas e garantem maior qualidade informacional (CVM, 2024). A escolha de analisar exclusivamente empresas deste segmento confere robustez à pesquisa, pois minimiza os riscos de assimetria de informação e baixa confiabilidade dos dados, permitindo isolar o efeito dos indicadores financeiros.

Dados financeiros frequentemente possuem uma estrutura hierárquica, como empresas (nível 1) agrupadas em setores (nível 2). Ignorar essa estrutura pode levar a conclusões equivocadas, pois observações dentro de um mesmo grupo tendem a ser mais similares entre si. Os Modelos Hierárquicos Lineares (HLM), ou modelos multinível, são uma solução para essa questão, permitindo analisar simultaneamente as variações dentro e entre os grupos (Fávero e Belfiore, 2024). A literatura aponta que técnicas multinível são adequadas para investigar os efeitos de firma e setor nos preços de ações, testando como variáveis de um nível (setor) afetam as relações em outro nível (empresa) (Fávero e Confortini, 2010). A aplicação de HLM neste estudo se justifica pela necessidade de capturar a variabilidade do valor de mercado atribuível tanto às características das empresas quanto às especificidades de seus setores.

O estudo utilizou uma base de dados pública, coletada em setembro de 2025 do website https://investidor10. com. br/, focando em empresas do Novo Mercado da B3. A coleta foi realizada por Automação Robótica de Processos (RPA) com Python. A base inicial continha 1074 observações históricas, mas a análise se concentrou em um corte transversal com os dados mais recentes, resultando em 183 empresas. A variável dependente foi o valor de mercado, convertida para bilhões de reais. Como variáveis explicativas de nível 1 (empresa), foram considerados 27 indicadores fundamentalistas, como P/L, P/VP, ROE, ROIC e Dív. Líq./EBITDA. Para o nível 2 (setor), foram calculadas as médias setoriais de quatro indicadores de margem (Líquida, Bruta, EBIT, EBITDA) como variáveis explicativas. A classificação setorial seguiu o padrão da B3 (2025).

Para a modelagem multinível, foi adotada a estratégia de construção step-up (Raudenbush e Bryk, 2002). O processo inicia com um modelo nulo para decompor a variância total da variável dependente em componentes de nível 1 (dentro dos setores) e nível 2 (entre setores). A partir daí, variáveis explicativas são adicionadas progressivamente em ambos os níveis para construir modelos de interceptos aleatórios e de interceptos e inclinações aleatórios. Esta abordagem permite testar se os setores diferem em seus valores médios de mercado (interceptos) e na magnitude do efeito dos indicadores (inclinações).

A preparação dos dados começou com o tratamento de valores ausentes. Variáveis com mais de nove ocorrências nulas foram descartadas, resultando na exclusão de “DY”, “Payout”, “Div. Br./Patrimônio”, “CAGR Receitas 5 A” e “CAGR Lucros 5 A”. As observações restantes com valores nulos foram removidas, consolidando uma base final com 176 empresas, distribuídas em 10 setores e representadas por 21 variáveis explicativas. O setor de Consumo Cíclico foi o mais representativo (58 empresas), enquanto Comunicações teve a menor frequência (4 empresas). A análise descritiva revelou forte assimetria positiva no valor de mercado, com média de R$ 10,04 bilhões, mediana de R$ 1,94 bilhão e desvio padrão de R$ 25,18 bilhões, indicando a presença de outliers positivos.

A análise gráfica confirmou a assimetria, com histogramas mostrando uma concentração de empresas com valores baixos e uma longa cauda à direita. A estratificação por setor evidenciou que essa variabilidade era acentuada em setores como Bens Industriais e Materiais Básicos. A transformação de Box-Cox foi aplicada, gerando um lambda próximo de zero (8,6137 × 10⁻³), o que confirmou a natureza logarítmica da distribuição. Após a transformação, a nova variável apresentou uma distribuição mais simétrica e com variância estabilizada, adequada para a modelagem linear. A análise da matriz de correlação entre as 21 variáveis explicativas revelou multicolinearidade, um fenômeno esperado, pois muitos indicadores derivam das mesmas métricas contábeis. Para mitigar o problema e selecionar os preditores mais relevantes, foi empregado um procedimento de seleção de variáveis do tipo stepwise.

O primeiro modelo OLS, estimado com a variável dependente original, selecionou “EV/EBITDA”, “P/EBITDA”, “P/Ativo”, “VPA” e “Dív. Líq./EBITDA”, mas apresentou um R² ajustado de apenas 0,140. O teste de Shapiro-Francia nos resíduos resultou em um p-valor de 9.158e-18, indicando uma violação severa da normalidade, o que invalidou o modelo. Um novo modelo OLS foi estimado com a variável dependente transformada por Box-Cox. O procedimento stepwise selecionou “P/VP”, “P/Ativo”, “LPA” e “ROIC”. Este segundo modelo demonstrou um ajuste substancialmente melhor, com R² ajustado de 0,279 e Log-Likelihood de -331,28. O teste de Shapiro-Francia nos resíduos resultou em um p-valor de 0,564, não rejeitando a hipótese de normalidade e validando as inferências. A equação final indicou que o valor de mercado (transformado) é positivamente influenciado pelo preço sobre o valor patrimonial, preço sobre o ativo, lucro por ação e retorno sobre o capital investido.

A análise hierárquica (HLM2) iniciou-se com um modelo nulo, que mostrou uma Correlação Intraclasse (ICC) de 17,13%. Este resultado, estatisticamente significativo, indica que 17,13% da variabilidade total no valor de mercado pode ser explicada pela pertinência a um determinado setor, justificando a aplicação de modelos multinível. Em seguida, foram testados modelos com interceptos e inclinações aleatórios, usando as mesmas variáveis do modelo OLS (“P/VP”, “P/Ativo”, “LPA” e “ROIC”) como preditores de nível 1. A análise dos efeitos aleatórios revelou que, para todas as variáveis, a variância dos interceptos entre os setores (𝜈0𝑗) foi estatisticamente significativa, enquanto a variância das inclinações (𝜈1𝑗) não foi.

Este achado é central: a significância da variância dos interceptos significa que os setores possuem diferentes níveis base de valor de mercado, mesmo após controlar pelos indicadores da empresa. Por outro lado, a não significância da variância das inclinações sugere que o efeito de um indicador como o ROIC sobre o valor de mercado é homogêneo entre os setores; as retas de regressão para cada setor são estatisticamente paralelas. Diante disso, os modelos HLM2 finais, que incluíam variáveis de nível 1 e a variável de nível 2 “Margem Bruta do Setor”, só se mostraram viáveis com um preditor de nível 1 por vez (PVP ou ROIC), resultando em modelos com menor poder explicativo e Log-Likelihoods de -335,13 e -336,95, respectivamente.

A constatação de que apenas os interceptos variavam entre os setores levantou a hipótese de que um modelo OLS com variáveis indicadoras (dummies) para cada setor poderia capturar essa heterogeneidade de forma mais eficaz. Um modelo OLS com dummies setoriais foi estimado e, após o procedimento stepwise, seu desempenho foi superior a todos os outros testados, alcançando o menor valor de Log-Likelihood (-306,52) e o maior R² ajustado (0,436). Este resultado sugere que, na ausência de variação nas inclinações, a complexidade adicional dos modelos HLM2 não se traduziu em um melhor ajuste. A abordagem com dummies foi suficiente para modelar as diferenças de nível entre os setores, permitindo a inclusão de mais variáveis explicativas significativas e resultando em um modelo mais completo e preditivo. A análise demonstrou que, embora a estrutura hierárquica dos dados seja relevante (conforme o ICC), a natureza dessa estrutura (apenas variação nos interceptos) tornou uma técnica mais tradicional a mais adequada.

A análise comparativa evidenciou que, embora os modelos HLM2 sejam metodologicamente robustos para dados aninhados, sua aplicação neste contexto não proporcionou ganhos de desempenho sobre os modelos OLS. O modelo OLS com variáveis dummies para controlar as diferenças setoriais apresentou o melhor ajuste, com o menor Log-Likelihood (-305,525) e o maior R² ajustado (0,436). Este desempenho superior é atribuído à principal descoberta da análise multinível: a ausência de variação estatisticamente significativa nos coeficientes de inclinação entre os setores. Isso indica que, embora os setores possuam patamares distintos de valor de mercado, eles respondem de maneira homogênea aos indicadores fundamentalistas. Nesse cenário, a inclusão de dummies no modelo OLS foi uma estratégia eficiente e suficiente para capturar a heterogeneidade setorial.

Conclui-se que o objetivo foi atingido: demonstrou-se que modelos OLS com variáveis dummies setoriais apresentaram desempenho superior aos modelos hierárquicos (HLM2) para explicar o valor de mercado na ausência de variação nas inclinações entre os setores. A modelagem hierárquica não trouxe benefícios que justificassem sua maior complexidade neste cenário. No entanto, sua pertinência como ferramenta de análise permanece para contextos onde há evidências de variação tanto nos interceptos quanto nas inclinações. Para pesquisas futuras, sugere-se a expansão da análise para uma estrutura hierárquica de três níveis (HLM3), incorporando medidas repetidas ao longo do tempo (dados longitudinais). Essa abordagem permitiria decompor a variância do valor de mercado em componentes atribuíveis ao tempo, às empresas e aos setores, oferecendo uma compreensão mais dinâmica dos fatores que influenciam a precificação de ativos.

Referências:
Associação de Analistas e Profissionais de Investimentos no Mercado de Capitais [APIMEC]; Comissão de Valores Mobiliários [CVM]. 2017. Análise de investimentos: histórico, principais ferramentas e mudanças conceituais para o futuro. 1ed. CVM. Rio de Janeiro, RJ, Brasil
B3. 2025. Consultas. Disponível em: < https://www. b3. com. br/pt_br/produtos-e-servicos/negociacao/renda-variavel/acoes/consultas/classificacao-setorial/ >. Acesso em: 19 agosto 2025.
Box, G. E. P.; Cox, D. R. 1964. An Analysis of Transformations. Journal of the Royal Statistical Society Series B. (Vol. 26, No. 2): 211-252.
Comissão de Valores Mobiliários [CVM]. 2024. Mercado de valores mobiliários brasileiro. 5ed. CVM. Rio de Janeiro, RJ, Brasil.
Fávero, L. P. L.; Confortini, D. 2010. Modelos multinível de coeficientes aleatórios e os efeitos firma, setor e tempo no mercado acionário brasileiro. Pesquisa Operacional 30(3): 703-727.
Favero, L. P.; Belfiore, P. 2024. Manual de análise de dados: estatística e machine learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC. Rio de Janeiro, RJ, Brasil.
Gil, A. C. 2017. Como elaborar projetos de pesquisa. 6ed. Atlas. São Paulo, SP, Brasil.
Investidor 10. 2025. PETR4 – Petrobrás – Resultados, Dividendos, Cotação e Indicadores – Investidor10. Disponível em: < https://investidor10. com. br/acoes/petr4/ >. Acesso em: 02 setembro 2025.
Raudenbush, S. W.; Bryk, A. S. 2002. Hierarchical Linear Models: Applications and Data Analysis Methods (Advanced Quantitative Techniques in the Social Sciences). 2ed. SAGE Publications. Thousand Oaks, CA, Estados Unidos.
Triola, Mario F. 2017. Introdução à estatística. 12ed. LTC. Rio de Janeiro, RJ, Brasil.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade