23 de fevereiro de 2026
Predição de proventos na B3 com AutoML e análise de desempenho
Matheus Silva Muniz; José Erasmo Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A pesquisa une mercado financeiro e Ciência de Dados, campo de crescente relevância dado o expressivo aumento do número de investidores na B3, que atingiu a marca de 5,3 milhões no primeiro trimestre de 2025, conforme dados da própria bolsa (B3, 2025). Essa abordagem se baseia na premissa de que empresas maduras, lucrativas e com boa governança corporativa tendem a distribuir parte de seus lucros aos acionistas. No entanto, a previsão desses pagamentos é uma tarefa inerentemente complexa. Os dividendos são influenciados por uma miríade de fatores, incluindo a saúde financeira da empresa, suas políticas de reinvestimento, o ciclo econômico vigente, mudanças regulatórias e a própria estratégia da administração.
Métodos tradicionais de análise, como a avaliação de múltiplos e o acompanhamento de relatórios de analistas, embora valiosos, muitas vezes não conseguem capturar as interações não lineares e complexas entre todas essas variáveis. É nesse contexto que as técnicas de aprendizado de máquina surgem como uma alternativa poderosa, prometendo modelar esses padrões com um grau de sofisticação superior. Apesar do potencial, a aplicação de aprendizado de máquina encontra barreiras de complexidade técnica e de custo computacional, especialmente para investidores de varejo e analistas sem formação especializada em ciência de dados (Ribeiro et al., 2022). O “Automated Machine Learning” (AutoML) surge como uma solução disruptiva para este desafio, automatizando grande parte dessas etapas complexas.
Plataformas de AutoML, como o AutoGluon, encapsulam as melhores práticas da área, testando sistematicamente múltiplos modelos, desde regressões lineares a redes neurais profundas e ensembles complexos, para encontrar a solução de maior performance para um determinado problema, reduzindo drasticamente a necessidade de conhecimento técnico especializado (Shen et al., 2024; Barbudo et al., 2023). Essa abordagem não apenas acelera o ciclo de desenvolvimento, mas também democratiza o acesso a soluções de inteligência artificial de ponta, permitindo que um público mais amplo se beneficie de suas capacidades preditivas (He et al., 2021). Estudos anteriores no contexto financeiro brasileiro já demonstraram o potencial de técnicas computacionais para resolver problemas complexos.
Pesquisas como a de Silva et al. (2023) utilizaram o algoritmo “Random Forest” para otimizar a composição de portfólios de investimento, enquanto Souza e Silva (2024) aplicaram redes neurais do tipo LSTM (Long Short-Term Memory) para a previsão de preços de ativos, obtendo resultados promissores. Contudo, a presente pesquisa avança em relação a esses trabalhos ao empregar um framework de AutoML. Em vez de se concentrar em um único algoritmo, a abordagem AutoML testa um portfólio diversificado de modelos, incluindo arquiteturas de fundação pré-treinadas e técnicas de ensembling (empilhamento e combinação de modelos), o que representa uma evolução metodológica significativa. Esta estratégia permite explorar de forma mais abrangente e sistemática os limites da previsibilidade no mercado de capitais nacional, buscando identificar o modelo ou a combinação de modelos que melhor se adapta à dinâmica dos dados financeiros brasileiros.
O framework AutoGluon foi especificamente escolhido por sua comprovada robustez no tratamento de dados estruturados (tabulares), que são predominantes no domínio financeiro, e por sua capacidade de gerar resultados de alta performance com mínima intervenção do usuário (Erickson et al., 2020). Sua arquitetura interna é projetada para ser eficiente e eficaz, combinando modelos estatísticos clássicos, algoritmos de gradient boosting (como LightGBM e CatBoost), redes neurais e múltiplos níveis de ensembles, selecionando e ponderando a melhor configuração de forma totalmente automática (Shchur et al., 2023). A automação oferecida pelo AutoGluon permite que usuários com conhecimento iniciante ou intermediário em programação e estatística possam construir modelos preditivos sofisticados, alinhando-se perfeitamente ao objetivo deste estudo de criar soluções analíticas que sejam ao mesmo tempo poderosas e acessíveis (Zöller e Huber, 2021).
Embora a natureza “caixa-preta” de alguns modelos gerados pelo AutoML possa limitar o acesso à lógica interna e à interpretabilidade detalhada de suas decisões, o foco deste estudo reside na avaliação da performance preditiva e na validação da relevância prática dos resultados. É importante reconhecer a necessidade de cautela na interpretação da importância das variáveis, especialmente quando se utiliza o método de permutação, que pode apresentar vieses em cenários de alta correlação entre as variáveis preditoras, potencialmente inflando ou subestimando a real contribuição de um fator (Strobl et al., 2008). A metodologia implementou uma rotina computacional em linguagem Python, utilizando principalmente a biblioteca AutoGluon-TimeSeries, que é especializada em problemas de previsão de séries temporais.
O processo foi estruturado em etapas sequenciais, abrangendo a coleta de dados de múltiplas fontes, um pré-processamento rigoroso, a segregação temporal dos dados para treinamento e teste, e, finalmente, a execução do processo de modelagem preditiva multivariada. A variável-alvo, denominada “dyoncost”, foi cuidadosamente definida como o “dividend yield” (dividendo por ação dividido pelo preço da ação) ajustado pela cotação de fechamento do trimestre anterior ao da previsão. A escolha da métrica “dyoncost” em detrimento do “dividend yield” tradicional foi uma decisão metodológica crucial, visando mitigar distorções comuns. O “dividend yield” convencional pode ser enganoso, pois um aumento em seu valor pode ser resultado de uma queda acentuada no preço do ativo, e não necessariamente de uma melhora nos fundamentos da empresa ou em sua política de distribuição de proventos (Assaf Neto, 2014).
Ao ancorar o cálculo no custo de aquisição simulado (preço do trimestre anterior), o “dyoncost” oferece uma representação mais fidedigna do retorno real sobre o capital investido pelo investidor, removendo o ruído da volatilidade de curto prazo do mercado. O conjunto de dados foi construído a partir da integração de três fontes de informação distintas e complementares, com o objetivo de fornecer ao modelo uma visão holística do ambiente de investimento. A primeira fonte foi a API da Brapi (Brapi, 2025), utilizada para a extração de dados fundamentalistas trimestrais de todas as empresas listadas na B3. Desta fonte, foram coletados indicadores financeiros chave, como Lucro Líquido, Receita Líquida, Dívida Bruta, Retorno sobre o Patrimônio (ROE), e múltiplos de mercado como P/L e P/VP.
A segunda fonte foi o Portal de Dados Abertos do Banco Central do Brasil (Brasil, 2025), de onde foram obtidas as expectativas de mercado consolidadas no Boletim FOCUS. Essas variáveis, como as projeções para o PIB, IPCA, IGP-M e a taxa SELIC, introduzem uma dimensão preditiva, refletindo o consenso dos analistas sobre o futuro da economia. A terceira fonte foi o portal Investing. com (Investing. com, 2025), que forneceu dados históricos de variáveis macroeconômicas essenciais, como a taxa SELIC efetiva, a taxa de desemprego, e o Credit Default Swap (CDS) de 5 anos do Brasil, um indicador da percepção de risco do país. O período de observação dos dados abrangeu de março de 2014 a dezembro de 2024, com uma granularidade trimestral, resultando em um painel de dados rico e extenso.
O pré-processamento dos dados foi uma etapa crítica para garantir a qualidade e a consistência das informações fornecidas ao modelo. Esta fase incluiu o tratamento de dados faltantes, utilizando técnicas de preenchimento progressivo (forward-fill) para séries temporais e imputação pela mediana para dados estáticos. As variáveis numéricas foram normalizadas para uma escala comum, evitando que características com magnitudes maiores dominassem o processo de aprendizado. Além disso, foi realizada uma etapa de engenharia de variáveis; foram criados novos preditores, como variáveis defasadas (lags) dos próprios indicadores e médias móveis, para capturar tendências e sazonalidades.
As variáveis foram categorizadas em quatro grupos principais para análise posterior da importância: dados corporativos (extraídos de balanços, DRE, DFC), expectativas de mercado (Boletim FOCUS), variáveis macroeconômicas (SELIC, desemprego, CDS de 5 anos) e variáveis “dummies” para capturar o efeito de eventos específicos e não recorrentes, como o processo de Impeachment em 2016, a crise da COVID-19 em 2020 e os períodos eleitorais.
Para a validação do modelo, foi adotada uma estratégia de segregação temporal estrita: os dados de março de 2014 a dezembro de 2022 foram utilizados para o treinamento e validação interna do AutoGluon, enquanto o período de janeiro de 2023 a dezembro de 2024 foi completamente isolado como um conjunto de teste (hold-out), garantindo que a performance do modelo fosse avaliada em dados genuinamente novos e não vistos durante o treinamento. Após a conclusão do treinamento, que envolveu a avaliação de dezenas de modelos e suas combinações, o AutoGluon produziu um modelo final do tipo ensemble. A avaliação de performance no conjunto de teste (2023-2024) revelou resultados robustos. O modelo final alcançou um Erro Absoluto Médio (MAE) de 0.009 e uma Raiz do Erro Quadrático Médio (RMSE) de 0.013, indicando que, em média, as previsões do modelo para o ‘dyoncost’ trimestral desviaram muito pouco dos valores reais observados.
O coeficiente de determinação (R²), que mede a proporção da variância na variável dependente que é previsível a partir das variáveis independentes, foi de 0.76. Este valor sugere que 76% da variabilidade no ‘dyoncost’ das ações brasileiras no período de teste pôde ser explicada pelo conjunto de preditores utilizados pelo modelo, um resultado considerado de alta significância para problemas de previsão no mercado financeiro.
A análise da composição do modelo ensemble final, gerado automaticamente pelo AutoGluon, mostrou que ele era uma combinação ponderada de vários algoritmos. Os modelos com maior peso na previsão final foram um modelo LightGBM, um modelo CatBoost e uma rede neural tabular (TabularNeuralNet). A predominância dos modelos baseados em gradient boosting (LightGBM e CatBoost) destaca sua eficácia em lidar com dados tabulares heterogêneos, com interações complexas e não lineares, características intrínsecas aos dados financeiros.
A análise da importância das variáveis, realizada através do método de permutação sobre o conjunto de teste, forneceu insights valiosos sobre os principais vetores do ‘dyoncost’. De forma consistente com a teoria financeira, a variável mais importante foi o próprio ‘dyoncost’ do trimestre anterior (lag T-1), indicando uma forte persistência e inércia nos pagamentos de dividendos. Em seguida, destacaram-se variáveis de fundamentos corporativos, como o Lucro por Ação (LPA) e o Retorno sobre o Patrimônio Líquido (ROE), confirmando que a capacidade de geração de lucro da empresa é um preditor fundamental de sua capacidade de distribuir proventos.
Para além das métricas estatísticas, foi realizada uma simulação de backtesting para avaliar a relevância prática do modelo. Nesta simulação, a cada trimestre do período de teste, foi formado um portfólio hipotético composto pelas 20% de ações (quintil superior) com o maior ‘dyoncost’ previsto pelo modelo. Este portfólio foi então comparado com um benchmark passivo, o índice IBOVESPA. Os resultados mostraram que a estratégia guiada pelo modelo não apenas gerou um retorno total superior ao do benchmark, mas também o fez com uma volatilidade menor, resultando em um Índice de Sharpe significativamente mais elevado. Este exercício demonstrou que as previsões do modelo poderiam ser traduzidas em uma estratégia de investimento sistemática e potencialmente lucrativa, fornecendo um forte indício de sua utilidade prática para a tomada de decisão.
Apesar dos resultados promissores, reitera-se a limitação da interpretabilidade inerente a modelos complexos de ensemble e a necessidade de cautela com o método de permutação de importância, conforme apontado por Strobl et al. (2008), o que representa um campo para aprofundamento em pesquisas futuras. Em suma, este estudo demonstrou com sucesso a aplicação de um framework AutoML para a construção de um modelo preditivo de alta acurácia para o ‘dividend yield on cost’ de ações no mercado brasileiro. O modelo final, um ensemble sofisticado, foi capaz de explicar uma porção substancial da variação dos dividendos, identificando a persistência histórica, os fundamentos corporativos e as expectativas da taxa de juros como os principais fatores preditivos. A validação prática através de um backtest simulado corroborou a utilidade do modelo, mostrando seu potencial para embasar estratégias de investimento superiores a um benchmark passivo.
Os resultados alcançados evidenciam a viabilidade e o poder das ferramentas de inteligência artificial democratizadas, como o AutoGluon, para enfrentar desafios complexos de previsão financeira, oferecendo aos investidores um recurso analítico avançado para otimizar suas decisões.
Conclui-se que o objetivo foi atingido.
Referências:
Ansari, A. F.; Stella, L.; Turkmen, C.; Chen, X.; Hong, Z. W.; Molu, L.; Snoek, J.; Dinh, L.; Alemi, A. A. 2024. Chronos: learning the language of time series. Transactions on Machine Learning Research. Disponível em: https://arxiv. org/pdf/2403. 07815. Acesso em: 12 ago. 2025.
Assaf Neto, A. 2014. Finanças Corporativas e Valor. Atlas, São Paulo, SP, Brasil.
Barbudo, R.; Ventura, S.; Romero, J. R. 2023. Eight years of AutoML: categorisation, review and trends. Knowledge and Information Systems. Disponível em: https://link. springer. com/article/10.1007/s10115-023-01935-1. Acesso em: 20 ago. 2025.
Brasil, Bolsa, Balcão [B3]. 2025. Uma análise da evolução dos investidores na B3. Disponível em: https://www. b3. com. br/data/files/9E/70/C2/F1/2C1179106B8BCB69AC094EA8/Book%20PF%201Tri25. pdf. Acesso em: 12 ago. 2025.
Brasil. Banco Central do Brasil [BC]. 2025. Sistema de Expectativas de Mercado – Consultas (Boletim Focus). Disponível em: https://www3. bcb. gov. br/expectativas2/#/consultas. Acesso em: 12 ago. 2025.
Brapi [BRAPI]. 2025. Documentação da API brapi. dev: módulos balanceSheetHistory, incomeStatementHistory, cashflowHistory, valueAddedHistory, defaultKeyStatisticsHistory, financialDataHistory. Disponível em: https://brapi. dev/api. Acesso em: 12 ago. 2025.
Cruvinel, H. H. 2024. Desenvolvimento de um modelo híbrido baseado em LSTM e algoritmo genético para previsão de preços de ações. Monografia em Ciência da Computação. Pontifícia Universidade Católica de Goiás, Goiânia, GO, Brasil. Disponível em: https://repositorio. pucgoias. edu. br/jspui/bitstream/123456789/7900/1/PREVIS%C3%83O%20DE%20A%C3%87%C3%95ES%20COM%20MODELO%20H%C3%8DBRIDO%20LSTM%20E%20ALGORITMO%20GEN%C3%89TICO. pdf. Acesso em: 12 ago. 2025.
Das, A.; Kong, W.; Sen, R.; Zhou, Y. 2023. Long-term forecasting with tide: time-series dense encoder. In: International Conference on Learning Representations, 2023, Kigali, Rwanda. Anais… Disponível em: https://arxiv. org/abs/2304.08424. Acesso em: 12 ago. 2025.
Erickson, N.; Mueller, J.; Shirkov, A.; Zhang, H.; Larroy, P.; Li, M.; Smola, A. 2020. AutoGluon-Tabular: robust and accurate AutoML for structured data. Disponível em: https://arxiv. org/abs/2003.06505. Acesso em: 12 ago. 2025.
Ferro, J. V. R. 2024. Uma avaliação sistemática de técnicas de aprendizado de máquina baseadas em ensemble para previsão de índices do mercado de ações usando séries temporais financeiras. Dissertação de Mestrado em Informática. Universidade Federal de Alagoas, Maceió, AL, Brasil. Disponível em: https://www. repositorio. ufal. br/handle/123456789/15940. Acesso em: 12 ago. 2025.
Fioruci, J. A.; Pellegrini, T. R.; Louzada, F.; Petropoulos, F. 2015. The optimised theta method. Disponível em: https://arxiv. org/abs/1503.03529. Acesso em: 12 ago. 2025.
He, X.; Zhao, K.; Chu, X. 2021. AutoML: a survey of the state-of-the-art. Knowledge-Based Systems 224: 107052. Disponível em: https://arxiv. org/abs/1908.00709. Acesso em: 12 ago. 2025.
Hyndman, R. J. 2014. Forecasting: Principles & Practice. Material de curso. University of Western Australia, Perth, Australia.
Investing. com. 2025. Brazil CDS 5 Years USD. Disponível em: https://br. investing. com/rates-bonds/brazil-cds-5-years-usd. Acesso em: 12 ago. 2025.
IPEA – Instituto de Pesquisa Econômica Aplicada. Economia mundial: evolução recente e perspectivas para 2025 e 2026. Carta de Conjuntura, n. 67, Nota de Conjuntura nº 24. Brasília: IPEA, jun. 2025. 23 p. Disponível em: https://www. ipea. gov. br/cartadeconjuntura/wp-content/uploads/2025/06/250630cc67nota24economiamundial. pdf. Acesso em: 14 ago. 2025.
Kava, L. E. 2022. Além da caixa preta: aprendizagem de máquina interpretável para previsão de séries temporais macroeconômicas brasileiras. Dissertação de Mestrado em Economia. Universidade Federal de Santa Catarina, Florianópolis, SC, Brasil. Disponível em: https://repositorio. ufsc. br/handle/123456789/234659. Acesso em: 12 ago. 2025.
Lim, B.; Arik, S. O.; Loeff, N.; Pfister, T. 2021. Temporal fusion transformers for interpretable multi-horizon time series forecasting. International Journal of Forecasting 37(4): 1748-1764. Disponível em: https://arxiv. org/abs/1912.09363. Acesso em: 12 ago. 2025.
Nascimento, O. S.; Santos, F. G.; Ferreira,
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























