Imagem Aprendizado de máquina na previsão de lucratividade de startups

20 de fevereiro de 2026

Aprendizado de máquina na previsão de lucratividade de startups

Thiago Martins Feitosa dos Santos; Regina Ávila Santos

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho compara modelos de aprendizado de máquina para prever a lucratividade de startups usando dados públicos estruturados, incluindo variáveis financeiras, operacionais e setoriais. O objetivo é identificar os principais preditores de lucratividade e o modelo com melhor desempenho, avaliado por métricas como área sob a curva ROC (AUC-ROC), F1-score e precisão. No contexto do ecossistema de inovação, a capacidade de antecipar o sucesso financeiro é um desafio para investidores e aceleradoras, e a alocação de capital de risco depende de ferramentas analíticas que reduzam a incerteza e a assimetria de informação.

Startups, definidas como organizações temporárias em busca de um modelo de negócio repetível e escalável (Blank e Dorf, 2020), operam em um ambiente de alta volatilidade e insucesso (CB Insights Research, 2021). A lucratividade é um indicador crucial de sustentabilidade e viabilidade de longo prazo, influenciando a atração de investimentos e eventos de saída bem-sucedidos, como aquisições ou ofertas públicas iniciais (Metrick e Yasuda, 2021). A complexidade de sua trajetória impõe limitações aos modelos estatísticos tradicionais, que frequentemente falham em capturar as interações não lineares que governam o desempenho financeiro.

Algoritmos de aprendizado de máquina são uma alternativa robusta para superar essas limitações, identificando padrões em dados multidimensionais (Yin et al., 2021). Pesquisas já exploraram a previsão de desfechos como IPOs ou aquisições (Kim et al., 2023). Esta análise contribui ao focar especificamente na lucratividade com um conjunto de dados público e replicável, promovendo transparência e reprodutibilidade. A comparação sistemática entre algoritmos de paradigmas linear, baseado em regras e de conjunto (ensemble) permite uma avaliação abrangente de suas capacidades preditivas e de interpretabilidade.

Modelos preditivos têm papel estratégico no ecossistema de inovação. Para investidores-anjo, fundos de capital de risco e aceleradoras, a capacidade de avaliar o potencial de rentabilidade mitiga riscos e otimiza a alocação de recursos, direcionando capital para as empresas com maior probabilidade de gerar retornos expressivos (Maarouf et al., 2025). A relevância desta pesquisa se manifesta em três dimensões: o uso de dados abertos, que democratiza a análise e permite validação externa; a análise comparativa de modelos com diferentes complexidades, oferecendo um panorama do trade-off entre acurácia e interpretabilidade; e a aplicabilidade direta dos achados para subsidiar estratégias de investimento mais informadas.

Este estudo caracteriza-se como uma pesquisa “Ex-Post-Facto”, ou Caso-Controle, que analisa dados históricos de startups para identificar os fatores associados à lucratividade. A fonte de dados foi o conjunto “Startup Growth & Funding Trends” da plataforma Kaggle, com informações de aproximadamente 500 empresas. As variáveis incluem indicadores financeiros (montante de financiamento, valuation em milhões de dólares), métricas operacionais (número de funcionários, participação de mercado) e atributos estruturais (ano de fundação, indústria, status de saída). A variável-alvo, “Profitable”, foi definida como binária, com valor 1 para empresas lucrativas e 0 para não lucrativas.

O pré-processamento dos dados incluiu a verificação de registros duplicados e a conversão de colunas para os tipos de dados apropriados. A análise de valores ausentes não revelou lacunas que exigissem imputação. Para o tratamento de valores atípicos, identificados principalmente na variável “Valuation (M USD)”, aplicou-se a técnica de winsorização, que limita os valores extremos a um determinado percentil. As variáveis categóricas, como “Industry” e “Region”, foram transformadas em representações numéricas via “one-hot encoding”, enquanto as variáveis numéricas foram submetidas à padronização utilizando o algoritmo StandardScaler, procedimento essencial para que as diferenças de escala não influenciassem os modelos.

Devido à dimensão reduzida do conjunto de dados, optou-se por uma divisão de 90% para o conjunto de treinamento e 10% para o de teste. Essa decisão visou maximizar o volume de dados para o aprendizado dos modelos, prática recomendada em cenários de dados limitados para garantir estabilidade estatística e evitar subajuste (Hollmann et al., 2025; Sivakumar et al., 2024). Para mitigar o risco de sobreajuste (overfitting) e garantir a robustez das estimativas, adotou-se a validação cruzada estratificada com cinco partições (5-fold cross-validation). Essa técnica assegura que a proporção entre as classes da variável-alvo seja mantida em cada partição, fornecendo uma avaliação confiável da capacidade de generalização dos modelos (Kohavi, 1995; Kuhn e Johnson, 2013). A combinação de validação cruzada com regularização é reconhecida como eficaz para obter resultados sólidos com amostras pequenas (Vabalas et al., 2019).

Foram selecionados três algoritmos de aprendizado supervisionado: Regressão Logística, Árvore de Decisão e Extreme Gradient Boosting (XGBoost). A Regressão Logística foi escolhida como modelo de base (baseline) por sua simplicidade e interpretabilidade (James et al., 2013). A Árvore de Decisão foi incluída por sua capacidade de capturar relações não lineares de forma transparente (Loh, 2014; Molnar, 2020). O XGBoost foi selecionado por representar o estado da arte em métodos de ensemble, reconhecido por seu alto poder preditivo e robustez em dados tabulares (Chen e Guestrin, 2016). A avaliação comparativa foi realizada com base nas métricas de precisão, “recall”, “F1-score” e AUC-ROC (Sokolova e Lapalme, 2009), com a precisão definida como a métrica principal para minimizar falsos positivos. Para aprofundar a interpretabilidade, foram empregadas as técnicas SHAP (Lundberg e Lee, 2017) e “Permutation Importance”.

A análise exploratória dos dados revelou um perfil heterogêneo das startups. A média de captação de recursos (“Funding Amount”) foi de 152,7 milhões de dólares, com desvio-padrão de 86,7 milhões. O valuation médio atingiu 1,37 bilhão de dólares, também com alta variabilidade. A receita média foi de 49,3 milhões de dólares, e o número médio de funcionários foi de 2.532. A análise de correlação de Pearson apontou uma forte associação positiva entre “Valuation (M USD)” e “Funding Amount (M USD)” (r = 0,795). As demais correlações entre variáveis numéricas foram de intensidade fraca a moderada.

O teste Qui-Quadrado não revelou dependências estatisticamente significativas (p > 0,05) entre a lucratividade e as variáveis “Industry”, “Region” e “Exit Status”, embora o p-valor para “Industry” (5,29%) tenha se aproximado do limiar. A análise de correlação das variáveis categóricas (após codificação) com as numéricas mostrou que startups do setor de “Gaming” tiveram correlação positiva com o montante de financiamento, enquanto o setor de “IoT” apresentou correlação negativa com a receita. Empresas que realizaram IPO demonstraram correlação positiva com receita e lucratividade, ao passo que aquelas adquiridas (“Acquired”) exibiram uma correlação negativa com a variável “Profitable”, sugerindo que aquisições podem ocorrer antes que a startup atinja a sustentabilidade financeira.

O teste t de Student, utilizado para comparar as médias das variáveis numéricas entre os grupos de startups lucrativas e não lucrativas, indicou diferenças estatisticamente significativas apenas para “Market Share (%)” e “Valuation (M USD)”. Este achado sugere que a participação de mercado e a avaliação da empresa são diferenciadores importantes entre os dois grupos, enquanto métricas como número de funcionários ou montante de financiamento não apresentaram diferenças médias significativas. A análise da incidência de lucratividade por categoria reforçou esses padrões: o setor de “E-commerce” e a região da Austrália apresentaram as maiores proporções de empresas rentáveis, enquanto o setor de “Cybersecurity” e a região da América do Sul registraram as menores.

A Regressão Logística, configurada com regularização Elastic Net, serviu como um baseline de desempenho modesto, alcançando uma AUC de 0,604 e uma precisão de 60,0% no conjunto de teste. Sua natureza linear se mostrou uma limitação para capturar as interações complexas, resultando em um baixo “recall” (40,9%) e, consequentemente, em uma alta taxa de falsos negativos. O modelo falhou em identificar uma parcela significativa das empresas verdadeiramente lucrativas, o que compromete sua utilidade prática.

O modelo de Árvore de Decisão emergiu como o de melhor desempenho geral. Após um ajuste de hiperparâmetros para controlar sua complexidade (profundidade máxima de 9 e um número mínimo de 10 amostras por folha), o modelo alcançou uma AUC de 0,722 e uma precisão de 71,4% no conjunto de teste. O “F1-score” de 0,556 indicou um equilíbrio superior entre precisão e “recall” (45,5%) em comparação com os outros algoritmos. A capacidade da árvore de realizar partições recursivas no espaço de características permitiu a identificação de regras de decisão não lineares que se ajustaram melhor aos dados.

Contrariando as expectativas, o modelo XGBoost apresentou o desempenho mais fraco. Apesar de sua reputação e do ajuste de hiperparâmetros para mitigar o overfitting, o modelo obteve uma AUC de apenas 0,503 e um “F1-score” de 0,258 no teste. O “recall” foi extremamente baixo (18,2%), indicando que o modelo foi incapaz de generalizar os padrões da classe minoritária. Esse resultado sugere que a complexidade do XGBoost pode ser contraproducente em conjuntos de dados pequenos e heterogêneos; o risco de aprender ruído em vez de sinal é acentuado.

A análise de explicabilidade, focada no modelo de Árvore de Decisão, revelou via SHAP que a previsão de lucratividade foi predominantemente influenciada por “Market Share (%)” e “Funding Rounds”. Estes foram os fatores de maior impacto, indicando que a dominância de mercado e a capacidade de atrair investimentos sequenciais são os principais sinais de viabilidade financeira aprendidos pelo modelo. O montante total de financiamento (“Funding Amount”) também se mostrou relevante, com menor peso. Métricas financeiras como “Revenue” e “Valuation” tiveram uma contribuição marginal, um resultado que pode ser atribuído a limitações da base de dados ou à dinâmica do ecossistema de startups; crescimento e captação são frequentemente priorizados em detrimento da lucratividade imediata.

Este trabalho comparou o desempenho de diferentes modelos de aprendizado de máquina na predição da lucratividade de startups, utilizando um conjunto de dados público. A análise demonstrou que o modelo de Árvore de Decisão obteve o desempenho mais satisfatório, com uma precisão de 71,4% e uma AUC-ROC de 0,722, superando a Regressão Logística, de performance modesta, e o XGBoost, cujo desempenho foi comprometido pela limitação da base de dados. A investigação revelou que a capacidade preditiva está fortemente associada a variáveis que refletem a escala de mercado e o sucesso na captação de recursos, como “Market Share” e “Funding Rounds”. Os resultados confirmam que atributos financeiros clássicos, como receita e valuation, tiveram relevância secundária no modelo de melhor performance, sugerindo que indicadores de crescimento e validação pelo mercado de investimentos são preditores mais fortes de lucratividade futura no contexto analisado. A pesquisa demonstrou a viabilidade de empregar técnicas de aprendizado supervisionado como ferramenta de apoio à decisão para investidores, embora o desempenho dos modelos permaneça condicionado às limitações dos dados públicos disponíveis. Conclui-se que o objetivo foi atingido: demonstrou-se que a previsão de lucratividade de startups é viável com o uso de aprendizado de máquina, sendo o modelo de Árvore de Decisão o mais eficaz entre os testados, com variáveis de escala de mercado e captação de recursos emergindo como os principais preditores.

Referências:
Blank, S.; Dorf, B. 2020. The Startup Owner’s Manual: The Step-By-Step Guide for Building a Great Company. John Wiley & Sons.
Breiman, L.; Friedman, J.; Olshen, R. A.; Stone, C. J. 2017. Classification and Regression Trees. New York: Chapman and Hall/CRC.
CB Insights Research. 2021. Why Startups Fail: Top 12 Reasons | CB Insights. CB Insights Research. Disponível em: https://www. cbinsights. com/research/report/startup-failure-reasons-top/. Acesso em: 16 ago. 2025.
Chen, T.; Guestrin, C. 2016. XGBoost: A Scalable Tree Boosting System. Em Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD ’16. New York, NY, USA: Association for Computing Machinery: 785–794. Disponível em: https://dl. acm. org/doi/10.1145/2939672.2939785. Acesso em: 2 abr. 2025.
Cholil, S. R.; Gernowo, R.; Widodo, C. E.; Wibowo, A.; Warsito, B.; Hirzan, A. M. 2024. Predicting Startup Success Using Tree-Based Machine Learning Algorithms. Revista de Informática Teórica e Aplicada, 31(1): 50–59.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition. eTextbooks for Students. Disponível em: https://stars. library. ucf. edu/etextbooks/453.
Hollmann, N.; Müller, S.; Purucker, L.; Krishnakumar, A.; Körfer, M.; Hoo, S. B.; Schirrmeister, R. T.; Hutter, F. 2025. Accurate predictions on small data with a tabular foundation model. Nature, 637(8045): 319–326.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2013. An Introduction to Statistical Learning. New York, NY: Springer. Disponível em: http://link. springer. com/10.1007/978-1-4614-7138-7. Acesso em: 16 ago. 2025.
Jr, D. W. H.; Lemeshow, S.; Sturdivant, R. X. 2013. Applied Logistic Regression. John Wiley & Sons.
Kaggle. Startup Growth & Funding Trends. Disponível em: https://www. kaggle. com/datasets/samayashar/startup-growth-and-funding-trends. Acesso em: 2 abr. 2025.
Kim, J.; Kim, H.; Geum, Y. 2023. How to succeed in the market? Predicting startup success using a machine learning approach. Technological Forecasting and Social Change, 193: 122614.
Kohavi, R. 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection. Em Proceedings of the 14th international joint conference on Artificial intelligence – Volume 2. IJCAI’95. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 1137–1143.
Kuhn, M.; Johnson, K. 2013. Applied Predictive Modeling. New York, NY: Springer. Disponível em: http://link. springer. com/10.1007/978-1-4614-6849-3. Acesso em: 16 jun. 2025.
Loh, W.-Y. 2014. Fifty Years of Classification and Regression Trees. International Statistical Review, 82(3): 329–348.
Lundberg, S. M.; Lee, S.-I. 2017. A Unified Approach to Interpreting Model Predictions. Em Advances in Neural Information Processing Systems. Curran Associates, Inc. Disponível em: https://proceedings. neurips. cc/paper_files/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract. html. Acesso em: 2 abr. 2025.
Maarouf, A.; Feuerriegel, S.; Pröllochs, N. 2025. A fused large language model for predicting startup success. European Journal of Operational Research, 322(1): 198–214.
McCullagh, P. 2019. Generalized Linear Models. 2o ed. New York: Routledge.
Metrick, A.; Yasuda, A. 2021. Venture Capital and the Finance of Innovation. John Wiley & Sons.
Molnar, C. 2020. Interpretable Machine Learning. Lulu. com.
Razaghzadeh Bidgoli, M.; Raeesi Vanani, I.; Goodarzi, M. 2024. Predicting the success of startups using a machine learning approach. Journal of Innovation and Entrepreneurship, 13(1): 80.
Ries, E. 2011. The Lean Startup: How Today’s Entrepreneurs Use Continuous Innovation to Create Radically Successful Businesses. Crown.
Sivakumar, M.; Parthasarathy, S.; Padmapriya, T. 2024. Trade-off between training and testing ratio in machine learning for medical image processing. PeerJ Computer Science, 10: e2245.
Sokolova, M.; Lapalme, G. 2009. A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4): 427–437.
Vabalas, A.; Gowen, E.; Poliakoff, E.; Casson, A. J. 2019. Machine learning algorithm validation with a limited sample size. PLOS ONE, 14(11): e0224365.
Yin, D.; Li, J.; Wu, G. 2021. Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods. Disponível em: http://arxiv. org/abs/2112.07985. Acesso em: 16 ago. 2025.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade