
16 de janeiro de 2026
Otimização de hiperparâmetros do Light GBM para predição de risco de crédito
Autor(a): Jeferson Fernando Tiepo — Orientador(a): Igor Pinheiro de Araújo Costa
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Dados do Banco Central do Brasil indicam que o crédito às famílias atingiu 4,2 trilhões de reais em 2024, 35,5% do Produto Interno Bruto (PIB) nacional, com crescimento de 12,1% na carteira de empréstimos do Sistema Financeiro Nacional (BACEN, 2025). Essa expansão, embora benéfica para o estímulo econômico, exige metodologias cada vez mais sofisticadas para avaliação do risco de crédito, uma decisão inerentemente tomada sob incerteza com uma probabilidade de perda associada (Sicsú, 2010). As abordagens tradicionais, como os 5 Cs do crédito (caráter, capacidade, condições, capital e colateral) (Suhadolnik, 2023), que por décadas formaram a base da análise de crédito, mostram-se insuficientes para a complexidade e o volume do mercado atual.
Nesse contexto, algoritmos de aprendizado de máquina são cada vez mais aplicados para monitorar e prever o risco de crédito, pois possuem a capacidade de capturar relações complexas e não lineares que modelos econométricos tradicionais, como a regressão logística, frequentemente ignoram (Bodislav et al., 2024). Um exemplo prático dessa transição é o caso do Banco BS2, que implementou um modelo ensemble de gradient boosting baseado em árvores de decisão (GBDT) para alcançar uma gestão de risco mais dinâmica e eficiente (Assis e Decoster, 2025). Um processo manual de ajuste é inviável devido ao vasto espaço de combinações possíveis e raramente alcança uma configuração ótima (Putatunda e Rama, 2019), podendo levar a modelos subotimizados ou com sobreajuste (overfitting).
A otimização de hiperparâmetros (HPO) é, portanto, um passo crucial e desafiador no ciclo de vida do treinamento de modelos de aprendizado de máquina (Wang et al., 2022), mas existe uma lacuna na literatura sobre as maneiras mais eficientes de realizá-la, especialmente no que tange à comparação direta dos trade-offs entre diferentes estratégias em cenários de aplicação real (Quan, 2024). Algoritmos como o Light GBM, uma variante de GBDT conhecida por sua velocidade e eficiência, são promissores em diversas aplicações, como detecção de ataques cibernéticos (Vaishali e Naik, 2024) e fraudes em cartões de crédito, onde a otimização bayesiana demonstrou ser capaz de elevar a acurácia do modelo de 0.942 para 0.987 (Huang, 2020).
O objetivo não é apenas identificar a abordagem mais eficaz em termos de performance preditiva, mas também fornecer insights práticos sobre os trade-offs de custo computacional e tempo de convergência de cada método, oferecendo um guia para profissionais da área. A metodologia empregada neste estudo utilizou a base de dados pública “Home Credit Default Risk” (HCDR), disponibilizada na plataforma de competições de ciência de dados Kaggle (Montoya et al., 2018). A base é composta por sete arquivos distintos, incluindo dados da aplicação principal, histórico de empréstimos anteriores na instituição, histórico de pagamentos, dados de bureaus de crédito e histórico de empréstimos em outras instituições. Essa estrutura rica e multifacetada permite a aplicação de técnicas avançadas de engenharia de variáveis para enriquecer o conjunto de dados de treinamento e capturar diferentes dimensões do perfil de risco do cliente.
A etapa de Análise Exploratória dos Dados (EDA) foi fundamental para compreender a estrutura e as características do dataset.
A análise revelou um conjunto de dados principal com 307.511 observações e 122 variáveis, apresentando um acentuado desbalanceamento da variável alvo (‘TARGET’), com apenas 8,07% das observações classificadas como inadimplentes (TARGET=1). Esse desbalanceamento é um desafio comum em problemas de risco de crédito e, se não tratado adequadamente, pode levar o modelo a desenvolver um viés em favor da classe majoritária, resultando em um desempenho pobre na identificação de inadimplentes.
Para mitigar esse viés, foram adotadas duas estratégias principais: a Validação Cruzada Estratificada, que assegura que a proporção original das classes seja mantida em cada um dos folds de treinamento e validação (Szilvia e Fazekas, 2023), e a ativação do parâmetro isunbalanced=True do próprio algoritmo Light GBM, que internamente aplica pesos maiores aos erros de classificação da classe minoritária durante o treinamento (Islam et al., 2020). A engenharia de variáveis, uma etapa frequentemente citada como fundamental para o sucesso de modelos de aprendizado de máquina (Verdonck et al., 2021), foi realizada de forma extensiva. O processo iniciou-se com o tratamento de dados ausentes, utilizando a imputação de um valor categórico “missingvalue” para variáveis categóricas e a imputação pela mediana para variáveis numéricas, uma abordagem robusta a outliers (Gagolewski, 2025).
Em seguida, para reduzir a multicolinearidade e a redundância de informações, foram removidas 30 variáveis numéricas que apresentavam uma correlação de Pearson superior a 0.95 entre si. A etapa mais criativa envolveu a criação de 33 novas variáveis a partir da combinação de informações dos diferentes arquivos. Essas variáveis foram projetadas com base no conhecimento de domínio do problema, como a quantidade de parcelas pagas em atraso, a razão entre o valor do crédito e a renda do cliente, e a média de dias de atraso em empréstimos anteriores, buscando criar preditores mais poderosos para discriminar bons e maus pagadores (Sicsú, 2010). Após a aplicação da técnica de one-hot encoding para transformar variáveis categóricas em formato numérico, o dataset expandiu para 233 variáveis.
Finalmente, um modelo Light GBM inicial foi treinado com o único propósito de avaliar a importância das variáveis, resultando na remoção de 86 atributos que não contribuíam significativamente para as decisões do modelo, otimizando o processo de treinamento subsequente (Adler e Painsky, 2022). O dataset final para treinamento continha 147 variáveis. O modelo implementado foi o Light GBM, um framework de GBDT que se destaca pela sua eficiência e velocidade, especialmente em grandes conjuntos de dados. Sua performance superior é atribuída a duas otimizações principais: Gradient-based One-Side Sampling (GOSS), que foca o treinamento nas instâncias com maiores gradientes (erros), e Exclusive Feature Bundling (EFB), que agrupa variáveis mutuamente exclusivas para reduzir a dimensionalidade (Ke et al., 2017).
A fase central do estudo foi a otimização de hiperparâmetros (HPO), um componente chave para extrair o máximo desempenho de qualquer modelo de aprendizado de máquina (Yang e Shami, 2020). Foram ajustados os hiperparâmetros numleaves, learningrate, minchildsamples, reglambda, colsamplebytree e subsample, que são conhecidos por terem grande impacto no desempenho do Light GBM (Huang, 2020). A avaliação dos modelos utilizou a métrica AUC (Area Under the Receiver Operating Characteristic Curve) como indicador principal, devido à sua robustez em cenários desbalanceados, complementada por acurácia, precisão, sensibilidade (recall) e F1-Score para uma análise mais completa (Junior et al., 2022; Yongcharoenchaiyasit, 2023).
A análise das matrizes de confusão dos cinco modelos (um com parâmetros padrão e quatro otimizados) revelou nuances preditivas importantes para a aplicação em risco de crédito. Neste domínio, o erro mais crítico é o falso negativo, que ocorre quando o modelo classifica um cliente inadimplente como adimplente, levando a instituição a conceder um crédito que resultará em prejuízo. O modelo otimizado com Halving Search apresentou a menor taxa de falsos negativos, indicando uma maior capacidade de identificar corretamente os clientes de alto risco. Em contrapartida, os modelos otimizados com Grid Search e Bayes Search exibiram taxas superiores de verdadeiros negativos, ou seja, foram mais eficazes em identificar corretamente os clientes adimplentes.
Essa característica os torna mais adequados para cenários de maior aversão ao risco, onde a estratégia de negócio prioriza evitar a concessão de crédito a clientes com qualquer sinal de risco, mesmo que isso signifique rejeitar alguns bons clientes.
A análise quantitativa das métricas de desempenho aprofundou esses achados. O modelo com Halving Search alcançou a maior sensibilidade (0.2625), confirmando ser o mais eficaz em identificar a classe minoritária de inadimplentes. No entanto, essa alta sensibilidade veio ao custo da menor precisão (0.1659), indicando uma tendência a classificar um número maior de bons pagadores como de alto risco (aumento de falsos positivos). Por outro lado, o modelo otimizado com Grid Search se mostrou o mais equilibrado, apresentando os melhores valores de acurácia (0.9193), especificidade (0.9791) e F1-Score (0.2954), embora tenha sido o de maior custo computacional. O Bayes Search emergiu como a opção com o melhor custo-benefício, convergindo rapidamente para uma solução de alta performance, com métricas muito próximas às do Grid Search, mas em uma fração do tempo de treinamento.
Um padrão observado em todos os modelos foi o baixo valor de precisão, indicando uma dificuldade geral em evitar a classificação de bons pagadores como inadimplentes. Este resultado é uma consequência direta da estratégia adotada para lidar com o desbalanceamento de classes. Ao penalizar mais fortemente os erros na classe minoritária (inadimplentes), os modelos foram induzidos a adotar uma postura mais conservadora e cautelosa, aumentando a taxa de falsos positivos para garantir a captura do maior número possível de verdadeiros positivos.
A análise da curva ROC confirmou que todos os modelos otimizados superaram significativamente uma classificação aleatória, com valores de AUC muito próximos, variando em uma faixa estreita entre 0.775 e 0.779. Essa pequena variação sugere que as diferentes estratégias de HPO, apesar de suas abordagens distintas, convergiram para soluções de qualidade preditiva similar. Isso reforça a hipótese de que o principal ganho de performance do modelo não proveio do ajuste fino dos hiperparâmetros, mas sim da robusta etapa de engenharia de variáveis realizada anteriormente.
A análise da importância das variáveis, utilizando o método de ganho de informação do próprio Light GBM, revelou que os scores de crédito de bureaus externos (extsource1, extsource2, extsource3) foram consistentemente os atributos mais importantes em todos os modelos. Outras variáveis de alto impacto preditivo foram daysbirth (interpretada como uma proxy para o tempo de relacionamento do cliente com o sistema financeiro) e daysemployed (indicador de estabilidade profissional e financeira). Diversas variáveis criadas na etapa de engenharia de variáveis, como qtdeparcelaspagas_atrasado e a razão entre o valor do crédito e a anuidade, demonstraram alto poder preditivo, validando a importância crítica dessa etapa para o sucesso do projeto.
A análise SHAP (SHapley Additive exPlanations) corroborou esses achados, fornecendo interpretabilidade ao modelo ao mostrar visualmente como valores mais altos nos scores externos reduzem a probabilidade de inadimplência, enquanto um histórico de atraso em parcelas a aumenta significativamente. A comparação dos resultados obtidos com outros trabalhos que utilizaram a mesma base de dados HCDR e o algoritmo Light GBM é essencial para contextualizar o desempenho alcançado. Os valores de AUC obtidos neste estudo (entre 0.775 e 0.779) estão alinhados e são competitivos com os de estudos como os de Qiu et al. (2019), Tounsi et al. (2020) e Daoud (2019), que reportaram AUCs em faixas similares. Contudo, é notável que o trabalho de Mahmudi et al. (2022) alcançou um AUC superior de 0.81. Além disso, eles possivelmente aplicaram uma engenharia de variáveis ainda mais sofisticada.
Essa comparação evidencia que, embora os resultados deste estudo sejam robustos e válidos, há um potencial claro de aprimoramento com a incorporação de técnicas mais avançadas de tratamento de dados desbalanceados. Este trabalho demonstrou que, embora as estratégias de otimização de hiperparâmetros para o Light GBM tenham gerado modelos com desempenho superior ao aleatório e ao modelo base, as diferenças de performance preditiva entre elas foram marginais, com AUCs variando apenas entre 0.775 e 0.779.
A análise de importância das variáveis revelou de forma consistente que scores de crédito externos e variáveis relacionadas à estabilidade do cliente, como idade e tempo de emprego, são os fatores preditivos mais cruciais. A principal limitação deste estudo foi o tratamento do desbalanceamento de classes, que se baseou apenas em um parâmetro do modelo, sem explorar técnicas de reamostragem como SMOTE ou ADASYN, que poderiam ter melhorado a capacidade do modelo de aprender os padrões da classe minoritária. Trabalhos futuros podem se concentrar na aplicação dessas técnicas e na comparação do Light GBM com outros algoritmos de gradient boosting de ponta, como XGBoost e CatBoost, para uma análise comparativa ainda mais abrangente.
Conclui-se que o objetivo foi atingido: demonstrou-se que, embora as estratégias de otimização de hiperparâmetros apresentem performances similares, a engenharia de variáveis é o fator determinante para a construção de um modelo preditivo robusto para o risco de crédito.
Referências:
Adler, A. I.; Painsky, A. 2022. Feature Importance in Gradient Boosting Trees with Cross-Validation Feature Selection. Entropy, vol 24, 687.
Affine. 2021. Gradient Boosting Trees for Classification: A Beginner’s Guide. Disponível em: https://affine. ai/gradient-boosting-trees-for-classification-a-beginners-guide. Acesso em: 28/05/2025.
Assis, A. G. De; Decoster, S. R. A. 2025. Gerenciamento De Risco De Crédito Por Meio Da Utilização De Aprendizado De Máquina: O Caso Do Banco BS2. Rev. Catarin. Ciênc. Contáb. Vol 24. e3526.
Banco Central do Brasil [BACEN]. 2025. Estatísticas Monetárias e de Crédito. Disponível em https://www. bcb. gov. br/content/estatisticas/histestatisticasmonetariascredito/202501Textodeestatisticasmonetariasedecredito. pdf. Acesso em 16/03/2025.
Bischl, B.; Binder M.; Lang M.; Pielok T.; Richter J.; Coors S.; Thomas J.; Ullmann T.; Becker M.; Boulesteix A.; Deng D.; Lindauer M. 2022. Hyperparameter optimization Foundations, algorithms, best practices, and open challenges. WIREs Data Mining Knowl Discov. vol 13, 1484.
Bodislav, D. A.; Bran, F.; Petrescu, I. E.; Gombo C. C. 2024. The Integration of Machine Learning in Central Banks: Implications and Innovations. European Journal of Sustainable Development Vol 13 N 4.
Daoud, E. A. 2019. Comparison Between XGBoost, LightGBM And CatBoost Using a Home Credit Dataset. World Academy of Science, Engineering And Technology International Journal of Computer And Information Engineering. Vol 13, N 1.
Dhummad, S. 2025. The Imperative of Exploratory Data Analysis in Machine Learning. Scholars Journal of Engineering and Technology. 13(1): 30-44.
Gagolewski, M. 2025. Minimalist Data Wrangling with Python. Melbourne, Disponível em: https://datawranglingpy. gagolewski. com/. Acesso em: 25/04/2025.
Huang, K. 2020. An Optimized LightGBM Model for Fraud Detection. Journal of Physics: Conference Series 1651.
Islam, K.; Hridi P.; Hossain, S.; Narman, H. S. 2020. Network Anomaly Detection Using LightGBM: A Gradient Boosting Classifier. International Telecommunication Networks and Applications Conference (ITNAC), vol 30, 1-7.
Junior, G. B. V.; Lima, B. N.; Pereira, A. A.; Rodrigues, M. F.; Oliveira, J. R. L.; Silio, L. F.; Carvalho, A. S.; Ferreira, H. R.; Passos, R. P. 2022. Métricas Utilizadas Para Avaliar a Eficiência de Classificadores em Algoritmos Inteligentes. Centro de Pesquisas Avançadas em Qualidade de Vida. Vol 14.
Ke, G.; Meng, Q.; Finley, T.; Wang, T.; Chen, W.; Ma, W.; Ye, Q.; Liu, T. 2017. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Proceedings of the 31st International Conference on Neural Information Processing Systems, 3146–3154.
Mahmudi, H; Bhargava, R; Das, R. 2022. Evaluation of Gradient Boosting Algorithms on Balanced Home Credit Default Risk. International Conference on Trends in Quantum Computing and Emerging Business Technologies.
Montoya, A.; Inversion; KirillOdintsov; Kotek, M. 2018. Home Credit Default Risk. Disponível em: https://kaggle. com/competitions/home-credit-default-risk, Acesso em: 01/03/2025.
Nguyen, L. H.; Sagara, M. 2020. Credit Risk Database for SME Financial Inclusion. ADBI Working Paper. Tokyo: Asian Development Bank Institute. No 1111.
Putatunda, S.; Rama, K. 2019. A Modified Bayesian Optimization based Hyper-Parameter Tuning Approach for Extreme Gradient Boosting. Fifteenth International Conference on Information Processing.
Quan, S. J. 2024. Comparing hyperparameter tuning methods in machine learning based urban building energy modeling: A study in Chicago. Energy and Buildings, Vol 317.
Qiu, Z; Li, Y; Ni, P; Li, G. 2019. Credit Risk Scoring Analysis Based on Machine Learning Models. International Conference on Information Science and Control Engineering.
Sicsú, A. L. 2010. Credit Scoring. 1ed. Editora Edgard Blücher Ltda, São Paulo, SP, Brasil.
Suhadolnik, N.; Ueyama, J.; Da Silva, S. 2023. Machine Learning for Enhanced Credit Risk Assessment: An Empirical Approach. Journal Risk Financial Management, Vol 16, 496.
Szilvia, S.; Fazekas, A. 2023. A Comparative Study of the Use of Stratified Cross-Validation and Distribution-Balanced Stratified Cross-Validation in Imbalanced Learning. Sensors, no 4, 2333.
Tounsi, Y; Anoun, H; Hassouni, L. 2020. CSMAS – Improving Multi-Agent Credit Scoring System by Integrating Big Data and The New Generation of Gradient Boosting Algorithms.
Vaishali, R., Naik, S. M., 2024. A Novel LightGBM-Bayesian Approach for DDoS Detection in SDN Environments, Moratuwa Engineering Research Conference.
Verdonck, T.; Baesens, B.; Óskarsdóttir M.; Broucke S. V. 2021. Special issue on feature engineering editorial. Machine Learning, vol 113, 3917–3928.
Wade, C. 2020. Hands-On Gradient Boosting with XGBoost and scikit-learn. Packt Publishing, Birmingham, United Kingdom.
Wang, X.; Liu, Y.; Chen, A.; Ruan, X. 2022. Auto-Tuning Ensemble Models for Estimating Shear Resistance of Headed Studs in Concrete. Journal of Building Engineering, Vol 52.
Wyk, A. V. 2023. Machine Learning with LightGBM and Python. Packt Publishing, Birmingham, United Kingdom.
Yang, L.; Shami, A. 2020. On hyperparameter optimization of machine learning algorithms, theory and practice. Neurocomputing, vol 415, 295–316.
Yongcharoenchaiyasit, K.; Arwatchananukul, S.; Temdee, P.; Prasad, R. 2023. Gradient Boosting Based Model for Elderly Heart Failure, Aortic Stenosis, and Dementia Classification. IEEE Access, Vol 11.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































