Imagem Detecção de fraudes em transações financeiras com técnicas de machine learning

04 de fevereiro de 2026

Detecção de fraudes em transações financeiras com técnicas de machine learning

Danyelle de Barros Siqueira Benatti; Eder Casset tari

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho foi aplicar e avaliar o desempenho de algoritmos de Machine Learning, supervisionados e não supervisionados, para a detecção de fraudes em transações financeiras. A análise comparou múltiplos modelos em termos de acurácia, precisão, recall, F1-score, Área sob a Curva ROC (AUC) e tempo de processamento, visando identificar as abordagens mais eficazes para dados massivos e desbalanceados. A crescente digitalização das transações financeiras, que atingiram 186 bilhões de operações no Brasil em 2023 (Deloitte, 2024), intensificou a necessidade de sistemas antifraude robustos e escaláveis. Este cenário é agravado pela sofisticação das táticas fraudulentas, que evoluem constantemente para contornar as defesas existentes, gerando prejuízos bilionários globalmente e minando a confiança dos consumidores no ecossistema digital (ACFE, 2022). A complexidade do problema reside não apenas no volume e na velocidade das transações, mas também na natureza dos dados; as transações fraudulentas representam uma minoria ínfima, um desafio técnico conhecido como desbalanceamento de classes (Bolton & Hand, 2002), que pode comprometer severamente a eficácia dos modelos preditivos.

A relevância da investigação ancora-se na necessidade premente do setor financeiro por soluções que superem as abordagens tradicionais baseadas em regras fixas. Tais sistemas, embora úteis para detectar padrões de fraude conhecidos e simples, são inerentemente reativos e insuficientes para identificar padrões de fraude dinâmicos e emergentes (PwC Brasil, 2022). A sua rigidez leva frequentemente a um elevado número de falsos positivos, gerando atrito na experiência do cliente legítimo, e a uma incapacidade de adaptação a novas tipologias de ataque, como fraudes de identidade sintética ou ataques de engenharia social. Neste contexto, o aprendizado de máquina surge como uma ferramenta paradigmática, capaz de aprender a partir de dados históricos para identificar anomalias e padrões complexos que seriam imperceptíveis a sistemas determinísticos. Estudos anteriores, como os de Martins e Galegale (2022), já apontaram a eficácia de algoritmos como Redes Neurais (NN), Naive Bayes (NB) e Random Forest (RF) em cenários controlados.

A análise preditiva, portanto, não busca apenas classificar transações, mas quantificar a probabilidade de uma transação ser fraudulenta de forma confiável e acionável (Foster & Fawcett, 2016). O desafio do desbalanceamento de dados é central e talvez o mais crítico na modelagem antifraude. Em conjuntos de dados realistas, a proporção de fraudes pode ser inferior a 0,1%, o que leva os modelos a desenvolverem um forte viés em favor da classe majoritária (transações legítimas). Um modelo ingênuo poderia alcançar uma acurácia superior a 99% simplesmente classificando todas as transações como legítimas, sendo, na prática, completamente inútil para o propósito de detecção. Essa característica intrínseca dos dados exige o uso de métricas de avaliação mais sensíveis e informativas, como precisão, recall e F1-score, que oferecem uma visão granular e focada no desempenho da classe minoritária, que é a classe de interesse (Favero & Belfiore, 2024).

Além das métricas, a interpretabilidade dos modelos é uma preocupação crescente e de grande importância prática. Em um setor altamente regulado como o financeiro, os tomadores de decisão precisam compreender os fatores que levam um modelo a emitir uma predição de fraude, tanto para justificar ações como o bloqueio de uma transação, quanto para refinar estratégias de prevenção e cumprir com exigências de auditoria. A natureza de “caixa-preta” de alguns modelos mais complexos, como redes neurais profundas, pode ser uma barreira significativa para a sua adoção em larga escala, impulsionando a pesquisa por técnicas de explicabilidade (XAI – Explainable AI).

Para a condução deste estudo, a metodologia foi estruturada em etapas sequenciais, iniciando com a seleção e preparação do conjunto de dados, seguida pela aplicação de técnicas de pré-processamento e balanceamento, modelagem e, por fim, avaliação comparativa. O conjunto de dados utilizado foi uma base sintética, gerada para emular as características de transações de cartão de crédito do mundo real, contendo um total de 10 milhões de registros. Cada registro representava uma transação única, descrita por 29 variáveis preditoras anonimizadas (resultantes de uma transformação de componentes principais para proteger a privacidade dos dados), além de variáveis como o valor da transação e o tempo decorrido desde a primeira transação no dataset. A variável alvo era binária, indicando se a transação era fraudulenta (classe 1) ou legítima (classe 0).

A proporção de fraudes no conjunto de dados original era de 0,15%, caracterizando um cenário de severo desbalanceamento, alinhado com a realidade operacional das instituições financeiras.

A fase de pré-processamento de dados foi fundamental para garantir a qualidade dos insumos para os modelos. Primeiramente, foi realizada uma análise exploratória para identificar a presença de valores ausentes e outliers. Dado que o dataset era anonimizado, não foram encontrados valores ausentes. As variáveis de valor e tempo, que possuíam escalas muito distintas das demais, foram submetidas a um processo de normalização utilizando a técnica StandardScaler, que transforma os dados para que tenham média zero e desvio padrão um. Esta etapa é crucial para algoritmos sensíveis à escala das features, como Redes Neurais e Regressão Logística. Em seguida, para lidar com o desbalanceamento de classes, foi aplicada a técnica SMOTE (Synthetic Minority Over-sampling Technique).

O SMOTE foi escolhido por sua capacidade de gerar novas amostras sintéticas da classe minoritária, em vez de simplesmente duplicar registros existentes, o que ajuda a evitar o overfitting e a criar regiões de decisão mais robustas para a classe de interesse. A técnica foi aplicada apenas no conjunto de treinamento para evitar o vazamento de dados (data leakage) para o conjunto de teste. O dataset foi então dividido em 70% para treinamento e 30% para teste, utilizando uma amostragem estratificada para manter a proporção original de classes em ambas as partições. A seleção dos modelos buscou abranger diferentes famílias de algoritmos de aprendizado de máquina.

Para a abordagem supervisionada, foram escolhidos: Regressão Logística (RL), como um modelo linear de base para comparação; Naive Bayes (NB), por sua simplicidade e eficiência computacional; Random Forest (RF), um método de ensemble baseado em árvores de decisão conhecido por sua robustez; Gradient Boosting (XGBoost), uma implementação avançada de boosting que frequentemente apresenta desempenho de ponta em competições; e uma Rede Neural Artificial (NN) do tipo Multi-Layer Perceptron (MLP), para avaliar o poder de modelos de aprendizado profundo.

Para a abordagem não supervisionada, foi selecionado o algoritmo Isolation Forest (IF), projetado especificamente para detecção de anomalias, que opera isolando observações anômalas em vez de perfilar pontos normais. A avaliação de desempenho foi realizada utilizando um conjunto abrangente de métricas. A acurácia foi calculada como uma medida geral, mas com a ressalva de sua inadequação em cenários desbalanceados. A precisão, o recall e o F1-score foram as métricas centrais para avaliar a eficácia na detecção da classe minoritária. A Área sob a Curva ROC (AUC) foi utilizada para medir a capacidade discriminativa geral do modelo. Adicionalmente, o tempo de treinamento e o tempo de inferência (predição) por transação foram cronometrados para avaliar a viabilidade operacional de cada modelo em um ambiente de produção que exige respostas em tempo real.

O ambiente computacional consistiu em uma máquina com processador Intel Core i9, 64 GB de RAM e uma GPU NVIDIA RTX 3080, utilizando Python 3.9 e bibliotecas como Scikit-learn, Pandas, NumPy e TensorFlow. Os resultados obtidos na avaliação dos modelos supervisionados revelaram diferenças significativas de desempenho. O modelo de Regressão Logística, servindo como linha de base, apresentou um recall de 0.65 e um F1-score de 0.58. Embora computacionalmente muito rápido, sua natureza linear mostrou-se insuficiente para capturar as complexas interações não lineares presentes nos padrões de fraude. O Naive Bayes, por sua vez, obteve um desempenho ainda mais modesto, com um recall de 0.55, evidenciando que a suposição de independência entre as features, inerente ao algoritmo, não se sustenta neste domínio de problema. Em um nítido contraste, os modelos de ensemble baseados em árvores demonstraram uma superioridade marcante.

O Random Forest alcançou um recall de 0.89, uma precisão de 0.91 e um F1-score de 0.90, indicando um excelente equilíbrio entre a capacidade de identificar fraudes e a confiabilidade dos alertas. O modelo de Gradient Boosting (XGBoost) superou ligeiramente o Random Forest, atingindo o melhor desempenho geral entre os modelos supervisionados, com um recall de 0.92, precisão de 0.93 e um F1-score de 0.925. A Rede Neural, após um processo de ajuste de hiperparâmetros, também apresentou resultados competitivos, com um F1-score de 0.89, mas exigiu um tempo de treinamento consideravelmente maior.

A análise do tempo de processamento adicionou uma dimensão prática crucial aos resultados. Enquanto o XGBoost e o Random Forest apresentaram tempos de treinamento na ordem de minutos, a Rede Neural demandou várias horas para convergir. Mais importante, no entanto, foi o tempo de inferência. O XGBoost demonstrou ser extremamente eficiente, com um tempo médio de predição de poucos milissegundos por transação, tornando-o altamente viável para implementação em sistemas de detecção em tempo real. O Random Forest também se mostrou rápido, embora ligeiramente mais lento que o XGBoost. A Regressão Logística e o Naive Bayes foram os mais rápidos, mas seu desempenho preditivo inferior os torna menos atraentes para aplicações críticas. A Rede Neural, dependendo da sua arquitetura, apresentou um tempo de inferência que, embora rápido, foi superior ao dos modelos de boosting, exigindo uma infraestrutura de hardware mais robusta para operar na mesma latência.

Estes resultados sublinham o trade-off fundamental entre complexidade do modelo, poder preditivo e eficiência computacional. Na frente não supervisionada, o algoritmo Isolation Forest foi avaliado em sua capacidade de detectar anomalias sem o uso de rótulos. O modelo conseguiu identificar uma porção das transações fraudulentas, alcançando um recall de 0.45. No entanto, sua precisão foi baixa, de 0.30, o que significa que gerou um número considerável de falsos positivos. Este resultado é esperado para métodos não supervisionados, que são geralmente menos precisos que os supervisionados quando dados rotulados de qualidade estão disponíveis. A principal vantagem do Isolation Forest, contudo, reside em sua capacidade de identificar padrões de fraude novos e não vistos anteriormente, para os quais os modelos supervisionados, treinados em dados históricos, poderiam estar cegos.

Portanto, uma abordagem híbrida, utilizando o Isolation Forest como uma primeira camada de triagem para anomalias ou para sinalizar novos comportamentos suspeitos que podem então ser investigados e usados para retreinar os modelos supervisionados, surge como uma estratégia promissora. A discussão dos resultados também reforçou a importância da interpretabilidade. Modelos como Random Forest e XGBoost permitem a extração da importância das features, revelando quais variáveis (como valor da transação, frequência ou localização) foram mais influentes na classificação de uma transação como fraudulenta. Essa capacidade de explicação é inestimável para analistas de fraude, permitindo-lhes validar as decisões do modelo e obter insights sobre as táticas dos fraudadores.

Em síntese, a análise comparativa demonstrou que os algoritmos de ensemble, especificamente o Gradient Boosting (XGBoost) e o Random Forest, ofereceram a combinação mais eficaz de alto poder preditivo, medido por métricas como F1-score e recall, e eficiência computacional, essencial para aplicações em tempo real. A aplicação de técnicas de pré-processamento, como a normalização de features, e de balanceamento de classes, como o SMOTE, foi confirmada como uma etapa indispensável para mitigar o viés da classe majoritária e permitir que os modelos aprendessem a distinguir eficazmente as transações fraudulentas. Enquanto os modelos supervisionados se destacaram na detecção de padrões conhecidos, a abordagem não supervisionada com o Isolation Forest mostrou seu valor potencial na identificação de anomalias emergentes, sugerindo que sistemas antifraude de última geração podem se beneficiar de uma arquitetura híbrida.

A escolha final do modelo em um ambiente de produção dependerá do balanço específico que a instituição financeira deseja alcançar entre a maximização da detecção de fraudes (recall) e a minimização de alertas falsos que impactam clientes legítimos (precisão), além de considerar os requisitos de interpretabilidade e os custos computacionais.

Conclui-se que o objetivo foi atingido.

Referências:
Association of Certified Fraud Examiners. [ACFE]. 2022. Occupational Fraud 2022: A Report to the Nations. Disponível em: < www. ACFE. com/RTTN >. Acesso em: 30 mar. 2025.
Attux, L. B. e R. Apresentação do Power Point, Aprendizado de Máquina: Introdução e definições básicas e motivação. 2019. Disponível em: Acesso em: 31 Mar. 2025.
Benford, F. The law of anomalous numbers. Proceedings of the American Philosophical Society, v.78, n.4, p.551–572, 1938.
Bolton, R. J.; Hand, D. J. 2002. Statistical Fraud Detection: A Review. Statist. Sci. 17(3): 235–255.
Chawla, N. V. et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, v.16, p.321–357, 2002.
Deloitte. 2024. Pesquisa Febraban de Tecnologia Bancária. Disponível em: <https://cmsarquivos. febraban. org. br/Arquivos/documentos/PDF/Pesquisa%20Febraban%20de%20Tecnologia%20Banc%C3%A1ria%20-%20Vol02%20-%20Imprensa. pdf>. Acesso em: 31 mar. 2025.
Favero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados: estatística e Machine Learning com EXCEL®, SPSS®, STATA®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Fernández, Alberto M.; González, Edilberto L. G.; Sanjuán, Oscar; Bravo, César A. A framework for credit card fraud detection based on hybrid metaheuristics. Expert Systems with Applications, v. 184, 2021.
Foster, P.; Fawcett, T. 2016. Data Science para Negócios. 1ed. Alta Books. Rio de Janeiro, RJ, Brasil.
Gregorini, A. 2009. Auditoria de detecção de fraude. Revista da Controladoria-Geral da União 4(6): 8-20.
Ke, G. et al. LightGBM: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 2017.
Kim, Hae-Young et al. Feature generation and contribution comparison for electronic fraud detection using neural networks. Scientific Reports, [S. l.], v. 12, n. 1, p. 1–13, 2022.
King, G., & Zeng, L. 2001. Logistic regression in rare events data. Political Analysis, 9(2), 137–163.
Liu, F. T.; TING, K. M.; ZHOU, Z.-H. Isolation forest. In: 2008 Eighth IEEE International Conference on Data Mining. IEEE, 2008. p.413–422.
Macqueen, J. Some methods for classification and analysis of multivariate observations. In: Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967. p.281–297.
Martins, E.; Galegale, V. N. 2022. Detecção de fraudes no segmento de crédito financeiro utilizando aprendizado de máquina: uma revisão da literatura. Revista E-TECH: Tecnologias Para Competitividade Industrial. 15(3).
Microsoft. LightGBM Documentation. 2023. Disponível em: https://lightgbm. readthedocs. io/. Acesso em: 29 set. 2025.
Pedregosa, f. et al. Scikit-learn: machine learning in Python. Journal of Machine Learning Research, [s. l.], v. 12, 2011.
PwC Brasil. 2022. Pesquisa Global sobre Fraudes e Crimes Econômicos 2022. Disponível em: <https://www. pwc. com. br/pt/estudos/servicos/consultoria-negocios/2022/GECS
2022. pdf>. Acesso em: 31 mar. 2025.
Ribeiro, M. C. P. ; Godri, J. P. A. 2020. Registro empresarial em perspectiva histórica: um olhar sobre o passado para compreender a importância jurídico-econômica do instituto. Revista de Informação Legislativa: RIL, 57(228), 115-132.
Souza, D. H. M.; Júnior, C. J. B. 2023. Novo algoritmo ensemble para detecção de fraude em transações de cartão de crédito. Revista Tecnologia e Sociedade. 19(56).
Vuong, Q. H. 1989. Likelihood ratio tests for model selection and non-nested hypotheses. Econometrica, v. 57, n. 2, p. 307-333.
Zhang, H. 2004. The optimality of Naive Bayes. Proc. Flairs. Disponível em: <https://www. cs. unb. ca/~hzhang/publications/FLAIRS04ZhangH. pdf>. Acesso em: 01 abr. 2025.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade