13 de abril de 2026
PixSim: Detecção de Fraudes no Pix via Simulação Estocástica
Wellyson de Freitas Santos; Daniel Alvarez Firmino
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A digitalização dos serviços financeiros tem sido impulsionada pela disseminação global de sistemas de pagamentos instantâneos desenvolvidos por bancos centrais, com projeções indicando que esses sistemas processarão cerca de uma em cada quatro transações eletrônicas globais até 2028 (ACI Worldwide e GlobalData, 2024). No cenário brasileiro, o Pix foi instituído pelo Banco Central do Brasil em 2020 como o sistema nacional de pagamentos instantâneos (BCB, 2020) e consolidou-se rapidamente como o principal meio de pagamento do país, figurando entre os sistemas de maior crescimento no mundo (Frost et al., 2024). Esse desempenho sem precedentes é atribuído a uma combinação de fatores institucionais e regulatórios (Schapiro et al., 2023; Duarte et al., 2022; Lobo e Brandt, 2021), além da ampla adoção pelos usuários finais, motivada pela rapidez da liquidação, disponibilidade ininterrupta e simplicidade operacional (Amboage et al., 2024). Entretanto, paralelamente aos benefícios de inclusão financeira e eficiência econômica, um risco central e crescente desses sistemas são as fraudes financeiras (WBG, 2023a, b; BIS, 2016). No Brasil, observa-se um crescimento relevante das infrações associadas ao Pix, com predominância de golpes baseados em engenharia social (Silverguard, 2024; Data Rudder, 2024). Em resposta, o órgão regulador implementou medidas de mitigação, incluindo limites noturnos de transação (BCB, 2024a) e o Mecanismo Especial de Devolução, que possibilita a restituição de valores em casos específicos de fraude mediante solicitação do usuário (BCB, 2021). As infrações são notificadas pelos Provedores de Serviços de Pagamento através do Diretório de Identificadores de Contas Transacionais do Banco Central do Brasil, sendo classificadas em tipologias como golpe e coerção, caracterizadas como fraudes autorizadas pelo usuário, e tomada de conta e acesso fraudulento, classificadas como fraudes não autorizadas (BCB, 2024b).
Técnicas de aprendizado de máquina supervisionado têm sido amplamente utilizadas na prevenção de fraudes financeiras (Aros et al., 2024). A eficácia desses modelos depende da disponibilidade de grandes volumes de dados rotulados para treinamento. Enquanto o domínio de cartões de crédito dispõe de bases consolidadas e amplamente utilizadas pela comunidade científica, como o conjunto de dados fornecido pela Vesta Corporation (2019), o contexto dos pagamentos instantâneos é recente e marcado por escassez de dados públicos. No caso do Pix, dados reais de transações são altamente sensíveis e protegidos por regulamentações de privacidade, enquanto as informações disponíveis publicamente sobre fraudes são limitadas em volume e granularidade. Diante dessa lacuna, simuladores de transações surgem como uma alternativa viável para a geração de dados sintéticos, possibilitando a criação de grandes volumes de transações realistas que preservam propriedades estatísticas dos dados reais sem expor informações sensíveis. As abordagens mais recorrentes incluem simulações baseadas em agentes, que modelam comportamentos individuais de forma mais determinística, e microssimulações, que utilizam distribuições probabilísticas de maneira predominantemente estocástica. Essa estratégia já foi aplicada em diferentes contextos financeiros, como no BankSim, voltado à simulação de transações bancárias (Lopez-Rojas e Axelsson, 2014), no PaySim, focado em pagamentos móveis (Lopez-Rojas et al., 2016), e no CardSim, que utiliza uma abordagem bayesiana para simulação de fraudes em cartões de crédito (Allen, 2025). O objetivo central foi desenvolver e validar um simulador de pagamentos instantâneos voltado ao contexto brasileiro, com geração estocástica de transações Pix calibrada a partir de dados oficiais para garantir realismo e rotulação de fraudes não autorizadas baseada em classificação bayesiana, de forma eficiente, parametrizável e reprodutível.
A coleta de dados para a calibração do simulador foi realizada a partir de duas fontes oficiais do Banco Central do Brasil. A primeira fonte foi a Plataforma Olinda, utilizando sua interface de programação de aplicações que implementa o protocolo de dados abertos para acesso a três conjuntos distintos. O primeiro conjunto, denominado S, compreende estatísticas gerais de transações Pix. O segundo, denominado C, detalha transações por município. O terceiro, denominado T, apresenta a quantidade e o valor médio das transações liquidadas ao longo do dia em intervalos de 30 minutos, refletindo o comportamento dos últimos 30 dias. A segunda fonte de dados foi obtida através da Lei de Acesso à Informação, sob o protocolo 18810.008783/2025-67, em que o órgão regulador forneceu estatísticas sob demanda sobre as notificações de infrações fechadas desde o lançamento do sistema em 2020, compondo o conjunto de dados F. O conjunto S contém estatísticas mensais de quantidade e valores de transações por pessoa física ou jurídica, região do país e faixa etária, abrangendo desde usuários com menos de 19 anos até aqueles com mais de 60 anos. Esse conjunto detalha a forma de iniciação, como manual, chave Pix, QR estático ou dinâmico, além da natureza da transação e sua finalidade, incluindo modalidades como Pix Saque e Pix Troco. O conjunto C abrange 5.570 observações correspondentes aos municípios brasileiros, identificados pelo código de sete dígitos do Instituto Brasileiro de Geografia e Estatística, permitindo a análise de fluxos entre pagadores e recebedores em nível local. O conjunto T é composto por 48 observações diárias que capturam o padrão médio intradiário de movimentação, essencial para mitigar a disparidade temporal entre os dados mensais e o comportamento em tempo real. Por fim, o conjunto F apresenta estatísticas de notificações de infração aceitas e recusadas por tipologia, permitindo o cálculo da taxa de fraude real.
O pré-processamento dos dados coletados envolveu o cálculo de estatísticas derivadas e análise exploratória para garantir a consistência necessária à calibração. O tratamento inicial incluiu a renomeação de colunas, conversão de tipos de dados e padronização de categorias regionais. Para cada agregação dos conjuntos S e C, calculou-se o valor médio de transação e o peso relativo de cada segmento em relação ao total. No conjunto F, as tipologias de tomada de conta e acesso fraudulento foram combinadas para representar as fraudes não autorizadas. A taxa de fraude foi definida como a proporção de notificações aceitas em relação à quantidade total de transações do conjunto S. A dimensão temporal foi analisada pela curva de valor e quantidade média ao longo do dia, identificando períodos de maior e menor atividade. A análise espacial e demográfica incluiu a avaliação de fluxos transacionais agregados entre grupos de pagadores e recebedores, permitindo identificar combinações de região e faixa etária com maior volume financeiro. Para apoiar a interpretação desses padrões, utilizaram-se mapas coropléticos baseados no conjunto de dados espaciais do Brasil produzido pelo Instituto de Pesquisa Econômica e Aplicada (Pereira et al., 2019). A modelagem da simulação concentrou-se especificamente em fraudes não autorizadas, onde o agente malicioso obtém acesso indevido à conta do pagador por engenharia social ou roubo de credenciais e executa transações sem consentimento. Essa opção metodológica justifica-se pela maior aderência dos dados disponíveis à calibragem estocástica, visto que esse tipo de fraude apresenta sinais mais pronunciados em atributos transacionais observáveis, como valor, horário e distância geográfica, ao passo que fraudes autorizadas demandariam modelagens complexas de redes relacionais e comportamento humano.
A geração de transações foi implementada como um processo estocástico baseado em distribuições de probabilidade empíricas extraídas dos dados oficiais. O conjunto S serviu como base para a seleção por amostragem aleatória estratificada proporcional à quantidade de transações para cada combinação de características do pagador e do recebedor, incluindo tipo de pessoa, faixa etária, região, natureza da transação e forma de iniciação. O conjunto C foi utilizado para aumentar a granularidade geográfica, permitindo a seleção do município de residência de forma proporcional à movimentação local. Definidas as características iniciais, o valor da transação foi modelado seguindo uma distribuição log-normal, família de distribuições apropriada para variáveis financeiras estritamente positivas com assimetria à direita e caudas longas (Limpert et al., 2001). A distribuição recebeu como parâmetro de locação o valor médio extraído do conjunto S para a combinação específica de atributos, enquanto o parâmetro de dispersão foi mantido fixo em 1,0 devido à ausência de dados públicos sobre a variabilidade específica. O horário da transação foi selecionado em duas etapas: primeiro, escolheu-se um intervalo de 30 minutos com probabilidade proporcional ao volume observado no conjunto T; em seguida, o instante exato foi sorteado a partir de uma distribuição uniforme discretizada em segundos, variando de 0 a 1.799, garantindo uma granularidade mínima de um segundo para cada registro sintético.
A rotulagem de fraude foi realizada por meio de um classificador Naive Bayes, método probabilístico fundamentado no Teorema de Bayes que assume independência condicional entre as variáveis explicativas. O objetivo foi calcular a probabilidade posterior de fraude dado um conjunto de variáveis que caracterizam a transação. A razão de chances de uma transação ser fraudulenta foi expressa pelo produto das razões de verossimilhança de cada variável explicativa multiplicado pela razão de chances a priori de fraude. Foram selecionadas três variáveis explicativas centrais: valor da transação, horário e distância geográfica entre os participantes. O valor foi modelado como variável contínua seguindo a distribuição log-normal calibrada com estatísticas de fraude do Banco Central do Brasil, onde o valor médio das transações fraudulentas mostrou-se significativamente superior ao das legítimas. Para o horário, adotaram-se os intervalos de 30 minutos do conjunto T para transações legítimas, enquanto a distribuição para fraudes foi modelada de forma independente, atribuindo maiores probabilidades aos períodos entre 06h00 e 08h00 e entre 18h00 e 22h00, baseando-se em medidas de limites noturnos e na suposição de menor atenção dos usuários nessas janelas temporais. A distância geográfica foi simplificada em uma variável binária indicando se a transação é intramunicipal ou intermunicipal, assumindo uma maior tendência de localidade para transações legítimas. A decisão binária final foi baseada em uma estratégia de ordenação por ranking, onde as transações com maiores razões de chances foram rotuladas como fraude até atingir a taxa configurada no simulador, garantindo precisão estatística no volume gerado.
O simulador foi implementado em linguagem Python, utilizando bibliotecas como scikit-learn, pandas e NumPy para manipulação eficiente de grandes volumes de dados através de operações vetorizadas. A geração de números aleatórios utilizou a biblioteca random, com a inclusão de uma semente fixa para garantir a reprodutibilidade total dos resultados. Para avaliar o desempenho computacional, mensuraram-se o tempo de execução, consumo de memória e operações de entrada e saída de dados a partir da média de 10 execuções. O PixSim foi disponibilizado como projeto de código aberto, incluindo documentação detalhada para facilitar o uso pela comunidade científica. A validação prática dos dados sintéticos envolveu o treinamento de cinco algoritmos de aprendizado de máquina: Regressão Logística, Perceptron Multicamadas, Random Forest, XGBoost e CatBoost. Realizou-se engenharia de características para incluir transformações não lineares do valor, criação de faixas discretas e interações entre variáveis. A avaliação dos modelos utilizou validação cruzada estratificada com cinco partições, essencial devido ao desbalanceamento de classes, onde apenas 1,0% das transações eram fraudulentas. As métricas de desempenho incluíram precisão, sensitividade, F1-score e a área sob a curva de precisão-sensibilidade. Adicionalmente, aplicou-se a técnica de interpretabilidade SHAP ao modelo CatBoost para identificar as características mais relevantes e validar a coerência das decisões do modelo com as premissas metodológicas adotadas na construção do simulador.
Os resultados das simulações demonstraram que o PixSim é capaz de gerar grandes volumes de dados de forma extremamente rápida e eficiente. Para a geração de 1.000.000 de transações, o tempo médio de execução foi de aproximadamente 70 segundos em um ambiente computacional padrão com oito núcleos de processamento e 16 GB de memória. Em testes incrementais, o tempo de execução apresentou crescimento linear, variando de um a três segundos para cada 100.000 transações adicionais. O consumo máximo de memória estabilizou-se em torno de 800 MB, evidenciando o baixo custo computacional da abordagem estocástica em comparação com simulações baseadas em agentes. A análise exploratória dos dados sintéticos confirmou a aderência às estatísticas oficiais. O valor médio das transações legítimas geradas foi de R$ 403,20, enquanto as fraudulentas apresentaram média de R$ 2.537,36, refletindo a discrepância de aproximadamente seis vezes observada nos dados reais. A curva de densidade dos valores sintéticos exibiu a distribuição log-normal esperada, com maior curtose e assimetria positiva para transações legítimas e uma cauda mais longa para as fraudulentas. Embora exista sobreposição parcial entre as distribuições, o que reflete a complexidade real da detecção, a separação estatística foi suficiente para fornecer sinais discriminativos aos modelos de aprendizado de máquina.
Na dimensão temporal, os dados sintéticos reproduziram fielmente os picos de atividade observados empiricamente às 12h e 18h, bem como a redução drástica de volume durante a madrugada. A incorporação de maior incidência de fraudes nos períodos matutino e noturno resultou em padrões temporais distintos que foram capturados pelos algoritmos de classificação. Geograficamente, a simulação manteve a concentração urbana identificada nos dados do Banco Central do Brasil, onde as dez cidades mais ativas respondem por 23,71% do volume total. O padrão de localidade também foi preservado, com a maioria das transações ocorrendo dentro da mesma região geográfica. A eficiência do simulador é notável quando comparada a ferramentas como o PaySim, que pode levar cerca de 30 minutos para processar um ciclo completo de interações entre agentes. A abordagem adotada evita a computação direta de distâncias contínuas entre milhares de agentes, permitindo que a avaliação da variável de distância ocorra em tempo constante por transação. No entanto, reconhece-se que essa simplificação limita a capacidade de capturar dinâmicas comportamentais complexas e interdependentes, como padrões de lavagem de dinheiro que envolvem sequências coordenadas entre múltiplos agentes ao longo do tempo (Suzumura e Kanezashi, 2021).
A validação por meio de modelos de aprendizado de máquina confirmou a utilidade prática dos dados gerados. Os modelos baseados em árvores de decisão apresentaram o melhor desempenho, com o XGBoost e o CatBoost atingindo uma área sob a curva de precisão-sensibilidade de 0,97. A Regressão Logística e o Perceptron Multicamadas apresentaram resultados inferiores, com métricas de 0,74 e 0,89, respectivamente, sugerindo que as relações entre as variáveis no simulador possuem características não lineares que são melhor capturadas por modelos de conjunto. A análise de interpretabilidade via SHAP aplicada ao CatBoost indicou que o valor da transação, o horário e a distância geográfica figuram como as características mais relevantes para a detecção, corroborando as escolhas metodológicas feitas durante o desenvolvimento. Outras variáveis, como o tipo de pessoa e a natureza da transação, também contribuíram para as decisões dos modelos, sugerindo que a amostragem estratificada baseada no conjunto S introduziu nuances estatísticas importantes além das variáveis explicativas principais do classificador bayesiano.
Apesar dos resultados promissores, o estudo apresenta limitações decorrentes da escassez de dados públicos detalhados. A validação empírica de certas escolhas de modelagem, como a relação exata entre localização geográfica e tipologias de infração, permanece restrita pela falta de bases rotuladas granulares. A modelagem do horário também se baseou em suposições fundamentadas em limites regulatórios, carecendo de dados empíricos específicos sobre o comportamento dos fraudadores em diferentes janelas de tempo. Além disso, optou-se por não incluir variáveis sociodemográficas detalhadas para evitar a introdução de vieses discriminatórios significativos que poderiam violar princípios de equidade algorítmica. O uso de faixa etária ou localização específica como preditores de fraude poderia penalizar injustamente grupos vulneráveis ou regiões de menor renda, o que vai de encontro às boas práticas regulatórias emergentes sobre inteligência artificial no setor financeiro. O foco exclusivo em fraudes não autorizadas permitiu uma calibração mais precisa, mas deixa uma lacuna em relação aos golpes de engenharia social, que representam uma parcela significativa das ocorrências no ecossistema Pix e exigem abordagens de modelagem distintas.
Conclui-se que o objetivo foi atingido com o desenvolvimento do PixSim, que se demonstrou um simulador estocástico eficiente, capaz de gerar dados sintéticos realistas e aderentes às estatísticas oficiais do Banco Central do Brasil. A ferramenta superou desafios de escassez de dados rotulados ao utilizar uma abordagem de classificação bayesiana para a rotulação automática de fraudes não autorizadas, garantindo sinais discriminativos robustos para o treinamento de modelos de aprendizado de máquina, como evidenciado pelo desempenho superior dos algoritmos XGBoost e CatBoost. A eficiência computacional e a natureza de código aberto do simulador permitem que instituições financeiras e pesquisadores desenvolvam e testem sistemas de detecção sem comprometer a privacidade de dados sensíveis. O estudo preenche uma lacuna importante na literatura de segurança em pagamentos instantâneos no Brasil, fornecendo uma base sólida para futuras expansões que possam incluir dinâmicas de redes de agentes e novas tipologias de fraude.
Referências Bibliográficas:
ACI Worldwide e GlobalData. 2024. It’s prime time for real-time: real-time payments adoption and growth around the globe. Disponível em: https://www.aciworldwide.com/wp-content/uploads/2024/09/2024-Prime-Time-for-Real-Time-Report.pdf. Acesso em 29 set. 2025.
Amboage, G. B.; Monteiro, G. F. A; Bortoluzzo, A. B. 2024. Technological adoption: the case of PIX in Brazil. Innovation & Management Review, v. 21, n. 3, p. 198-211.
Banco Central do Brasil [BCB]. 2020. Resolução BCB nº 1, de 12 de agosto de 2020. Institui o arranjo de pagamentos Pix e aprova o seu Regulamento. Diário Oficial da União, Brasília, 23 ago. 2020. Seção 1, p. 44-48.
Bank for International Settlements [BIS]. 2016. Fast payments – enhancing the speed and availability of retail payments. Disponível em: https://www.bis.org/cpmi/publ/d154.pdf. Acesso em 29 set. 2025.
Data Rudder. 2024. Data Report Pix 2024. Disponível em: https://conteudo.datarudder.com/report-pix. Acesso em 29 set. 2025.
Duarte, A. et al. 2022. Central banks, the monetary system and public payment infrastructures: lessons from Brazil’s Pix. BIS Papers, n. 52. Disponível em: https://www.bis.org/publ/bisbull52.htm. Acesso em 29 set. 2025.
Frost, J. et al. 2024. Fast payments: design and adoption. Disponível em: https://www.bis.org/publ/qtrpdf/r_qt2403c.htm. Acesso em 29 set. 2025.
Lobo, B.; Brandt, C. E. 2021. Pix: The Brazilian fast payments scheme. Journal of Payments Strategy & Systems, v. 15, n. 4, p. 367-375. Disponível em: https://doi.org/10.69554/VUFH5170. Acesso em 29 set. 2025.
Schapiro, M. G; Mouallem, P. S. B.; Dantas, E. G. 2023. Pix: explaining a state-owned Fintech. Brazilian Journal of Political Economy, v. 43, n. 4, p. 874-892.
Silverguard. 2024. Estudo Golpes com Pix. Disponível em: https://www.sosgolpe.com.br/estudo-golpes-com-pix. Acesso em 29 set. 2025.
World Bank Group [WBG]. 2023a. The future of fast payments. Disponível em: https://fastpayments.worldbank.org/sites/default/files/2023-10/Future%20of%20Fast%20Payments_Final.pdf. Acesso em 29 set. 2025. World Bank Group [WBG]. 2023b. Fraud risks in fast Payments. Disponível em: https://fastpayments.worldbank.org/sites/default/files/2023-10/Fraud%20in%20Fast%20Payments_Final.pdf. Acesso em 29 set. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























