Risk scoring e priorização de alertas para sistemas antifraude e AML baseados em Machine Learning.
A FraudWatch é uma Proof of Concept (POC) que demonstra a construção de um sistema de priorização de alertas de fraude baseado em Machine Learning.
O projeto trata o modelo como um motor de geração de scores de risco, separando explicitamente três camadas fundamentais de sistemas de risco:
- previsão (risk score);
- decisão (policy de approve / review / block);
- evolução do modelo ao longo do tempo.
Embora o dataset utilizado seja de fraude em cartão, a arquitetura proposta é aplicável a outros domínios de risco transacional, como Prevenção à Lavagem de Dinheiro (PLD/AML) e análise de risco de crédito.
Empresas que operam com grandes volumes de transações financeiras enfrentam desafios como:
- fraudes que passam despercebidas (falsos negativos);
- clientes legítimos bloqueados (falsos positivos);
- limitação de capacidade humana para análise manual;
- forte desbalanceamento entre eventos legítimos e fraudulentos.
A FraudWatch busca priorizar eventos com maior risco, permitindo que equipes concentrem esforços nos casos de maior impacto operacional.
A versão atual implementa um pipeline completo de risk scoring:
- auditoria e análise exploratória do histórico de transações;
- divisão temporal em treino, validação e teste;
- treinamento de modelo baseline (Logistic Regression);
- treinamento e seleção de modelo principal (LightGBM vs XGBoost);
- avaliação com métricas relevantes para fraude:
- Recall
- Precision
- PR-AUC
- matriz de confusão;
- análise de explicabilidade com SHAP;
- definição explícita de política de decisão baseada em score;
- persistência de artefatos analíticos e modelos.
- Python
- Pandas / NumPy
- Scikit-learn
- LightGBM
- XGBoost
- SHAP
- Matplotlib / Seaborn
- Auditoria do histórico de transações
- Análise exploratória orientada à detecção de fraude
- Divisão temporal em treino, validação e teste
- Treinamento e avaliação de modelos candidatos
- Seleção do modelo campeão
- Definição de política de decisão baseada em score
- Avaliação de trade-offs operacionais
- Persistência de modelos, métricas e regras de decisão
fraudwatch/
├── data/
│ ├── raw/
│ └── processed/
│
├── src/
│ ├── evaluation.py
│ ├── paths.py
│ └── utils.py
│
├── notebooks/
│ ├── 01-data_audit_eda.ipynb
│ ├── 02-train_baseline.ipynb
│ ├── 03-train_main_model.ipynb
│ └── 04-policy_decisioning.ipynb
│
├── models/
│ ├── baseline_logreg.pkl
│ └── champion_lightgbm.pkl
│
├── references/
│ ├── 01_dicionario_de_dados.md
│ └── fraudwatch-results.png
│
├── reports/
│ ├── metrics/
│ ├── policy/
│ ├── analysis/
│ └── plots/
│
└── README.md
A V1.1 da FraudWatch entrega:
- modelo baseline e modelo campeão treinados e avaliados;
- geração de scores de risco interpretáveis;
- política de decisão explícita baseada em thresholds;
- análise de trade-offs entre falsos positivos e falsos negativos;
- artefatos persistidos para rastreabilidade do processo decisório.
python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txtPróximas evoluções planejadas:
- simulação temporal de decisões em fluxo histórico;
- monitoramento de drift de dados e performance do modelo;
- estratégia de retreino;
- geração automatizada de relatórios de decisão.
V1.1 — modelo e política de decisão concluídos
V2 — monitoramento e lifecycle planejados
Esta POC foi desenvolvida exclusivamente para fins demonstrativos.
Os dados utilizados são públicos e não contêm informações pessoais ou sensíveis.
O projeto não deve ser utilizado diretamente em ambientes produtivos.
Este projeto faz parte do Small Data Lab, um laboratório técnico dedicado à experimentação aplicada em dados, analytics e sistemas de IA.
Explore também outras POCs do laboratório:
- LakeFlow — Pipeline Lakehouse para ingestão e organização de dados externos.
- RetailLens BI — Camada analítica BI-ready para diagnóstico operacional em e-commerce.
- DelayImpact — Análise que investiga o impacto de atrasos logísticos na satisfação do cliente.
- CampaignSense — CRM Analytics para priorização de campanhas baseada em propensão e ROI.
- DocLens — Chatbot RAG com guardrails e testes adversariais para governança de LLMs.
Este repositório é licenciado sob a MIT License.
