FraudWatch

Risk scoring e priorização de alertas para sistemas antifraude e AML baseados em Machine Learning.

Visão Geral

A FraudWatch é uma Proof of Concept (POC) que demonstra a construção de um sistema de priorização de alertas de fraude baseado em Machine Learning.

O projeto trata o modelo como um motor de geração de scores de risco, separando explicitamente três camadas fundamentais de sistemas de risco:

previsão (risk score);
decisão (policy de approve / review / block);
evolução do modelo ao longo do tempo.

Embora o dataset utilizado seja de fraude em cartão, a arquitetura proposta é aplicável a outros domínios de risco transacional, como Prevenção à Lavagem de Dinheiro (PLD/AML) e análise de risco de crédito.

Problema de Negócio

Empresas que operam com grandes volumes de transações financeiras enfrentam desafios como:

fraudes que passam despercebidas (falsos negativos);
clientes legítimos bloqueados (falsos positivos);
limitação de capacidade humana para análise manual;
forte desbalanceamento entre eventos legítimos e fraudulentos.

A FraudWatch busca priorizar eventos com maior risco, permitindo que equipes concentrem esforços nos casos de maior impacto operacional.

Abordagem da Solução (V1.1)

A versão atual implementa um pipeline completo de risk scoring:

auditoria e análise exploratória do histórico de transações;
divisão temporal em treino, validação e teste;
treinamento de modelo baseline (Logistic Regression);
treinamento e seleção de modelo principal (LightGBM vs XGBoost);
avaliação com métricas relevantes para fraude:
- Recall
- Precision
- PR-AUC
- matriz de confusão;
análise de explicabilidade com SHAP;
definição explícita de política de decisão baseada em score;
persistência de artefatos analíticos e modelos.

Tecnologias Utilizadas

Python
Pandas / NumPy
Scikit-learn
LightGBM
XGBoost
SHAP
Matplotlib / Seaborn

Pipeline Analítico

Auditoria do histórico de transações
Análise exploratória orientada à detecção de fraude
Divisão temporal em treino, validação e teste
Treinamento e avaliação de modelos candidatos
Seleção do modelo campeão
Definição de política de decisão baseada em score
Avaliação de trade-offs operacionais
Persistência de modelos, métricas e regras de decisão

Estrutura do Projeto


fraudwatch/

├── data/
│   ├── raw/
│   └── processed/
│
├── src/
│   ├── evaluation.py
│   ├── paths.py
│   └── utils.py
│
├── notebooks/
│   ├── 01-data_audit_eda.ipynb
│   ├── 02-train_baseline.ipynb
│   ├── 03-train_main_model.ipynb
│   └── 04-policy_decisioning.ipynb
│
├── models/
│   ├── baseline_logreg.pkl
│   └── champion_lightgbm.pkl
│
├── references/
│   ├── 01_dicionario_de_dados.md
│   └── fraudwatch-results.png
│
├── reports/
│   ├── metrics/
│   ├── policy/
│   ├── analysis/
│   └── plots/
│
└── README.md

Resultados

A V1.1 da FraudWatch entrega:

modelo baseline e modelo campeão treinados e avaliados;
geração de scores de risco interpretáveis;
política de decisão explícita baseada em thresholds;
análise de trade-offs entre falsos positivos e falsos negativos;
artefatos persistidos para rastreabilidade do processo decisório.

Como executar

Ambiente virtual

python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Roadmap (V2)

Próximas evoluções planejadas:

simulação temporal de decisões em fluxo histórico;
monitoramento de drift de dados e performance do modelo;
estratégia de retreino;
geração automatizada de relatórios de decisão.

Status

V1.1 — modelo e política de decisão concluídos
V2 — monitoramento e lifecycle planejados

Disclaimer

Esta POC foi desenvolvida exclusivamente para fins demonstrativos.

Os dados utilizados são públicos e não contêm informações pessoais ou sensíveis.
O projeto não deve ser utilizado diretamente em ambientes produtivos.

Small Data Lab – Portfolio

Este projeto faz parte do Small Data Lab, um laboratório técnico dedicado à experimentação aplicada em dados, analytics e sistemas de IA.

Explore também outras POCs do laboratório:

LakeFlow — Pipeline Lakehouse para ingestão e organização de dados externos.
RetailLens BI — Camada analítica BI-ready para diagnóstico operacional em e-commerce.
DelayImpact — Análise que investiga o impacto de atrasos logísticos na satisfação do cliente.
CampaignSense — CRM Analytics para priorização de campanhas baseada em propensão e ROI.
DocLens — Chatbot RAG com guardrails e testes adversariais para governança de LLMs.

Onde me encontrar

Portfólio | LinkedIn | Email

Este repositório é licenciado sob a MIT License.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FraudWatch

Visão Geral

Problema de Negócio

Abordagem da Solução (V1.1)

Tecnologias Utilizadas

Pipeline Analítico

Estrutura do Projeto

Resultados

Como executar

Ambiente virtual

Roadmap (V2)

Status

Disclaimer

Small Data Lab – Portfolio

Onde me encontrar

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
data		data
models		models
notebooks		notebooks
references		references
reports		reports
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

FraudWatch

Visão Geral

Problema de Negócio

Abordagem da Solução (V1.1)

Tecnologias Utilizadas

Pipeline Analítico

Estrutura do Projeto

Resultados

Como executar

Ambiente virtual

Roadmap (V2)

Status

Disclaimer

Small Data Lab – Portfolio

Onde me encontrar

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages