Skip to content

smalldatalabbr/fraudwatch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FraudWatch

Risk scoring e priorização de alertas para sistemas antifraude e AML baseados em Machine Learning.

Author License Status

Python Scikit-learn LightGBM XGBoost SHAP Pandas NumPy

FraudWatch


Visão Geral

A FraudWatch é uma Proof of Concept (POC) que demonstra a construção de um sistema de priorização de alertas de fraude baseado em Machine Learning.

O projeto trata o modelo como um motor de geração de scores de risco, separando explicitamente três camadas fundamentais de sistemas de risco:

  • previsão (risk score);
  • decisão (policy de approve / review / block);
  • evolução do modelo ao longo do tempo.

Embora o dataset utilizado seja de fraude em cartão, a arquitetura proposta é aplicável a outros domínios de risco transacional, como Prevenção à Lavagem de Dinheiro (PLD/AML) e análise de risco de crédito.


Problema de Negócio

Empresas que operam com grandes volumes de transações financeiras enfrentam desafios como:

  • fraudes que passam despercebidas (falsos negativos);
  • clientes legítimos bloqueados (falsos positivos);
  • limitação de capacidade humana para análise manual;
  • forte desbalanceamento entre eventos legítimos e fraudulentos.

A FraudWatch busca priorizar eventos com maior risco, permitindo que equipes concentrem esforços nos casos de maior impacto operacional.


Abordagem da Solução (V1.1)

A versão atual implementa um pipeline completo de risk scoring:

  • auditoria e análise exploratória do histórico de transações;
  • divisão temporal em treino, validação e teste;
  • treinamento de modelo baseline (Logistic Regression);
  • treinamento e seleção de modelo principal (LightGBM vs XGBoost);
  • avaliação com métricas relevantes para fraude:
    • Recall
    • Precision
    • PR-AUC
    • matriz de confusão;
  • análise de explicabilidade com SHAP;
  • definição explícita de política de decisão baseada em score;
  • persistência de artefatos analíticos e modelos.

Tecnologias Utilizadas

  • Python
  • Pandas / NumPy
  • Scikit-learn
  • LightGBM
  • XGBoost
  • SHAP
  • Matplotlib / Seaborn

Pipeline Analítico

  1. Auditoria do histórico de transações
  2. Análise exploratória orientada à detecção de fraude
  3. Divisão temporal em treino, validação e teste
  4. Treinamento e avaliação de modelos candidatos
  5. Seleção do modelo campeão
  6. Definição de política de decisão baseada em score
  7. Avaliação de trade-offs operacionais
  8. Persistência de modelos, métricas e regras de decisão

Estrutura do Projeto


fraudwatch/

├── data/
│   ├── raw/
│   └── processed/
│
├── src/
│   ├── evaluation.py
│   ├── paths.py
│   └── utils.py
│
├── notebooks/
│   ├── 01-data_audit_eda.ipynb
│   ├── 02-train_baseline.ipynb
│   ├── 03-train_main_model.ipynb
│   └── 04-policy_decisioning.ipynb
│
├── models/
│   ├── baseline_logreg.pkl
│   └── champion_lightgbm.pkl
│
├── references/
│   ├── 01_dicionario_de_dados.md
│   └── fraudwatch-results.png
│
├── reports/
│   ├── metrics/
│   ├── policy/
│   ├── analysis/
│   └── plots/
│
└── README.md


Resultados

A V1.1 da FraudWatch entrega:

  • modelo baseline e modelo campeão treinados e avaliados;
  • geração de scores de risco interpretáveis;
  • política de decisão explícita baseada em thresholds;
  • análise de trade-offs entre falsos positivos e falsos negativos;
  • artefatos persistidos para rastreabilidade do processo decisório.

Como executar

Ambiente virtual

python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Roadmap (V2)

Próximas evoluções planejadas:

  • simulação temporal de decisões em fluxo histórico;
  • monitoramento de drift de dados e performance do modelo;
  • estratégia de retreino;
  • geração automatizada de relatórios de decisão.

Status

V1.1 — modelo e política de decisão concluídos
V2 — monitoramento e lifecycle planejados


Disclaimer

Esta POC foi desenvolvida exclusivamente para fins demonstrativos.

Os dados utilizados são públicos e não contêm informações pessoais ou sensíveis.
O projeto não deve ser utilizado diretamente em ambientes produtivos.


Small Data Lab – Portfolio

Este projeto faz parte do Small Data Lab, um laboratório técnico dedicado à experimentação aplicada em dados, analytics e sistemas de IA.

Explore também outras POCs do laboratório:

  • LakeFlow — Pipeline Lakehouse para ingestão e organização de dados externos.
  • RetailLens BI — Camada analítica BI-ready para diagnóstico operacional em e-commerce.
  • DelayImpact — Análise que investiga o impacto de atrasos logísticos na satisfação do cliente.
  • CampaignSense — CRM Analytics para priorização de campanhas baseada em propensão e ROI.
  • DocLens — Chatbot RAG com guardrails e testes adversariais para governança de LLMs.

Onde me encontrar

Portfólio | LinkedIn | Email


Este repositório é licenciado sob a MIT License.

About

POC antifraude baseada em Machine Learning, que demonstra como estruturar modelos como motores de decisão, com avaliação temporal honesta, baseline sólido e comparação entre algoritmos.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors