Mapeamento aplicado das demandas do mercado de dados no Brasil.
Projeto integrante do Small Data Lab
O JobData Insight é um pipeline de automação e análise criado para entender, de forma estruturada, como o mercado de trabalho em dados define suas exigências técnicas, comportamentais e de senioridade.
O projeto nasceu como uma ferramenta interna de apoio à transição de carreira, e evoluiu para uma iniciativa que combina coleta periódica de vagas, extração com agentes de IA e análises exploratórias orientadas à tomada de decisão.
- Coletar e organizar descrições de vagas publicadas em plataformas profissionais.
- Extrair atributos relevantes (hard skills, soft skills, senioridade, benefícios, etc.).
- Classificar e analisar as vagas por função e setor.
- Identificar padrões recorrentes e apoiar decisões estratégicas de desenvolvimento.
jobdatainsight/
├── data/
│ └── example/ # CSVs com exemplos de entradas e saídas
├── notebooks/
│ └── 2025-06_DataJobSignals-01/
├── reports/ # Figuras e elementos para relatórios
├── scripts/ # Scripts de scraping e análise
├── .env
├── .gitignore
├── requirements.txt
└── README.md
Este projeto utiliza um ambiente virtual Python para garantir que as dependências sejam isoladas e que o pipeline rode de forma reprodutível, sem conflitos com outros projetos ou com o ambiente global da máquina.
# Crie o ambiente virtual na raiz do projeto
python -m venv .venv
# Ative o ambiente virtual
source .venv/bin/activate # Linux/macOS
.venv\Scripts\activate # Windowspip install -r requirements.txt| Biblioteca | Finalidade |
|---|---|
| pandas | Manipulação de dados |
| numpy | Operações numéricas e vetorização |
| scikit-learn | Modelagem, métricas e algoritmos de machine learning |
| xgboost | Algoritmo de boosting otimizado |
| duckdb | Banco de dados analítico local, eficiente e leve |
| matplotlib | Visualização de dados |
| seaborn | Visualização estatística |
| jupyterlab | Ambiente interativo para notebooks |
Se você quiser adicionar uma nova biblioteca durante o desenvolvimento, faça:
pip install nome-da-bibliotecaE depois atualize o arquivo requirements.txt:
pip freeze > requirements.txt# Clone o repositório
git clone https://github.com/smalldatalabbr/codeagainstfraud.git
# Acesse a pasta do projeto
cd codeagainstfraud
# Crie e ative o ambiente virtual
python -m venv .venv
source .venv/bin/activate # Linux/macOS
.venv\Scripts\activate # Windows
# Instale as dependências
pip install -r requirements.txt
# Criação do banco DuckDB
python pipelines/data_preparation.py---# 🔍 JobDataInsight — V1
Análise estruturada de vagas na área de dados.
Projeto integrante do Small Data Lab, criado para investigar padrões, tendências e possíveis incoerências nas exigências do mercado de trabalho em dados no Brasil.
O JobDataInsight é um pipeline de coleta e análise de dados voltado para entender, de forma estruturada, como o mercado define requisitos técnicos, comportamentais e critérios de senioridade em vagas da área de dados.
Ele foi projetado como uma ferramenta prática, aplicada tanto para gerar inteligência de mercado quanto para fortalecer a construção de portfólio na transição de carreira para dados.
- Coletar e estruturar dados de vagas da área de dados publicadas no LinkedIn.
- Extrair informações como hard skills, soft skills, nível de experiência e contexto da vaga.
- Identificar padrões, distorções e incoerências no mercado.
- Gerar datasets estruturados que alimentam os relatórios do projeto Data Job Signals.
jobdatainsight/
├── data/
│ ├── example/
│ │ ├── url_jobs.csv
│ │ ├── scraping_jobs.csv
│ │ └── vagas_analisadas.csv
├── notebooks/
│ └── 2025-06_DataJobSignals-01/
│ ├── jobdata_01.duckdb
│ ├── figures/
│ └── DataJobSignals_01.ipynb
├── reports/
│ └── figures/
├── scripts/
│ ├── scraping_dados_vagas.py
│ └── agente_analise_vagas.py
├── .env
├── .gitignore
├── requirements.txt
└── README.md
Clone este repositório no seu ambiente local:
git clone https://github.com/smalldatalabbr/jobdatainsight.git
cd jobdatainsightCrie um ambiente virtual:
python -m venv .venvAtive o ambiente virtual:
- Windows:
.venv\Scripts\activate- macOS/Linux:
source .venv/bin/activateInstale as dependências:
pip install -r requirements.txtConfigure sua chave da API OpenAI:
- Crie um arquivo chamado
.envna raiz do projeto. - Insira sua chave no seguinte formato:
OPENAI_API_KEY=sua-chave-aquipython scripts/scraping_dados_vagas.py- Entrada:
data/example/url_jobs.csv - Saída:
data/example/scraping_jobs.csv
python scripts/agente_analise_vagas.py- Entrada:
data/example/scraping_jobs.csv - Saída:
data/example/vagas_analisadas.csv
- Este projeto está configurado exclusivamente para processamento de vagas do LinkedIn.
- O arquivo
url_jobs.csvcontém 5 links de vagas coletadas em Junho/2025, utilizados para demonstração e validação do pipeline. - Caso os links estejam inativos, substitua por links atuais de vagas no LinkedIn.
Este projeto está licenciado sob os termos da licença MIT. Consulte o arquivo LICENSE para mais detalhes.
Este projeto é uma demonstração técnica, sem qualquer vínculo com empresas, instituições financeiras, plataformas de dados ou uso comercial.
Todos os dados utilizados são públicos, anonimizados e processados exclusivamente para fins de desenvolvimento de competências, aprendizado contínuo e demonstração de soluções técnicas aplicadas à Ciência de Dados.
01_eda.ipynb→ Análise exploratória inicial (em andamento).02_feature_eng.ipynb→ Feature Engineering (estrutura criada).03_modeling.ipynb→ Modelagem supervisionada (estrutura criada).04_evaluation.ipynb→ Avaliação dos modelos (estrutura criada).
- ✅ Estrutura de projeto criada
- ✅ Pipeline de Data Preparation implementado e validado
- ✅ DuckDB gerado a partir do CSV original
- ✅ Notebook de EDA iniciado e validado
- 🚧 Próximos passos: Feature Engineering, Modelagem e Avaliação
Jhonathan Domingues
Criador do Small Data Lab e Cientista de Dados em Transição
Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções técnicas aplicadas à detecção de fraudes.
Distribuído sob a licença MIT. Consulte o arquivo LICENSE para mais informações.