🔍 JobData Insight

Mapeamento aplicado das demandas do mercado de dados no Brasil.
Projeto integrante do Small Data Lab

🧠 Sobre o Projeto

O JobData Insight é um pipeline de automação e análise criado para entender, de forma estruturada, como o mercado de trabalho em dados define suas exigências técnicas, comportamentais e de senioridade.

O projeto nasceu como uma ferramenta interna de apoio à transição de carreira, e evoluiu para uma iniciativa que combina coleta periódica de vagas, extração com agentes de IA e análises exploratórias orientadas à tomada de decisão.

🎯 Propósito

Coletar e organizar descrições de vagas publicadas em plataformas profissionais.
Extrair atributos relevantes (hard skills, soft skills, senioridade, benefícios, etc.).
Classificar e analisar as vagas por função e setor.
Identificar padrões recorrentes e apoiar decisões estratégicas de desenvolvimento.

🗂️ Estrutura de Pastas

jobdatainsight/
├── data/
│ └── example/ # CSVs com exemplos de entradas e saídas
├── notebooks/
│ └── 2025-06_DataJobSignals-01/
├── reports/ # Figuras e elementos para relatórios
├── scripts/ # Scripts de scraping e análise
├── .env
├── .gitignore
├── requirements.txt
└── README.md

⚙️ Ambiente Virtual e Dependências

Este projeto utiliza um ambiente virtual Python para garantir que as dependências sejam isoladas e que o pipeline rode de forma reprodutível, sem conflitos com outros projetos ou com o ambiente global da máquina.

📜 Criação do Ambiente Virtual:

# Crie o ambiente virtual na raiz do projeto
python -m venv .venv

# Ative o ambiente virtual
source .venv/bin/activate      # Linux/macOS
.venv\Scripts\activate       # Windows

📦 Instalação das Dependências:

pip install -r requirements.txt

🔥 Principais bibliotecas utilizadas:

Biblioteca	Finalidade
pandas	Manipulação de dados
numpy	Operações numéricas e vetorização
scikit-learn	Modelagem, métricas e algoritmos de machine learning
xgboost	Algoritmo de boosting otimizado
duckdb	Banco de dados analítico local, eficiente e leve
matplotlib	Visualização de dados
seaborn	Visualização estatística
jupyterlab	Ambiente interativo para notebooks

📚 Gerenciamento de Dependências:

Se você quiser adicionar uma nova biblioteca durante o desenvolvimento, faça:

pip install nome-da-biblioteca

E depois atualize o arquivo requirements.txt:

pip freeze > requirements.txt

🚧 Como Executar

▶️ Passos

# Clone o repositório
git clone https://github.com/smalldatalabbr/codeagainstfraud.git

# Acesse a pasta do projeto
cd codeagainstfraud

# Crie e ative o ambiente virtual
python -m venv .venv
source .venv/bin/activate      # Linux/macOS
.venv\Scripts\activate       # Windows

# Instale as dependências
pip install -r requirements.txt

# Criação do banco DuckDB
python pipelines/data_preparation.py

---# 🔍 JobDataInsight — V1

Análise estruturada de vagas na área de dados.
Projeto integrante do Small Data Lab, criado para investigar padrões, tendências e possíveis incoerências nas exigências do mercado de trabalho em dados no Brasil.

🧠 Sobre o Projeto

O JobDataInsight é um pipeline de coleta e análise de dados voltado para entender, de forma estruturada, como o mercado define requisitos técnicos, comportamentais e critérios de senioridade em vagas da área de dados.

Ele foi projetado como uma ferramenta prática, aplicada tanto para gerar inteligência de mercado quanto para fortalecer a construção de portfólio na transição de carreira para dados.

🎯 Objetivos

Coletar e estruturar dados de vagas da área de dados publicadas no LinkedIn.
Extrair informações como hard skills, soft skills, nível de experiência e contexto da vaga.
Identificar padrões, distorções e incoerências no mercado.
Gerar datasets estruturados que alimentam os relatórios do projeto Data Job Signals.

🗂️ Arquitetura de Pastas

jobdatainsight/
├── data/                 
│   ├── example/          
│   │   ├── url_jobs.csv                
│   │   ├── scraping_jobs.csv           
│   │   └── vagas_analisadas.csv        
├── notebooks/            
│   └── 2025-06_DataJobSignals-01/       
│       ├── jobdata_01.duckdb            
│       ├── figures/                     
│       └── DataJobSignals_01.ipynb      
├── reports/              
│   └── figures/                         
├── scripts/              
│   ├── scraping_dados_vagas.py          
│   └── agente_analise_vagas.py          
├── .env                                 
├── .gitignore                           
├── requirements.txt                     
└── README.md

⚙️ Configuração e Instalação

Clone este repositório no seu ambiente local:

git clone https://github.com/smalldatalabbr/jobdatainsight.git
cd jobdatainsight

Crie um ambiente virtual:

python -m venv .venv

Ative o ambiente virtual:

Windows:

.venv\Scripts\activate

macOS/Linux:

source .venv/bin/activate

Instale as dependências:

pip install -r requirements.txt

Configure sua chave da API OpenAI:

Crie um arquivo chamado .env na raiz do projeto.
Insira sua chave no seguinte formato:

OPENAI_API_KEY=sua-chave-aqui

🚀 Como Executar os Scripts

1️⃣ Scraping dos Dados das Vagas (HTML → CSV)

python scripts/scraping_dados_vagas.py

Entrada: data/example/url_jobs.csv
Saída: data/example/scraping_jobs.csv

2️⃣ Análise com o Agente GPT (CSV bruto → CSV estruturado)

python scripts/agente_analise_vagas.py

Entrada: data/example/scraping_jobs.csv
Saída: data/example/vagas_analisadas.csv

⚠️ Observações Importantes

Este projeto está configurado exclusivamente para processamento de vagas do LinkedIn.
O arquivo url_jobs.csv contém 5 links de vagas coletadas em Junho/2025, utilizados para demonstração e validação do pipeline.
Caso os links estejam inativos, substitua por links atuais de vagas no LinkedIn.

🔗 Projetos Relacionados

🚀 Small Data Lab

📝 Licença

Este projeto está licenciado sob os termos da licença MIT. Consulte o arquivo LICENSE para mais detalhes.

⚙️ Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com empresas, instituições financeiras, plataformas de dados ou uso comercial.

Todos os dados utilizados são públicos, anonimizados e processados exclusivamente para fins de desenvolvimento de competências, aprendizado contínuo e demonstração de soluções técnicas aplicadas à Ciência de Dados.

📊 Notebooks Disponíveis

01_eda.ipynb → Análise exploratória inicial (em andamento).
02_feature_eng.ipynb → Feature Engineering (estrutura criada).
03_modeling.ipynb → Modelagem supervisionada (estrutura criada).
04_evaluation.ipynb → Avaliação dos modelos (estrutura criada).

🏗️ Status Atual

✅ Estrutura de projeto criada
✅ Pipeline de Data Preparation implementado e validado
✅ DuckDB gerado a partir do CSV original
✅ Notebook de EDA iniciado e validado
🚧 Próximos passos: Feature Engineering, Modelagem e Avaliação

🧠 Autor

Jhonathan Domingues
Criador do Small Data Lab e Cientista de Dados em Transição

🔗 LinkedIn | 🌐 Small Data Lab

🛑 Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções técnicas aplicadas à detecção de fraudes.

📜 Licença

Distribuído sob a licença MIT. Consulte o arquivo LICENSE para mais informações.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🔍 JobData Insight

🧠 Sobre o Projeto

🎯 Propósito

🗂️ Estrutura de Pastas

⚙️ Ambiente Virtual e Dependências

📜 Criação do Ambiente Virtual:

📦 Instalação das Dependências:

🔥 Principais bibliotecas utilizadas:

📚 Gerenciamento de Dependências:

🚧 Como Executar

▶️ Passos

🧠 Sobre o Projeto

🎯 Objetivos

🗂️ Arquitetura de Pastas

⚙️ Configuração e Instalação

🚀 Como Executar os Scripts

1️⃣ Scraping dos Dados das Vagas (HTML → CSV)

2️⃣ Análise com o Agente GPT (CSV bruto → CSV estruturado)

⚠️ Observações Importantes

🔗 Projetos Relacionados

📝 Licença

⚙️ Disclaimer

📊 Notebooks Disponíveis

🏗️ Status Atual

🧠 Autor

🛑 Disclaimer

📜 Licença

About

Uh oh!

Releases

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data/example		data/example
notebooks/202506_DataJobSignals_01		notebooks/202506_DataJobSignals_01
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

License

smalldatalabbr/jobdatainsight

Folders and files

Latest commit

History

Repository files navigation

🔍 JobData Insight

🧠 Sobre o Projeto

🎯 Propósito

🗂️ Estrutura de Pastas

⚙️ Ambiente Virtual e Dependências

📜 Criação do Ambiente Virtual:

📦 Instalação das Dependências:

🔥 Principais bibliotecas utilizadas:

📚 Gerenciamento de Dependências:

🚧 Como Executar

▶️ Passos

🧠 Sobre o Projeto

🎯 Objetivos

🗂️ Arquitetura de Pastas

⚙️ Configuração e Instalação

🚀 Como Executar os Scripts

1️⃣ Scraping dos Dados das Vagas (HTML → CSV)

2️⃣ Análise com o Agente GPT (CSV bruto → CSV estruturado)

⚠️ Observações Importantes

🔗 Projetos Relacionados

📝 Licença

⚙️ Disclaimer

📊 Notebooks Disponíveis

🏗️ Status Atual

🧠 Autor

🛑 Disclaimer

📜 Licença

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Languages