Skip to content

smalldatalabbr/jobdatainsight

Repository files navigation

🔍 JobData Insight

Mapeamento aplicado das demandas do mercado de dados no Brasil.
Projeto integrante do Small Data Lab


🧠 Sobre o Projeto

O JobData Insight é um pipeline de automação e análise criado para entender, de forma estruturada, como o mercado de trabalho em dados define suas exigências técnicas, comportamentais e de senioridade.

O projeto nasceu como uma ferramenta interna de apoio à transição de carreira, e evoluiu para uma iniciativa que combina coleta periódica de vagas, extração com agentes de IA e análises exploratórias orientadas à tomada de decisão.


🎯 Propósito

  • Coletar e organizar descrições de vagas publicadas em plataformas profissionais.
  • Extrair atributos relevantes (hard skills, soft skills, senioridade, benefícios, etc.).
  • Classificar e analisar as vagas por função e setor.
  • Identificar padrões recorrentes e apoiar decisões estratégicas de desenvolvimento.

🗂️ Estrutura de Pastas

jobdatainsight/
├── data/
│ └── example/ # CSVs com exemplos de entradas e saídas
├── notebooks/
│ └── 2025-06_DataJobSignals-01/
├── reports/ # Figuras e elementos para relatórios
├── scripts/ # Scripts de scraping e análise
├── .env
├── .gitignore
├── requirements.txt
└── README.md              

⚙️ Ambiente Virtual e Dependências

Este projeto utiliza um ambiente virtual Python para garantir que as dependências sejam isoladas e que o pipeline rode de forma reprodutível, sem conflitos com outros projetos ou com o ambiente global da máquina.

📜 Criação do Ambiente Virtual:

# Crie o ambiente virtual na raiz do projeto
python -m venv .venv

# Ative o ambiente virtual
source .venv/bin/activate      # Linux/macOS
.venv\Scripts\activate       # Windows

📦 Instalação das Dependências:

pip install -r requirements.txt

🔥 Principais bibliotecas utilizadas:

Biblioteca Finalidade
pandas Manipulação de dados
numpy Operações numéricas e vetorização
scikit-learn Modelagem, métricas e algoritmos de machine learning
xgboost Algoritmo de boosting otimizado
duckdb Banco de dados analítico local, eficiente e leve
matplotlib Visualização de dados
seaborn Visualização estatística
jupyterlab Ambiente interativo para notebooks

📚 Gerenciamento de Dependências:

Se você quiser adicionar uma nova biblioteca durante o desenvolvimento, faça:

pip install nome-da-biblioteca

E depois atualize o arquivo requirements.txt:

pip freeze > requirements.txt

🚧 Como Executar

▶️ Passos

# Clone o repositório
git clone https://github.com/smalldatalabbr/codeagainstfraud.git

# Acesse a pasta do projeto
cd codeagainstfraud

# Crie e ative o ambiente virtual
python -m venv .venv
source .venv/bin/activate      # Linux/macOS
.venv\Scripts\activate       # Windows

# Instale as dependências
pip install -r requirements.txt

# Criação do banco DuckDB
python pipelines/data_preparation.py

---# 🔍 JobDataInsight — V1

Análise estruturada de vagas na área de dados.
Projeto integrante do Small Data Lab, criado para investigar padrões, tendências e possíveis incoerências nas exigências do mercado de trabalho em dados no Brasil.

🧠 Sobre o Projeto

O JobDataInsight é um pipeline de coleta e análise de dados voltado para entender, de forma estruturada, como o mercado define requisitos técnicos, comportamentais e critérios de senioridade em vagas da área de dados.

Ele foi projetado como uma ferramenta prática, aplicada tanto para gerar inteligência de mercado quanto para fortalecer a construção de portfólio na transição de carreira para dados.

🎯 Objetivos

  • Coletar e estruturar dados de vagas da área de dados publicadas no LinkedIn.
  • Extrair informações como hard skills, soft skills, nível de experiência e contexto da vaga.
  • Identificar padrões, distorções e incoerências no mercado.
  • Gerar datasets estruturados que alimentam os relatórios do projeto Data Job Signals.

🗂️ Arquitetura de Pastas

jobdatainsight/
├── data/                 
│   ├── example/          
│   │   ├── url_jobs.csv                
│   │   ├── scraping_jobs.csv           
│   │   └── vagas_analisadas.csv        
├── notebooks/            
│   └── 2025-06_DataJobSignals-01/       
│       ├── jobdata_01.duckdb            
│       ├── figures/                     
│       └── DataJobSignals_01.ipynb      
├── reports/              
│   └── figures/                         
├── scripts/              
│   ├── scraping_dados_vagas.py          
│   └── agente_analise_vagas.py          
├── .env                                 
├── .gitignore                           
├── requirements.txt                     
└── README.md                            

⚙️ Configuração e Instalação

Clone este repositório no seu ambiente local:

git clone https://github.com/smalldatalabbr/jobdatainsight.git
cd jobdatainsight

Crie um ambiente virtual:

python -m venv .venv

Ative o ambiente virtual:

  • Windows:
.venv\Scripts\activate
  • macOS/Linux:
source .venv/bin/activate

Instale as dependências:

pip install -r requirements.txt

Configure sua chave da API OpenAI:

  1. Crie um arquivo chamado .env na raiz do projeto.
  2. Insira sua chave no seguinte formato:
OPENAI_API_KEY=sua-chave-aqui

🚀 Como Executar os Scripts

1️⃣ Scraping dos Dados das Vagas (HTML → CSV)

python scripts/scraping_dados_vagas.py
  • Entrada: data/example/url_jobs.csv
  • Saída: data/example/scraping_jobs.csv

2️⃣ Análise com o Agente GPT (CSV bruto → CSV estruturado)

python scripts/agente_analise_vagas.py
  • Entrada: data/example/scraping_jobs.csv
  • Saída: data/example/vagas_analisadas.csv

⚠️ Observações Importantes

  • Este projeto está configurado exclusivamente para processamento de vagas do LinkedIn.
  • O arquivo url_jobs.csv contém 5 links de vagas coletadas em Junho/2025, utilizados para demonstração e validação do pipeline.
  • Caso os links estejam inativos, substitua por links atuais de vagas no LinkedIn.

🔗 Projetos Relacionados

📝 Licença

Este projeto está licenciado sob os termos da licença MIT. Consulte o arquivo LICENSE para mais detalhes.

⚙️ Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com empresas, instituições financeiras, plataformas de dados ou uso comercial.

Todos os dados utilizados são públicos, anonimizados e processados exclusivamente para fins de desenvolvimento de competências, aprendizado contínuo e demonstração de soluções técnicas aplicadas à Ciência de Dados.

📊 Notebooks Disponíveis

  • 01_eda.ipynb → Análise exploratória inicial (em andamento).
  • 02_feature_eng.ipynb → Feature Engineering (estrutura criada).
  • 03_modeling.ipynb → Modelagem supervisionada (estrutura criada).
  • 04_evaluation.ipynb → Avaliação dos modelos (estrutura criada).

🏗️ Status Atual

  • ✅ Estrutura de projeto criada
  • ✅ Pipeline de Data Preparation implementado e validado
  • ✅ DuckDB gerado a partir do CSV original
  • ✅ Notebook de EDA iniciado e validado
  • 🚧 Próximos passos: Feature Engineering, Modelagem e Avaliação

🧠 Autor

Jhonathan Domingues
Criador do Small Data Lab e Cientista de Dados em Transição

🔗 LinkedIn | 🌐 Small Data Lab


🛑 Disclaimer

Este projeto é uma demonstração técnica, sem qualquer vínculo com instituições financeiras, empresas ou uso comercial.
Os dados utilizados são públicos, anonimizados e têm como finalidade o desenvolvimento de competências, aprendizado e demonstração de soluções técnicas aplicadas à detecção de fraudes.


📜 Licença

Distribuído sob a licença MIT. Consulte o arquivo LICENSE para mais informações.

About

🔍 Análise estruturada de vagas na área de dados. Parte do ecossistema Small Data Lab.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published