Skip to content

LABPAAD/crimes_prediction

Repository files navigation

Predição de Crimes

Preditor de taxas de crimes anuais em distritos policiais (DP) da cidade de São Paulo em função de pontos de interesse e características de usuários do Twitter na região do DP

Ferramentas (sklearn) e os modelos

Nossos experimentos foram realizados com as implementações de métodos de regressão da biblioteca scikit-learn da linguagem Python~Pedregosa et al., 2011.

Os métodos de aprendizado de máquina utilizados são:

Para predizer a categoria de crime em uma região alvo $a$, desconsiderando essa região nos valores a serem preditos $y$ e na matriz de atributos $X$ para fins de avaliação do modelo. Nesse sentido, adotamos a metodologia leave out one que consiste em predizer o total de crimes para uma região utilizando dados das outras regiões. Mais detalhes

Execução dos modelos

  1. Importação de Bibliotecas: Importa bibliotecas necessárias, como pandas, numpy, matplotlib, e vários modelos de machine learning do scikit-learn.

  2. Leitura de Dados: Lê dois conjuntos de dados: "dataset_features_users_POIs.csv" e "dataset_soma_ocorr_2022.csv". Realiza algumas operações de pré-processamento nos dados.

  3. Random Forest: Utiliza o modelo RandomForestRegressor para prever as ocorrências criminais usando as características fornecidas em "dataset_features_users_POIs.csv". Usa a técnica de validação cruzada Leave-One-Out (LOO) para avaliar o desempenho do modelo.

  4. Support Vector Machine Utiliza o modelo Support Vector Machine (SVM) com kernel linear para prever as ocorrências criminais. Adiciona características de usuários ao conjunto de dados. Usa LOO para validação cruzada.

  5. Gradient Boosting Regressor: Utiliza o modelo Gradient Boosting Regressor para prever as ocorrências criminais usando as características fornecidas em "dataset_features_users_POIs.csv". Usa LOO para validação cruzada.

  6. K-Nearest Neighbors: Utiliza o modelo K-Nearest Neighbors (KNN) para prever as ocorrências criminais usando as características fornecidas em "dataset_features_users_POIs.csv". Usa LOO para validação cruzada.

  7. Salvando Resultados: Salva as métricas de desempenho, importâncias de características e erros em arquivos CSV.

  8. Resumo de Métricas: Calcula métricas como RAE (Relative Absolute Error), MAE (Mean Absolute Error) e R2 (R-squared) para avaliar o desempenho dos modelos em cada tipo de ocorrência.

  9. Salvando Resultados: Salva as métricas em arquivos CSV.

  10. Observações

  • Certifique-se de ter o ambiente apropriado configurado com as bibliotecas necessárias.
  • Certifique-se de que os conjuntos de dados "Datasets/dataset_features_users_POIs.csv" e "dataset_soma_ocorr_2022.csv" estejam disponíveis no mesmo diretório ou no Google Drive conforme esperado.
  • Execute o código em um ambiente Python, como Jupyter Notebook ou Google Colab para ter mais flexibilidade nas execuções ou se preferir pode usar o arquivo "models.py".
  • Pode também executar apenas o modelo especifico no diretorio Codes/

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •