Lizard Dataset Analysis Project

Project Overview

This project focuses on analyzing a dataset of lizard species (lizard.csv) to explore their life history traits in asscociation with environmental drivers using advanced statistical and machine learning techniques. The project involves Principal Component Analysis (PCA), Random Forest modeling, and unsupervised learning approaches to uncover patterns and relationships within the data.

The repository contains R Markdown files (.Rmd) for conducting and documenting the analysis, as well as associated outputs in HTML format.

Folder Structure and Files

Main Files

FinalAnalysis.Rmd: The main analysis script containing data cleaning, PCA, correlation matrix, random forest modeling, and visualization code. Final output is an HTML document with results.
lizard.csv: The primary dataset containing lizard-related data, including species traits like clutch frequency, habitat type, and body size.
Eamon'sSketch.Rmd / Rich_Sketch.Rmd: The working scripts of each team member to avoid overlapping changes while working on the script at the same time.
Eamon'sOld.Rmd: A previous version of the working script.
MathematicalTools.Rproj: RStudio project file to organize and manage the working directory for this analysis.
Clobert et al., 1998.pdf: A relevant reference used to guide the project.

Methods and Techniques

This project applies several statistical and machine learning techniques using the R programming language:

Data Cleaning: Removal of duplicates and handling missing values. Conversion of variables to appropriate data types for analysis.
Principal Component Analysis (PCA): Reduces dimensionality and highlights key variables influencing species differences. Visualized using biplots and scree plots.
Random Forest Modeling: Predicts clutch frequency based on species traits. Evaluates model accuracy and identifies important predictors.
Correlation Analysis: Examines relationships between numeric variables to identify redundancy or strong correlations.
Unsupervised Learning: Clustering techniques to explore hidden patterns and groupings within the data.

Requirements

Software

RStudio: For running R Markdown files and managing the project.
LaTeX (optional): For generating PDF outputs from .Rmd files.

R Libraries

The following libraries are used in the analysis and must be installed:

install.packages(c("tidyverse", "corrplot", "FactoMineR", "factoextra", 
                    "vegan", "ggplot2", "rsample", "rpart", "rpart.plot", 
                    "randomForest", "tibble", "tidyr", "gridExtra", "factoextra", 
                    "caret", "cluster"))

Usage

Set Up

Clone the repository and open the MathematicalTools.Rproj file in RStudio.
Ensure all required packages are installed.

Run Analysis

Open Analysis.Rmd.
Knit the file to generate an HTML or PDF report with results.

Explore Results

View output file Analysis.nb.html for detailed results and visualizations.

Key Contributions

Data Cleaning: Ensures high-quality data by removing duplicates, converting variables to appropriate types, and handling missing values effectively.
Correlation Analysis: Identifies relationships and redundancy among numeric variables, guiding feature selection and interpretation.
Principal Component Analysis (PCA): Highlights the key variables influencing species differences and reduces dimensionality for clearer visualization and clustering.
Clustering Analysis: Uses unsupervised learning methods to uncover hidden patterns and groupings within the data.
Random Forest Modeling: Develops a predictive model for clutch frequency, evaluates model accuracy, and identifies the most important predictors influencing the outcome.
Visualization: Generates informative plots, including correlation heatmaps, PCA biplots, and Random Forest variable importance charts, to present findings clearly and effectively.

How to Contribute

Fork the repository and create a new branch.
Make your changes or additions (e.g., improve code, add new analyses).
Submit a pull request with a description of your changes.

Acknowledgments

Clobert et al., 1998: Referenced as part of the biological context for the analysis.
Teaching and guidance from:

Eric Macron (R Markdown)
Lucia Clarotto (Mathematical Tools)
Reseracher X (LaTex)
Reseracher Y (Zotero)

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
.DS_Store		.DS_Store
.gitignore		.gitignore
Analysis.Rmd		Analysis.Rmd
Clobert et al., 1998.pdf		Clobert et al., 1998.pdf
Clustering-Kmeans.png		Clustering-Kmeans.png
Corr_plot_PCA.png		Corr_plot_PCA.png
Correlations_PCA.png		Correlations_PCA.png
Eamon'sOld.Rmd		Eamon'sOld.Rmd
Eamon'sOld.nb.html		Eamon'sOld.nb.html
Eamon'sSketch.Rmd		Eamon'sSketch.Rmd
Eamon'sSketch.nb.html		Eamon'sSketch.nb.html
Eamon-sSketch.html		Eamon-sSketch.html
Final Analysis.Rmd		Final Analysis.Rmd
Final Analysis.nb.html		Final Analysis.nb.html
MathematicalTools.Rproj		MathematicalTools.Rproj
PCA_plot_distribution.png		PCA_plot_distribution.png
README.md		README.md
Rich's_Sketch.Rmd		Rich's_Sketch.Rmd
Variable_importance.png		Variable_importance.png
all4dimensionsclustering.png		all4dimensionsclustering.png
all4dimensionsclustering_imputed.png		all4dimensionsclustering_imputed.png
donnees_comptage_genre.txt		donnees_comptage_genre.txt
lizard.csv		lizard.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Lizard Dataset Analysis Project

Project Overview

Folder Structure and Files

Main Files

Methods and Techniques

Requirements

Software

R Libraries

Usage

Set Up

Run Analysis

Explore Results

Key Contributions

How to Contribute

Acknowledgments

About

Uh oh!

Releases

Packages

Languages

EamonOCathain/MathematicalTools

Folders and files

Latest commit

History

Repository files navigation

Lizard Dataset Analysis Project

Project Overview

Folder Structure and Files

Main Files

Methods and Techniques

Requirements

Software

R Libraries

Usage

Set Up

Run Analysis

Explore Results

Key Contributions

How to Contribute

Acknowledgments

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages