🌱 CassavaBase EMBRAPA — Automação de Inserção de Ensaios

Este repositório contém scripts em R para automatizar o processo de inserção de ensaios de mandioca (Manihot esculenta) na plataforma CassavaBase, em colaboração com a EMBRAPA Mandioca e Fruticultura.

O pipeline organiza, padroniza e gera arquivos de saída compatíveis com o sistema, incluindo ensaios, acessos e dados fenotípicos, garantindo consistência e reprodutibilidade no fluxo de dados.

📌 Funcionalidades

Leitura e integração de múltiplas planilhas de dados (.xlsx).
Padronização de nomes de ensaios, acessos e genótipos.
Criação de identificadores únicos para parcelas (plot_name).
Identificação de ensaios e acessos já existentes na CassavaBase.
Geração de arquivos de saída para importação:
- Ensaios (.xls)
- Dados fenotípicos por acesso (acess_pheno.xls)
- Dados fenotípicos por ano (phenotype_acession_YYYY.xls)

🛠️ Tecnologias Utilizadas

R (tidyverse, readxl, writexl, stringr, dplyr)
workflowr (estrutura de projeto reprodutível)

📂 Estrutura do Repositório

├── data/                  # Planilhas de entrada (.xlsx)
│   ├── Trials-in-cassava-base.xlsx
│   ├── sinonimous.xlsx
│   ├── locais e siglas dos experimentos 2021.xlsx
│   └── Dados_hibridos2.xlsx
│
├── output/                # Arquivos gerados para importação
│   ├── acess_pheno.xls
│   ├── phenotype_acession_YYYY.xls
│   └── *.xls (ensaios individuais)
│
├── analysis/              # Script principal em RMarkdown
│   └── index.Rmd
│
└── README.md

🚀 Como Executar

1. Clonar o repositório

git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapa

2. Abrir o projeto no RStudio

Certifique-se de ter as bibliotecas instaladas:

install.packages(c("tidyverse", "readxl", "writexl", "stringr"))

3. Executar o script principal

Abra o arquivo analysis/index.Rmd e rode os chunks de código.
Os arquivos de saída serão gerados automaticamente na pasta output/.

📊 Resultados

Arquivos .xls prontos para importação na CassavaBase.
Relatórios de resumo de ensaios e acessos (resumo_trials.xlsx, resumo_acess.xlsx).
Padronização de nomes de ensaios e genótipos.

🔄 Fluxo do Pipeline

graph TD
  A[1. Carregamento de pacotes] --> B[2. Importação dos dados]
  B --> C[3. Padronização dos dados]
  C --> D[4. Resumo inicial dos ensaios]
  D --> E[5. Integração com abreviações de locais]
  E --> F[6. Criação de nomes de ensaios especiais]
  F --> G[7. Dataset final com verificações]
  G --> H[8. Resumos de ensaios e acessos]
  H --> I[9. Geração de arquivos de ensaios]
  H --> J[10. Geração de dados fenotípicos]
  I --> K[Arquivos .xls por ensaio]
  J --> L[Arquivos fenotípicos por ano]
  J --> M[Arquivo geral de acessos]

🔑 Tópicos (Tags)

cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase

📜 Licença

Este projeto está sob a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Consulte o arquivo LICENSE para mais detalhes.

🌱 CassavaBase EMBRAPA — Automated Trial Insertion

This repository contains R scripts to automate the process of cassava (Manihot esculenta) trial insertion into the CassavaBase platform, in collaboration with EMBRAPA Cassava and Fruits.

The pipeline organizes, standardizes, and generates output files compatible with the system, including trials, accessions, and phenotypic data, ensuring consistency and reproducibility in the data workflow.

📌 Features

Reading and integration of multiple Excel spreadsheets (.xlsx).
Standardization of trial, accession, and genotype names.
Creation of unique identifiers for plots (plot_name).
Identification of trials and accessions already existing in CassavaBase.
Generation of output files for import:
- Trials (.xls)
- Phenotypic data by accession (acess_pheno.xls)
- Phenotypic data by year (phenotype_acession_YYYY.xls)

🛠️ Technologies

R (tidyverse, readxl, writexl, stringr, dplyr)
workflowr (reproducible project structure)

📂 Repository Structure

├── data/                  # Input spreadsheets (.xlsx)
│   ├── Trials-in-cassava-base.xlsx
│   ├── sinonimous.xlsx
│   ├── locais e siglas dos experimentos 2021.xlsx
│   └── Dados_hibridos2.xlsx
│
├── output/                # Generated files for import
│   ├── acess_pheno.xls
│   ├── phenotype_acession_YYYY.xls
│   └── *.xls (individual trials)
│
├── analysis/              # Main RMarkdown script
│   └── index.Rmd
│
└── README.md

🚀 How to Run

1. Clone the repository

git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapa

2. Open the project in RStudio

Make sure the required libraries are installed:

install.packages(c("tidyverse", "readxl", "writexl", "stringr"))

3. Run the main script

Open the file analysis/index.Rmd and run the code chunks.
The output files will be automatically generated in the output/ folder.

📊 Results

.xls files ready for import into CassavaBase.
Summary reports of trials and accessions (resumo_trials.xlsx, resumo_acess.xlsx).
Standardization of trial and genotype names.

🔄 Pipeline Workflow

graph TD
  A[1. Package loading] --> B[2. Data import]
  B --> C[3. Data standardization]
  C --> D[4. Initial trial summary]
  D --> E[5. Integration with trial abbreviations]
  E --> F[6. Creation of special trial names]
  F --> G[7. Final dataset with validations]
  G --> H[8. Trial and accession summaries]
  H --> I[9. Trial file generation]
  H --> J[10. Phenotypic data generation]
  I --> K[.xls files per trial]
  J --> L[Phenotypic files by year]
  J --> M[General accession file]

🔑 Keywords (Tags)

cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase

📜 License

This project is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
See the LICENSE file for more details.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
analysis		analysis
code		code
data		data
docs		docs
output		output
.Rprofile		.Rprofile
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
_workflowr.yml		_workflowr.yml
cassavabaseembrapa.Rproj		cassavabaseembrapa.Rproj

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🌱 CassavaBase EMBRAPA — Automação de Inserção de Ensaios

📌 Funcionalidades

🛠️ Tecnologias Utilizadas

📂 Estrutura do Repositório

🚀 Como Executar

1. Clonar o repositório

2. Abrir o projeto no RStudio

3. Executar o script principal

📊 Resultados

🔄 Fluxo do Pipeline

🔑 Tópicos (Tags)

📜 Licença

🌱 CassavaBase EMBRAPA — Automated Trial Insertion

📌 Features

🛠️ Technologies

📂 Repository Structure

🚀 How to Run

1. Clone the repository

2. Open the project in RStudio

3. Run the main script

📊 Results

🔄 Pipeline Workflow

🔑 Keywords (Tags)

📜 License

About

Uh oh!

Releases

Packages

Languages

WevertonGomesCosta/cassavabaseembrapa

Folders and files

Latest commit

History

Repository files navigation

🌱 CassavaBase EMBRAPA — Automação de Inserção de Ensaios

📌 Funcionalidades

🛠️ Tecnologias Utilizadas

📂 Estrutura do Repositório

🚀 Como Executar

1. Clonar o repositório

2. Abrir o projeto no RStudio

3. Executar o script principal

📊 Resultados

🔄 Fluxo do Pipeline

🔑 Tópicos (Tags)

📜 Licença

🌱 CassavaBase EMBRAPA — Automated Trial Insertion

📌 Features

🛠️ Technologies

📂 Repository Structure

🚀 How to Run

1. Clone the repository

2. Open the project in RStudio

3. Run the main script

📊 Results

🔄 Pipeline Workflow

🔑 Keywords (Tags)

📜 License

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages