Este repositório contém scripts em R para automatizar o processo de inserção de ensaios de mandioca (Manihot esculenta) na plataforma CassavaBase, em colaboração com a EMBRAPA Mandioca e Fruticultura.
O pipeline organiza, padroniza e gera arquivos de saída compatíveis com o sistema, incluindo ensaios, acessos e dados fenotípicos, garantindo consistência e reprodutibilidade no fluxo de dados.
- Leitura e integração de múltiplas planilhas de dados (
.xlsx). - Padronização de nomes de ensaios, acessos e genótipos.
- Criação de identificadores únicos para parcelas (
plot_name). - Identificação de ensaios e acessos já existentes na CassavaBase.
- Geração de arquivos de saída para importação:
- Ensaios (
.xls) - Dados fenotípicos por acesso (
acess_pheno.xls) - Dados fenotípicos por ano (
phenotype_acession_YYYY.xls)
- Ensaios (
- R (tidyverse, readxl, writexl, stringr, dplyr)
- workflowr (estrutura de projeto reprodutível)
├── data/ # Planilhas de entrada (.xlsx)
│ ├── Trials-in-cassava-base.xlsx
│ ├── sinonimous.xlsx
│ ├── locais e siglas dos experimentos 2021.xlsx
│ └── Dados_hibridos2.xlsx
│
├── output/ # Arquivos gerados para importação
│ ├── acess_pheno.xls
│ ├── phenotype_acession_YYYY.xls
│ └── *.xls (ensaios individuais)
│
├── analysis/ # Script principal em RMarkdown
│ └── index.Rmd
│
└── README.md
git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapaCertifique-se de ter as bibliotecas instaladas:
install.packages(c("tidyverse", "readxl", "writexl", "stringr"))Abra o arquivo analysis/index.Rmd e rode os chunks de código.
Os arquivos de saída serão gerados automaticamente na pasta output/.
- Arquivos
.xlsprontos para importação na CassavaBase. - Relatórios de resumo de ensaios e acessos (
resumo_trials.xlsx,resumo_acess.xlsx). - Padronização de nomes de ensaios e genótipos.
graph TD
A[1. Carregamento de pacotes] --> B[2. Importação dos dados]
B --> C[3. Padronização dos dados]
C --> D[4. Resumo inicial dos ensaios]
D --> E[5. Integração com abreviações de locais]
E --> F[6. Criação de nomes de ensaios especiais]
F --> G[7. Dataset final com verificações]
G --> H[8. Resumos de ensaios e acessos]
H --> I[9. Geração de arquivos de ensaios]
H --> J[10. Geração de dados fenotípicos]
I --> K[Arquivos .xls por ensaio]
J --> L[Arquivos fenotípicos por ano]
J --> M[Arquivo geral de acessos]
cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase
Este projeto está sob a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Consulte o arquivo LICENSE para mais detalhes.
This repository contains R scripts to automate the process of cassava (Manihot esculenta) trial insertion into the CassavaBase platform, in collaboration with EMBRAPA Cassava and Fruits.
The pipeline organizes, standardizes, and generates output files compatible with the system, including trials, accessions, and phenotypic data, ensuring consistency and reproducibility in the data workflow.
- Reading and integration of multiple Excel spreadsheets (
.xlsx). - Standardization of trial, accession, and genotype names.
- Creation of unique identifiers for plots (
plot_name). - Identification of trials and accessions already existing in CassavaBase.
- Generation of output files for import:
- Trials (
.xls) - Phenotypic data by accession (
acess_pheno.xls) - Phenotypic data by year (
phenotype_acession_YYYY.xls)
- Trials (
- R (tidyverse, readxl, writexl, stringr, dplyr)
- workflowr (reproducible project structure)
├── data/ # Input spreadsheets (.xlsx)
│ ├── Trials-in-cassava-base.xlsx
│ ├── sinonimous.xlsx
│ ├── locais e siglas dos experimentos 2021.xlsx
│ └── Dados_hibridos2.xlsx
│
├── output/ # Generated files for import
│ ├── acess_pheno.xls
│ ├── phenotype_acession_YYYY.xls
│ └── *.xls (individual trials)
│
├── analysis/ # Main RMarkdown script
│ └── index.Rmd
│
└── README.md
git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapaMake sure the required libraries are installed:
install.packages(c("tidyverse", "readxl", "writexl", "stringr"))Open the file analysis/index.Rmd and run the code chunks.
The output files will be automatically generated in the output/ folder.
.xlsfiles ready for import into CassavaBase.- Summary reports of trials and accessions (
resumo_trials.xlsx,resumo_acess.xlsx). - Standardization of trial and genotype names.
graph TD
A[1. Package loading] --> B[2. Data import]
B --> C[3. Data standardization]
C --> D[4. Initial trial summary]
D --> E[5. Integration with trial abbreviations]
E --> F[6. Creation of special trial names]
F --> G[7. Final dataset with validations]
G --> H[8. Trial and accession summaries]
H --> I[9. Trial file generation]
H --> J[10. Phenotypic data generation]
I --> K[.xls files per trial]
J --> L[Phenotypic files by year]
J --> M[General accession file]
cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase
This project is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
See the LICENSE file for more details.