Skip to content

Este repositório contém scripts em R para automatizar o processo de inserção de ensaios de mandioca (Manihot esculenta) na plataforma CassavaBase, em colaboração com a EMBRAPA Mandioca e Fruticultura. O pipeline organiza, padroniza e gera arquivos de saída compatíveis com o sistema, incluindo ensaios, acessos e dados fenotípicos.

Notifications You must be signed in to change notification settings

WevertonGomesCosta/cassavabaseembrapa

Repository files navigation

🌱 CassavaBase EMBRAPA — Automação de Inserção de Ensaios

LinkedIn ORCID Lattes GitHub Google Scholar


Este repositório contém scripts em R para automatizar o processo de inserção de ensaios de mandioca (Manihot esculenta) na plataforma CassavaBase, em colaboração com a EMBRAPA Mandioca e Fruticultura.

O pipeline organiza, padroniza e gera arquivos de saída compatíveis com o sistema, incluindo ensaios, acessos e dados fenotípicos, garantindo consistência e reprodutibilidade no fluxo de dados.


📌 Funcionalidades

  • Leitura e integração de múltiplas planilhas de dados (.xlsx).
  • Padronização de nomes de ensaios, acessos e genótipos.
  • Criação de identificadores únicos para parcelas (plot_name).
  • Identificação de ensaios e acessos já existentes na CassavaBase.
  • Geração de arquivos de saída para importação:
    • Ensaios (.xls)
    • Dados fenotípicos por acesso (acess_pheno.xls)
    • Dados fenotípicos por ano (phenotype_acession_YYYY.xls)

🛠️ Tecnologias Utilizadas

  • R (tidyverse, readxl, writexl, stringr, dplyr)
  • workflowr (estrutura de projeto reprodutível)

📂 Estrutura do Repositório

├── data/                  # Planilhas de entrada (.xlsx)
│   ├── Trials-in-cassava-base.xlsx
│   ├── sinonimous.xlsx
│   ├── locais e siglas dos experimentos 2021.xlsx
│   └── Dados_hibridos2.xlsx
│
├── output/                # Arquivos gerados para importação
│   ├── acess_pheno.xls
│   ├── phenotype_acession_YYYY.xls
│   └── *.xls (ensaios individuais)
│
├── analysis/              # Script principal em RMarkdown
│   └── index.Rmd
│
└── README.md

🚀 Como Executar

1. Clonar o repositório

git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapa

2. Abrir o projeto no RStudio

Certifique-se de ter as bibliotecas instaladas:

install.packages(c("tidyverse", "readxl", "writexl", "stringr"))

3. Executar o script principal

Abra o arquivo analysis/index.Rmd e rode os chunks de código.
Os arquivos de saída serão gerados automaticamente na pasta output/.


📊 Resultados

  • Arquivos .xls prontos para importação na CassavaBase.
  • Relatórios de resumo de ensaios e acessos (resumo_trials.xlsx, resumo_acess.xlsx).
  • Padronização de nomes de ensaios e genótipos.

🔄 Fluxo do Pipeline

graph TD
  A[1. Carregamento de pacotes] --> B[2. Importação dos dados]
  B --> C[3. Padronização dos dados]
  C --> D[4. Resumo inicial dos ensaios]
  D --> E[5. Integração com abreviações de locais]
  E --> F[6. Criação de nomes de ensaios especiais]
  F --> G[7. Dataset final com verificações]
  G --> H[8. Resumos de ensaios e acessos]
  H --> I[9. Geração de arquivos de ensaios]
  H --> J[10. Geração de dados fenotípicos]
  I --> K[Arquivos .xls por ensaio]
  J --> L[Arquivos fenotípicos por ano]
  J --> M[Arquivo geral de acessos]
Loading

🔑 Tópicos (Tags)

cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase

📜 Licença

Este projeto está sob a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Consulte o arquivo LICENSE para mais detalhes.


🌱 CassavaBase EMBRAPA — Automated Trial Insertion

LinkedIn ORCID Lattes GitHub Google Scholar


This repository contains R scripts to automate the process of cassava (Manihot esculenta) trial insertion into the CassavaBase platform, in collaboration with EMBRAPA Cassava and Fruits.

The pipeline organizes, standardizes, and generates output files compatible with the system, including trials, accessions, and phenotypic data, ensuring consistency and reproducibility in the data workflow.


📌 Features

  • Reading and integration of multiple Excel spreadsheets (.xlsx).
  • Standardization of trial, accession, and genotype names.
  • Creation of unique identifiers for plots (plot_name).
  • Identification of trials and accessions already existing in CassavaBase.
  • Generation of output files for import:
    • Trials (.xls)
    • Phenotypic data by accession (acess_pheno.xls)
    • Phenotypic data by year (phenotype_acession_YYYY.xls)

🛠️ Technologies

  • R (tidyverse, readxl, writexl, stringr, dplyr)
  • workflowr (reproducible project structure)

📂 Repository Structure

├── data/                  # Input spreadsheets (.xlsx)
│   ├── Trials-in-cassava-base.xlsx
│   ├── sinonimous.xlsx
│   ├── locais e siglas dos experimentos 2021.xlsx
│   └── Dados_hibridos2.xlsx
│
├── output/                # Generated files for import
│   ├── acess_pheno.xls
│   ├── phenotype_acession_YYYY.xls
│   └── *.xls (individual trials)
│
├── analysis/              # Main RMarkdown script
│   └── index.Rmd
│
└── README.md

🚀 How to Run

1. Clone the repository

git clone https://github.com/WevertonGomesCosta/cassavabaseembrapa.git
cd cassavabaseembrapa

2. Open the project in RStudio

Make sure the required libraries are installed:

install.packages(c("tidyverse", "readxl", "writexl", "stringr"))

3. Run the main script

Open the file analysis/index.Rmd and run the code chunks.
The output files will be automatically generated in the output/ folder.


📊 Results

  • .xls files ready for import into CassavaBase.
  • Summary reports of trials and accessions (resumo_trials.xlsx, resumo_acess.xlsx).
  • Standardization of trial and genotype names.

🔄 Pipeline Workflow

graph TD
  A[1. Package loading] --> B[2. Data import]
  B --> C[3. Data standardization]
  C --> D[4. Initial trial summary]
  D --> E[5. Integration with trial abbreviations]
  E --> F[6. Creation of special trial names]
  F --> G[7. Final dataset with validations]
  G --> H[8. Trial and accession summaries]
  H --> I[9. Trial file generation]
  H --> J[10. Phenotypic data generation]
  I --> K[.xls files per trial]
  J --> L[Phenotypic files by year]
  J --> M[General accession file]
Loading

🔑 Keywords (Tags)

cassava genomics plant-breeding bioinformatics data-cleaning rstats embrapa cassavabase

📜 License

This project is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
See the LICENSE file for more details.

About

Este repositório contém scripts em R para automatizar o processo de inserção de ensaios de mandioca (Manihot esculenta) na plataforma CassavaBase, em colaboração com a EMBRAPA Mandioca e Fruticultura. O pipeline organiza, padroniza e gera arquivos de saída compatíveis com o sistema, incluindo ensaios, acessos e dados fenotípicos.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages