Skip to content

SinceraXY/LLMs-BiocharPredict

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

LLMs-BiocharPredict

简体中文 | English: README_EN.md

目录

项目简介

本项目是面向生物炭性质预测的开源研究性仓库,提供与论文配套的代码与数据。项目结合传统机器学习与大语言模型(LLMs),用于预测生物炭的多种性质(如产量、比表面积、灰分、CHNO元素、pH、粒径等),并给出完整的数据处理与训练评估流程。

论文与目的

  • 本仓库为论文的支撑代码与数据,用于帮助读者复现实验结果,并便于社区二次开发与扩展。
  • 如需在论文中引用本仓库,请参考文末的“引用本项目”部分。

功能与特点

  • 多任务预测:支持产量、比表面积、灰分、CHNO元素、pH、粒径等目标。
  • 传统+深度:集成 XGBoost、随机森林、ANN 等模型;提供 LLM 微调准备与示例。
  • 完整流程:数据分类/重提取/缺失值填补/问答对生成/训练与评估的端到端链路。
  • 复现友好:提供明确的依赖文件与复现步骤说明。

仓库内容

  • 核心笔记本
    • ML.ipynb:机器学习模型训练与评估(XGBoost、RF、ANN 等)
    • Q&A pair generation.ipynb:面向 LLM 微调的问答对构建
    • Data classification.ipynb:按性质对数据进行分类/抽取
    • Projected supplementary data.ipynb:缺失值填补与数据补充
    • Re-extraction of data.ipynb:从 JSON 等格式重提取训练数据至 CSV
    • Second round of fine-tuning preparations.ipynb:二轮微调数据准备(如 60/40 划分)
  • 数据文件
    • First round of training set and validation set data.csv:第一轮训练+验证集
    • First round of test set data and second round of training and test set data.csv:第一轮测试集与第二轮训练/测试集
  • 项目治理与文档
    • requirements.txt:核心依赖
    • LICENSE:开源许可证(MIT)
    • CONTRIBUTING.md:贡献指南
    • CODE_OF_CONDUCT.md:行为准则
    • SECURITY.md:安全策略与漏洞报告方式
    • docs/:扩展文档(可选)

环境与安装

  • 推荐环境:Python 3.8+(建议使用虚拟环境)
  • 可选:NVIDIA GPU + CUDA(用于深度学习/LLM 微调与推理加速)

在 Windows PowerShell 中:

# 克隆仓库
git clone https://github.com/SinceraXY/LLMs-BiocharPredict.git
cd LLMs-BiocharPredict

# 创建并激活虚拟环境
py -m venv .venv
.\.venv\Scripts\Activate.ps1

# 安装依赖
pip install -r requirements.txt

如需使用 Conda:

conda create -n biochar python=3.10 -y
conda activate biochar
pip install -r requirements.txt

提示:若需 GPU 加速的 PyTorch,请根据硬件/驱动选择合适的 CUDA 对应版本安装。

快速开始

  1. 打开 Jupyter(或 VS Code/Notebook 环境)
jupyter notebook
  1. 按“复现实验与推荐流程”章节的顺序依次运行笔记本。
  2. ML.ipynb 中训练传统机器学习模型,并记录评估指标。
  3. 使用 Q&A pair generation.ipynb 生成 LLM 微调所需的问答对(JSON)。

数据与文件说明

  • 本仓库包含两份主要 CSV 数据用于训练/验证/测试,文件均位于仓库根目录,文件名如上所列。
  • 数据字段:包含原料特性(如生物质类型、来源、预处理等)、工艺参数(温度、加热速率、停留时间等)与目标性质(产量、比表面积、灰分、CHNO、pH、粒径等)。
  • 若需从原始 JSON 或其他格式重建 CSV,可使用 Re-extraction of data.ipynb

复现实验与推荐流程

建议按照以下顺序运行,以获得与论文一致或可比的结果:

  1. Re-extraction of data.ipynb(若需)
  2. Data classification.ipynb
  3. Projected supplementary data.ipynb
  4. Q&A pair generation.ipynb
  5. ML.ipynb
  6. Second round of fine-tuning preparations.ipynb

说明:

  • 缺失值填补建议参考笔记本中的 AutoGluon 设置与报告的验证指标。
  • LLM 微调示例与推理仅提供最小可行范式,具体训练参数与硬件资源需按实际环境调整。

贡献指南

欢迎提交 Issue 与 Pull Request 改进本项目(修复问题、完善文档、扩展功能等)。

行为准则

本项目遵循开源社区基本礼仪,详情参见:CODE_OF_CONDUCT.md

安全策略

如发现安全问题或潜在漏洞,请参考:SECURITY.md

许可证

  • 代码遵循 MIT 许可证,见:LICENSE
  • 若数据另有许可条款,请在引用或再分发时遵循相应要求(如有疑问,请在 Issue 中与我们沟通)。

引用本项目

如本项目或其数据/模型对你的研究或产品有帮助,请引用:

@software{LLMs-BiocharPredict,
  title        = {LLMs-BiocharPredict: Biochar Property Prediction with ML and LLMs},
  author       = {SinceraXY and Contributors},
  year         = {2025},
  url          = {https://github.com/SinceraXY/LLMs-BiocharPredict},
  note         = {Code and data accompanying the paper}
}

如有正式论文信息(作者、题目、期刊/会议、DOI 等),建议在此处补充标准 BibTeX 或提供 CITATION.cff

联系方式

  • 提交 Issue:请在 GitHub 仓库发起问题反馈与讨论
  • 邮件联系:2952671670@qq.com

本项目旨在推动生物炭性质预测研究的可复现与可扩展,促进可持续能源与环境保护相关应用的发展。

About

This repository contains the code and data accompanying our paper on biochar property prediction. We integrate traditional machine learning with Large Language Models (LLMs) to predict multiple biochar properties, providing a complete workflow from data preparation to model training and evaluation.

Resources

License

Code of conduct

Contributing

Security policy

Stars

Watchers

Forks

Contributors