BugClassification

基于LDA和双向GRU的软件缺陷分类

数据集与预处理

数据来源于Jira系统中的Lucene、JackRabbit和Httpclient三个软件缺陷报告集，这三个项目均属于Apache的子项目.

在我们执行分类任务前，首先需要对这些数据集进行初步处理，除了对单个项目的数据集进行处理之外，我们还对混合后的数据集进行同样的处理工作，处理步骤下：（1）从软件缺陷报告中抽取summary、description和priority字段信息；（2）对summary和description字段的信息进行文本预处理步骤；（3）使用LDA主题模型提取软件缺陷报告的主题特征；（4）从软件缺陷报告校正后的分类文件中抽取出每个报告所对应的类别；（5）对预处理后的文本向量进行对齐操作；（6）将处理好的输入数据划分为训练数据集、验证数据集和测试数据集，并写入文件；

实验环境参数

OS：Ubuntu18.04
CPU：Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
TensorFlow 2.1.0

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
BiGRU_att1_model		BiGRU_att1_model
LDA theme		LDA theme
LDA-Input		LDA-Input
Model Input		Model Input
com_BiGRU_model		com_BiGRU_model
com_GRU_model		com_GRU_model
com_LSTM_model		com_LSTM_model
dataset		dataset
BiGRU+Attention+LDA特征.ipynb		BiGRU+Attention+LDA特征.ipynb
BiGRU+Attention.ipynb		BiGRU+Attention.ipynb
BiGRU+LDA特征.ipynb		BiGRU+LDA特征.ipynb
BiGRU.ipynb		BiGRU.ipynb
Extract input from LDA output.ipynb		Extract input from LDA output.ipynb
GRU+LDA特征.ipynb		GRU+LDA特征.ipynb
GRU.ipynb		GRU.ipynb
LDA特征提取.ipynb		LDA特征提取.ipynb
LDA预处理.ipynb		LDA预处理.ipynb
Preprocess for LDA.ipynb		Preprocess for LDA.ipynb
README.md		README.md
attention.py		attention.py
lstm+LDA特征-去除摘要和描述.ipynb		lstm+LDA特征-去除摘要和描述.ipynb
lstm+LDA特征.ipynb		lstm+LDA特征.ipynb
lstm.ipynb		lstm.ipynb
最终预处理.ipynb		最终预处理.ipynb
预处理+LDA特征.ipynb		预处理+LDA特征.ipynb
预处理.ipynb		预处理.ipynb
预处理2.ipynb		预处理2.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BugClassification

数据集与预处理

实验环境参数

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

BugClassification

数据集与预处理

实验环境参数

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages