本项目主要对各个模型的文本分类能力进行测试,模型包括早期的机器学习模型和目前流行的深度学习。项目中包含数据集的处理和读取方法,相应模型的部分处理代码,以及最后的测试代码。
| 模型 | 代码 |
|---|---|
| 朴素贝叶斯 | 朴素贝叶斯.py |
| MLP | MLP.ipynb |
| Bert | BERT.ipynb |
| XLNet | run_classifier.py |
| TextRNN, TextCNN, TextRCNN | TextRNN, TextCNN, TextRCNN/*. |
用法:
from utils.data_loader import load_data
train,test=load_data('./小组作业-语料/') # 输入存放数据集的文件夹即可读取数据集,数据集已经过shuffle格式:
[
["中国将军团8年来首访日本 日方希望加强和中国沟通",1],
["他一张脸都皱紧了",4],
]用法:
from utils.score import score
score(label_truth,label_predict,output_filename='mlp.txt')
# label_truth和label_predict均为整数list
# output_filename参数可选示例:
label_truth=[1,2,3,5,1,2,3,5,1,2,3,5,1,2,3,5]
label_predict=[2,5,5,5,3,2,3,1,1,2,1,5,1,3,3,5]
score(label_truth,label_predict,output_filename='mlp.txt')
