readme.md 4.5 KB
Newer Older
X
xujiaqi01 已提交
1 2 3
# 内容理解模型库

## 简介
Z
zengkai 已提交
4
我们提供了常见的内容理解任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的内容理解模型包括 [Tagspace](tagspace)[文本分类](classification)等。
X
xujiaqi01 已提交
5 6 7 8 9

模型算法库在持续添加中,欢迎关注。

## 目录
* [整体介绍](#整体介绍)
Z
zengkai 已提交
10
    * [模型列表](#内容理解模型列表)
X
xujiaqi01 已提交
11 12 13 14 15 16 17 18 19 20
* [使用教程](#使用教程)
    * [数据处理](#数据处理)
    * [训练](#训练)
    * [预测](#预测)
* [效果对比](#效果对比)
    * [模型效果列表](#模型效果列表)
* [分布式](#分布式)
    * [模型性能列表](#模型性能列表)

## 整体介绍
Z
zengkai 已提交
21
### 模型列表
X
xujiaqi01 已提交
22 23 24

|       模型        |       简介        |       论文        |
| :------------------: | :--------------------: | :---------: |
Z
zengkai 已提交
25 26
| TagSpace | 标签推荐 | [TagSpace: Semantic Embeddings from Hashtags (2014)](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags/) |
| Classification | 文本分类 | [Convolutional neural networks for sentence classication (2014)](https://www.aclweb.org/anthology/D14-1181.pdf) |
X
xujiaqi01 已提交
27

Z
zengkai 已提交
28
下面是每个模型的简介(注:图片引用自链接中的论文)
Z
zengkai 已提交
29

Z
zengkai 已提交
30
[TagSpace模型](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags)
Z
zengkai 已提交
31
<p align="center">
Z
zengkai 已提交
32
<img align="center" src="../../doc/imgs/tagspace.png">
Z
zengkai 已提交
33 34
<p>

Z
zengkai 已提交
35
[文本分类CNN模型](https://www.aclweb.org/anthology/D14-1181.pdf)
Z
zengkai 已提交
36
<p align="center">
Z
zengkai 已提交
37
<img align="center" src="../../doc/imgs/cnn-ckim2014.png">
Z
zengkai 已提交
38
<p>
X
xujiaqi01 已提交
39

X
xjqbest 已提交
40 41 42 43 44 45 46 47 48 49 50 51
##使用教程(快速开始)
```
python -m paddlerec.run -m paddlerec.models.contentunderstanding.tagspace
python -m paddlerec.run -m paddlerec.models.contentunderstanding.classification
```

## 使用教程(复现论文)

###注意

为了方便使用者能够快速的跑通每一个模型,我们在每个模型下都提供了样例数据。如果需要复现readme中的效果请使用以下提供的脚本下载对应数据集以及数据预处理。

X
xujiaqi01 已提交
52
### 数据处理
X
xujiaqi01 已提交
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77

**(1)TagSpace**

[数据地址](https://github.com/mhjabreel/CharCNN/tree/master/data/) , [备份数据地址](https://paddle-tagspace.bj.bcebos.com/data.tar)
 
数据格式如下
```
"3","Wall St. Bears Claw Back Into the Black (Reuters)","Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics, are seeing green again."
```

数据解压后,将文本数据转为paddle数据,先将数据放到训练数据目录和测试数据目录

```
mkdir raw_big_train_data
mkdir raw_big_test_data
mv train.csv raw_big_train_data
mv test.csv raw_big_test_data
```

运行脚本text2paddle.py 生成paddle输入格式

```
python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test_big_data big_vocab_text.txt big_vocab_tag.txt
```

X
xjqbest 已提交
78 79 80 81 82
### 训练
```
cd modles/contentunderstanding/tagspace
python -m paddlerec.run -m ./config.yaml # 自定义修改超参后,指定配置文件,使用自定义配置
```
X
xujiaqi01 已提交
83

X
xjqbest 已提交
84 85 86 87 88 89 90 91 92 93 94
### 预测
```
# 修改对应模型的config.yaml, workspace配置为当前目录的绝对路径
# 修改对应模型的config.yaml,mode配置infer_runner
# 示例: mode: train_runner -> mode: infer_runner
# infer_runner中 class配置为 class: single_infer
# 修改phase阶段为infer的配置,参照config注释

# 修改完config.yaml后 执行:
python -m paddlerec.run -m ./config.yaml
```
X
xujiaqi01 已提交
95

X
xjqbest 已提交
96
**(2)Classification**
X
fix  
xujiaqi01 已提交
97

X
xjqbest 已提交
98
### 训练
X
fix  
xujiaqi01 已提交
99
```
X
xjqbest 已提交
100 101
cd modles/contentunderstanding/classification
python -m paddlerec.run -m ./config.yaml # 自定义修改超参后,指定配置文件,使用自定义配置
X
fix  
xujiaqi01 已提交
102 103
```

X
xujiaqi01 已提交
104
### 预测
X
fix  
xujiaqi01 已提交
105
```
X
xjqbest 已提交
106 107 108 109 110 111 112 113
# 修改对应模型的config.yaml, workspace配置为当前目录的绝对路径
# 修改对应模型的config.yaml,mode配置infer_runner
# 示例: mode: train_runner -> mode: infer_runner
# infer_runner中 class配置为 class: single_infer
# 修改phase阶段为infer的配置,参照config注释

# 修改完config.yaml后 执行:
python -m paddlerec.run -m ./config.yaml
X
fix  
xujiaqi01 已提交
114 115
```

X
xujiaqi01 已提交
116 117 118 119 120
## 效果对比
### 模型效果 (测试)

|       数据集        |       模型       |       loss        |       auc          |       acc         |       mae          |
| :------------------: | :--------------------: | :---------: |:---------: | :---------: |:---------: |
X
fix  
xujiaqi01 已提交
121
|       ag news dataset        |       TagSpace       |       --        |       --          |       --          |       --          |
Z
zengkai 已提交
122
|       --        |       Classification       |       --        |       --          |       --          |       --          |