readme.md 4.3 KB
Newer Older
X
xujiaqi01 已提交
1 2 3
# 内容理解模型库

## 简介
Z
zengkai 已提交
4
我们提供了常见的内容理解任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的内容理解模型包括 [Tagspace](tagspace)[文本分类](classification)等。
X
xujiaqi01 已提交
5 6 7 8 9

模型算法库在持续添加中,欢迎关注。

## 目录
* [整体介绍](#整体介绍)
Z
zengkai 已提交
10
    * [模型列表](#内容理解模型列表)
X
xujiaqi01 已提交
11 12 13 14 15 16 17 18 19 20
* [使用教程](#使用教程)
    * [数据处理](#数据处理)
    * [训练](#训练)
    * [预测](#预测)
* [效果对比](#效果对比)
    * [模型效果列表](#模型效果列表)
* [分布式](#分布式)
    * [模型性能列表](#模型性能列表)

## 整体介绍
Z
zengkai 已提交
21
### 模型列表
X
xujiaqi01 已提交
22 23 24

|       模型        |       简介        |       论文        |
| :------------------: | :--------------------: | :---------: |
Z
zengkai 已提交
25 26
| TagSpace | 标签推荐 | [TagSpace: Semantic Embeddings from Hashtags (2014)](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags/) |
| Classification | 文本分类 | [Convolutional neural networks for sentence classication (2014)](https://www.aclweb.org/anthology/D14-1181.pdf) |
X
xujiaqi01 已提交
27

Z
zengkai 已提交
28
下面是每个模型的简介(注:图片引用自链接中的论文)
Z
zengkai 已提交
29

Z
zengkai 已提交
30
[TagSpace模型](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags)
Z
zengkai 已提交
31
<p align="center">
Z
zengkai 已提交
32
<img align="center" src="../../doc/imgs/tagspace.png">
Z
zengkai 已提交
33 34
<p>

Z
zengkai 已提交
35
[文本分类CNN模型](https://www.aclweb.org/anthology/D14-1181.pdf)
Z
zengkai 已提交
36
<p align="center">
Z
zengkai 已提交
37
<img align="center" src="../../doc/imgs/cnn-ckim2014.png">
Z
zengkai 已提交
38
<p>
X
xujiaqi01 已提交
39 40 41

## 使用教程
### 数据处理
X
xujiaqi01 已提交
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

**(1)TagSpace**

[数据地址](https://github.com/mhjabreel/CharCNN/tree/master/data/) , [备份数据地址](https://paddle-tagspace.bj.bcebos.com/data.tar)
 
数据格式如下
```
"3","Wall St. Bears Claw Back Into the Black (Reuters)","Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics, are seeing green again."
```

数据解压后,将文本数据转为paddle数据,先将数据放到训练数据目录和测试数据目录

```
mkdir raw_big_train_data
mkdir raw_big_test_data
mv train.csv raw_big_train_data
mv test.csv raw_big_test_data
```

运行脚本text2paddle.py 生成paddle输入格式

```
python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test_big_data big_vocab_text.txt big_vocab_tag.txt
```

Z
zengkai 已提交
67
**(2)Classification**
X
xujiaqi01 已提交
68 69 70



X
xujiaqi01 已提交
71
### 训练
X
fix  
xujiaqi01 已提交
72 73

```
X
fix  
xujiaqi01 已提交
74
python -m paddlerec.run -m paddlerec.models.contentunderstanding.classification -d cpu -e single
X
fix  
xujiaqi01 已提交
75 76
```

X
xujiaqi01 已提交
77 78
### 预测

X
fix  
xujiaqi01 已提交
79
```
X
fix  
xujiaqi01 已提交
80
python -m paddlerec.run -m paddlerec.models.contentunderstanding.classification -d cpu -e single
X
fix  
xujiaqi01 已提交
81 82
```

X
xujiaqi01 已提交
83 84 85 86 87
## 效果对比
### 模型效果 (测试)

|       数据集        |       模型       |       loss        |       auc          |       acc         |       mae          |
| :------------------: | :--------------------: | :---------: |:---------: | :---------: |:---------: |
X
fix  
xujiaqi01 已提交
88
|       ag news dataset        |       TagSpace       |       --        |       --          |       --          |       --          |
Z
zengkai 已提交
89
|       --        |       Classification       |       --        |       --          |       --          |       --          |
X
xujiaqi01 已提交
90 91 92 93 94 95 96


## 分布式
### 模型训练性能 (样本/s)
|       数据集        |       模型       |       单机        |       同步 (4节点)          |       同步 (8节点)          |  同步 (16节点)          |  同步 (32节点)          |
| :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: |
|       --        |       TagSpace       |       --        |       --          |       --          |  --          |  --          |
Z
zengkai 已提交
97
|       --        |       Classification       |       --        |       --          |       --          |   --          |   --          |
X
xujiaqi01 已提交
98 99 100 101 102 103 104


----

|       数据集        |       模型       |       单机        |       异步 (4节点)          |       异步 (8节点)          |  异步 (16节点)          |  异步 (32节点)          |
| :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: |
|       --        |       TagSpace       |       --        |       --          |       --          |  --          |  --          |
Z
zengkai 已提交
105
|       --        |       Classification       |       --        |       --          |       --          |   --          |   --          |