提交 5e300b8c 编写于 作者: W wuzhihua02

Merge branch 'develop' into 'develop'

Develop

See merge request !36
# 内容理解模型库 # 内容理解模型库
## 简介 ## 简介
我们提供了常见的内容理解任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的内容理解模型包括 [Tagspace](http://gitlab.baidu.com/xujiaqi01/paddlerec/tree/develop/models/contentunderstanding/tagspace)[文本分类](http://gitlab.baidu.com/xujiaqi01/paddlerec/tree/develop/models/contentunderstanding/text_classification) 我们提供了常见的内容理解任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的内容理解模型包括 [Tagspace](tagspace)[文本分类](classification)
模型算法库在持续添加中,欢迎关注。 模型算法库在持续添加中,欢迎关注。
## 目录 ## 目录
* [整体介绍](#整体介绍) * [整体介绍](#整体介绍)
* [内容理解模型列表](#内容理解模型列表) * [模型列表](#内容理解模型列表)
* [使用教程](#使用教程) * [使用教程](#使用教程)
* [数据处理](#数据处理) * [数据处理](#数据处理)
* [训练](#训练) * [训练](#训练)
...@@ -18,13 +18,24 @@ ...@@ -18,13 +18,24 @@
* [模型性能列表](#模型性能列表) * [模型性能列表](#模型性能列表)
## 整体介绍 ## 整体介绍
### 排序模型列表 ### 模型列表
| 模型 | 简介 | 论文 | | 模型 | 简介 | 论文 |
| :------------------: | :--------------------: | :---------: | | :------------------: | :--------------------: | :---------: |
| TagSpace | 标签推荐 | [TagSpace: Semantic Embeddings from Hashtags](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags/) | | TagSpace | 标签推荐 | [TagSpace: Semantic Embeddings from Hashtags (2014)](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags/) |
| TextClassification | 文本分类 | -- | | Classification | 文本分类 | [Convolutional neural networks for sentence classication (2014)](https://www.aclweb.org/anthology/D14-1181.pdf) |
下面是每个模型的简介(注:图片引用自链接中的论文)
[TagSpace模型](https://research.fb.com/publications/tagspace-semantic-embeddings-from-hashtags)
<p align="center">
<img align="center" src="../../doc/imgs/tagspace.png">
<p>
[文本分类CNN模型](https://www.aclweb.org/anthology/D14-1181.pdf)
<p align="center">
<img align="center" src="../../doc/imgs/cnn-ckim2014.png">
<p>
## 使用教程 ## 使用教程
### 数据处理 ### 数据处理
...@@ -53,7 +64,7 @@ mv test.csv raw_big_test_data ...@@ -53,7 +64,7 @@ mv test.csv raw_big_test_data
python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test_big_data big_vocab_text.txt big_vocab_tag.txt python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test_big_data big_vocab_text.txt big_vocab_tag.txt
``` ```
**(2)TextClassification** **(2)Classification**
...@@ -66,7 +77,7 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test ...@@ -66,7 +77,7 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test
| 数据集 | 模型 | loss | auc | acc | mae | | 数据集 | 模型 | loss | auc | acc | mae |
| :------------------: | :--------------------: | :---------: |:---------: | :---------: |:---------: | | :------------------: | :--------------------: | :---------: |:---------: | :---------: |:---------: |
| -- | TagSpace | -- | -- | -- | -- | | -- | TagSpace | -- | -- | -- | -- |
| -- | TextClassification | -- | -- | -- | -- | | -- | Classification | -- | -- | -- | -- |
## 分布式 ## 分布式
...@@ -74,7 +85,7 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test ...@@ -74,7 +85,7 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test
| 数据集 | 模型 | 单机 | 同步 (4节点) | 同步 (8节点) | 同步 (16节点) | 同步 (32节点) | | 数据集 | 模型 | 单机 | 同步 (4节点) | 同步 (8节点) | 同步 (16节点) | 同步 (32节点) |
| :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: | | :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: |
| -- | TagSpace | -- | -- | -- | -- | -- | | -- | TagSpace | -- | -- | -- | -- | -- |
| -- | TextClassification | -- | -- | -- | -- | -- | | -- | Classification | -- | -- | -- | -- | -- |
---- ----
...@@ -82,4 +93,4 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test ...@@ -82,4 +93,4 @@ python text2paddle.py raw_big_train_data/ raw_big_test_data/ train_big_data test
| 数据集 | 模型 | 单机 | 异步 (4节点) | 异步 (8节点) | 异步 (16节点) | 异步 (32节点) | | 数据集 | 模型 | 单机 | 异步 (4节点) | 异步 (8节点) | 异步 (16节点) | 异步 (32节点) |
| :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: | | :------------------: | :--------------------: | :---------: |:---------: |:---------: |:---------: |:---------: |
| -- | TagSpace | -- | -- | -- | -- | -- | | -- | TagSpace | -- | -- | -- | -- | -- |
| -- | TextClassification | -- | -- | -- | -- | -- | | -- | Classification | -- | -- | -- | -- | -- |
\ No newline at end of file
# 排序模型库 # 排序模型库
## 简介 ## 简介
我们提供了常见的排序任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的排序模型包括 [多层神经网络](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/dnn)[Deep Cross Network](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/dcn)[DeepFM](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/deepfm)[xDeepFM](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/xdeepfm)[Deep Interest Network](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/din)[Wide&Deep](http://gitlab.baidu.com/tangwei12/paddlerec/tree/develop/models/rank/wide_deep) 我们提供了常见的排序任务中使用的模型算法的PaddleRec实现, 单机训练&预测效果指标以及分布式训练&预测性能指标等。实现的排序模型包括 [多层神经网络](dnn)[Deep Cross Network](dcn)[DeepFM](deepfm)[xDeepFM](xdeepfm)[Deep Interest Network](din)[Wide&Deep](wide_deep)
模型算法库在持续添加中,欢迎关注。 模型算法库在持续添加中,欢迎关注。
## 目录 ## 目录
* [整体介绍](#整体介绍) * [整体介绍](#整体介绍)
* [排序模型列表](#排序模型列表) * [模型列表](#模型列表)
* [使用教程](#使用教程) * [使用教程](#使用教程)
* [数据处理](#数据处理) * [数据处理](#数据处理)
* [训练](#训练) * [训练](#训练)
...@@ -18,16 +18,43 @@ ...@@ -18,16 +18,43 @@
* [模型性能列表](#模型性能列表) * [模型性能列表](#模型性能列表)
## 整体介绍 ## 整体介绍
### 排序模型列表 ### 模型列表
| 模型 | 简介 | 论文 | | 模型 | 简介 | 论文 |
| :------------------: | :--------------------: | :---------: | | :------------------: | :--------------------: | :---------: |
| DNN | 多层神经网络 | -- | | DNN | 多层神经网络 | -- |
| wide&deep | Deep + wide(LR) | [Wide & Deep Learning for Recommender Systems](https://dl.acm.org/doi/abs/10.1145/2988450.2988454)(2016) | | wide&deep | Deep + wide(LR) | [Wide & Deep Learning for Recommender Systems](https://dl.acm.org/doi/pdf/10.1145/2988450.2988454)(2016) |
| DeepFM | DeepFM | [DeepFM: A Factorization-Machine based Neural Network for CTR Prediction](https://arxiv.org/abs/1703.04247)(2017) | | DeepFM | DeepFM | [DeepFM: A Factorization-Machine based Neural Network for CTR Prediction](https://arxiv.org/pdf/1703.04247.pdf)(2017) |
| xDeepFM | xDeepFM | [xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems](https://dl.acm.org/doi/abs/10.1145/3219819.3220023)(2018) | | DCN | Deep Cross Network | [Deep & Cross Network for Ad Click Predictions](https://dl.acm.org/doi/pdf/10.1145/3124749.3124754)(2017) |
| DCN | Deep Cross Network | [Deep & Cross Network for Ad Click Predictions](https://dl.acm.org/doi/abs/10.1145/3124749.3124754)(2017) | | xDeepFM | xDeepFM | [xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems](https://dl.acm.org/doi/pdf/10.1145/3219819.3220023)(2018) |
| DIN | Deep Interest Network | [Deep Interest Network for Click-Through Rate Prediction](https://dl.acm.org/doi/abs/10.1145/3219819.3219823)(2018) | | DIN | Deep Interest Network | [Deep Interest Network for Click-Through Rate Prediction](https://dl.acm.org/doi/pdf/10.1145/3219819.3219823)(2018) |
下面是每个模型的简介(注:图片引用自链接中的论文)
[wide&deep](https://dl.acm.org/doi/pdf/10.1145/2988450.2988454):
<p align="center">
<img align="center" src="../../doc/imgs/wide&deep.png">
<p>
[DeepFM](https://arxiv.org/pdf/1703.04247.pdf):
<p align="center">
<img align="center" src="../../doc/imgs/deepfm.png">
<p>
[XDeepFM](https://dl.acm.org/doi/pdf/10.1145/3219819.3220023):
<p align="center">
<img align="center" src="../../doc/imgs/xdeepfm.png">
<p>
[DCN](https://dl.acm.org/doi/pdf/10.1145/3124749.3124754):
<p align="center">
<img align="center" src="../../doc/imgs/dcn.png">
<p>
[DIN](https://dl.acm.org/doi/pdf/10.1145/3219819.3219823):
<p align="center">
<img align="center" src="../../doc/imgs/din.png">
<p>
## 使用教程 ## 使用教程
### 数据处理 ### 数据处理
...@@ -66,4 +93,4 @@ ...@@ -66,4 +93,4 @@
| Criteo | DCN | -- | -- | -- | -- | -- | | Criteo | DCN | -- | -- | -- | -- | -- |
| Criteo | xDeepFM | -- | -- | -- | -- | -- | | Criteo | xDeepFM | -- | -- | -- | -- | -- |
| Census-income Data | Wide&Deep | -- | -- | -- | -- | -- | | Census-income Data | Wide&Deep | -- | -- | -- | -- | -- |
| Amazon Product | DIN | -- | -- | -- | -- | -- | | Amazon Product | DIN | -- | -- | -- | -- | -- |
\ No newline at end of file
...@@ -108,7 +108,7 @@ python -m paddlerec.run -m ./models/rank/dnn/config.yaml -e single ...@@ -108,7 +108,7 @@ python -m paddlerec.run -m ./models/rank/dnn/config.yaml -e single
| 方向 | 模型 | 单机CPU训练 | 单机GPU训练 | 分布式CPU训练 | | 方向 | 模型 | 单机CPU训练 | 单机GPU训练 | 分布式CPU训练 |
| :------: | :----------------------------------------------------------------------------: | :---------: | :---------: | :-----------: | | :------: | :----------------------------------------------------------------------------: | :---------: | :---------: | :-----------: |
| 内容理解 | [Text-Classifcation](models/contentunderstanding/text_classification/model.py) | ✓ | x | ✓ | | 内容理解 | [Text-Classifcation](models/contentunderstanding/classification/model.py) | ✓ | x | ✓ |
| 内容理解 | [TagSpace](models/contentunderstanding/tagspace/model.py) | ✓ | x | ✓ | | 内容理解 | [TagSpace](models/contentunderstanding/tagspace/model.py) | ✓ | x | ✓ |
| 召回 | [TDM](models/treebased/tdm/model.py) | ✓ | x | ✓ | | 召回 | [TDM](models/treebased/tdm/model.py) | ✓ | x | ✓ |
| 召回 | [Word2Vec](models/recall/word2vec/model.py) | ✓ | x | ✓ | | 召回 | [Word2Vec](models/recall/word2vec/model.py) | ✓ | x | ✓ |
...@@ -162,4 +162,4 @@ python -m paddlerec.run -m ./models/rank/dnn/config.yaml -e single ...@@ -162,4 +162,4 @@ python -m paddlerec.run -m ./models/rank/dnn/config.yaml -e single
### 许可证书 ### 许可证书
本项目的发布受[Apache 2.0 license](LICENSE)许可认证。 本项目的发布受[Apache 2.0 license](LICENSE)许可认证。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册