diff --git a/fluid/PaddleRec/multiview_simnet/README.cn.md b/fluid/PaddleRec/multiview_simnet/README.cn.md index 3724ede23c4044658ee9b12a55bf7948c03ccaa3..bd35ba7dee5eb58aecb35b551db0276ee657a399 100644 --- a/fluid/PaddleRec/multiview_simnet/README.cn.md +++ b/fluid/PaddleRec/multiview_simnet/README.cn.md @@ -4,7 +4,7 @@ 在个性化推荐场景中,推荐系统给用户提供的项目(Item)列表通常是通过个性化的匹配模型计算出来的。在现实世界中,一个用户可能有很多个视角的特征,比如用户Id,年龄,项目的点击历史等。一个项目,举例来说,新闻资讯,也会有多种视角的特征比如新闻标题,新闻类别等。多视角Simnet模型是可以融合用户以及推荐项目的多个视角的特征并进行个性化匹配学习的一体化模型。这类模型在很多工业化的场景中都会被使用到,比如百度的Feed产品中。 ## 数据集 -目前,本项目实用机器生成的数据集来介绍多视角Simnet模型的概念,未来我们会逐渐加入真是世界中的数据集并在这个模型上进行效果验证。 +目前,本项目使用机器生成的数据集来介绍多视角Simnet模型的概念,未来我们会逐渐加入真是世界中的数据集并在这个模型上进行效果验证。 ## 模型 本项目的目标是提供一个在个性化匹配场景下利用Paddle搭建的模型。多视角Simnet模型包括多个编码器模块,每个编码器被用在不同的特征视角上。当前,项目中提供Bag-of-Embedding编码器,Temporal-Convolutional编码器,和Gated-Recurrent-Unit编码器。我们会逐渐加入稀疏特征场景下比较实用的编码器到这个项目中。模型的训练方法,当前采用的是Pairwise ranking模式进行训练,即针对一对具有关联的User-Item组合,随机实用一个Item作为负例进行排序学习。 diff --git a/fluid/PaddleRec/multiview_simnet/nets.py b/fluid/PaddleRec/multiview_simnet/nets.py index 0c7ed4f4c2e1153997467b826175c2913c643dd9..41e366f55c80c5151102ed5e81a2746774fb3b4b 100644 --- a/fluid/PaddleRec/multiview_simnet/nets.py +++ b/fluid/PaddleRec/multiview_simnet/nets.py @@ -1,4 +1,4 @@ -#Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved +# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. diff --git a/fluid/PaddleRec/multiview_simnet/reader.py b/fluid/PaddleRec/multiview_simnet/reader.py index 10b5c4391a57316e526b1f7d3f974d8a5f327d6b..13d2a46d879276777faf2c3b03a005c563b18301 100644 --- a/fluid/PaddleRec/multiview_simnet/reader.py +++ b/fluid/PaddleRec/multiview_simnet/reader.py @@ -1,4 +1,4 @@ -#Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved +# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. diff --git a/fluid/PaddleRec/multiview_simnet/train.py b/fluid/PaddleRec/multiview_simnet/train.py index 70aec67c9ba5dbc8a9048fcac9cfe7f724e0b812..b4a566d39333d871d30e5996c45d7ea9ef7b1531 100644 --- a/fluid/PaddleRec/multiview_simnet/train.py +++ b/fluid/PaddleRec/multiview_simnet/train.py @@ -1,4 +1,4 @@ -#Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved +# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. @@ -124,7 +124,7 @@ def start_train(args): .format(pass_id, batch_id, loss_val, float(correct_val) / args.batch_size)) fluid.io.save_inference_model(args.model_output_dir, - [var.name for val in all_slots], + [val.name for val in all_slots], [avg_cost, correct], exe) diff --git a/fluid/README.cn.rst b/fluid/README.cn.rst index 1291db5018900a00bf604613d71e11b881b638ba..798980f40d1a3711ba0ab5033d6a71b763965d2f 100644 --- a/fluid/README.cn.rst +++ b/fluid/README.cn.rst @@ -185,3 +185,17 @@ SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架 百度阅读理解数据集是由百度自然语言处理部开源的一个真实世界数据集,所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。百度同时开源了对应的阅读理解模型,称为DuReader,采用当前通用的网络分层结构,通过双向attention机制捕捉问题和原文之间的交互关系,生成query-aware的原文表示,最终基于query-aware的原文表示通过point network预测答案范围。 - `DuReader in PaddlePaddle Fluid] `__ + + +个性化推荐 +------- + +推荐系统在当前的互联网服务中正在发挥越来越大的作用,目前大部分电子商务系统、社交网络,广告推荐,搜索引擎,都不同程度的使用了各种形式的个性化推荐技术,帮助用户快速找到他们想要的信息。 + +在工业可用的推荐系统中,推荐策略一般会被划分为多个模块串联执行。以新闻推荐系统为例,存在多个可以使用深度学习技术的环节,例如新闻的自动化标注,个性化新闻召回,个性化匹配与排序等。PaddlePaddle对推荐算法的训练提供了完整的支持,并提供了多种模型配置供用户选择。 + +- [TagSpace](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/tagspace) +- [GRU4Rec](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/gru4rec) +- [SequenceSemanticRetrieval](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/ssr) +- [DeepCTR](https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleRec/ctr/README.cn.md) +- [Multiview-Simnet](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/multiview_simnet) diff --git a/fluid/README.md b/fluid/README.md index 7d5e55b39cdb5245d76fe9b165678b3fa9bebfd9..864b52a99c78a2ad107833662549aca1d86f5946 100644 --- a/fluid/README.md +++ b/fluid/README.md @@ -154,3 +154,17 @@ SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架 百度阅读理解数据集是由百度自然语言处理部开源的一个真实世界数据集,所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。百度同时开源了对应的阅读理解模型,称为DuReader,采用当前通用的网络分层结构,通过双向attention机制捕捉问题和原文之间的交互关系,生成query-aware的原文表示,最终基于query-aware的原文表示通过point network预测答案范围。 - [DuReader in PaddlePaddle Fluid](https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleNLP/machine_reading_comprehension/README.md) + +个性化推荐 +------- + +推荐系统在当前的互联网服务中正在发挥越来越大的作用,目前大部分电子商务系统、社交网络,广告推荐,搜索引擎,都不同程度的使用了各种形式的个性化推荐技术,帮助用户快速找到他们想要的信息。 + +在工业可用的推荐系统中,推荐策略一般会被划分为多个模块串联执行。以新闻推荐系统为例,存在多个可以使用深度学习技术的环节,例如新闻的自动化标注,个性化新闻召回,个性化匹配与排序等。PaddlePaddle对推荐算法的训练提供了完整的支持,并提供了多种模型配置供用户选择。 + +- [TagSpace](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/tagspace) +- [GRU4Rec](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/gru4rec) +- [SequenceSemanticRetrieval](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/ssr) +- [DeepCTR](https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleRec/ctr/README.cn.md) +- [Multiview-Simnet](https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleRec/multiview_simnet) +