Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
models
提交
a63df7b2
M
models
项目概览
PaddlePaddle
/
models
大约 1 年 前同步成功
通知
222
Star
6828
Fork
2962
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
602
列表
看板
标记
里程碑
合并请求
255
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
M
models
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
602
Issue
602
列表
看板
标记
里程碑
合并请求
255
合并请求
255
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
a63df7b2
编写于
10月 29, 2018
作者:
Q
Qiao Longfei
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add doc for recommendation
上级
dbab2a91
变更
6
隐藏空白更改
内联
并排
Showing
6 changed file
with
32 addition
and
5 deletion
+32
-5
fluid/PaddleRec/multiview_simnet/README.cn.md
fluid/PaddleRec/multiview_simnet/README.cn.md
+1
-1
fluid/PaddleRec/multiview_simnet/nets.py
fluid/PaddleRec/multiview_simnet/nets.py
+1
-1
fluid/PaddleRec/multiview_simnet/reader.py
fluid/PaddleRec/multiview_simnet/reader.py
+1
-1
fluid/PaddleRec/multiview_simnet/train.py
fluid/PaddleRec/multiview_simnet/train.py
+2
-2
fluid/README.cn.rst
fluid/README.cn.rst
+14
-0
fluid/README.md
fluid/README.md
+13
-0
未找到文件。
fluid/PaddleRec/multiview_simnet/README.cn.md
浏览文件 @
a63df7b2
...
...
@@ -4,7 +4,7 @@
在个性化推荐场景中,推荐系统给用户提供的项目(Item)列表通常是通过个性化的匹配模型计算出来的。在现实世界中,一个用户可能有很多个视角的特征,比如用户Id,年龄,项目的点击历史等。一个项目,举例来说,新闻资讯,也会有多种视角的特征比如新闻标题,新闻类别等。多视角Simnet模型是可以融合用户以及推荐项目的多个视角的特征并进行个性化匹配学习的一体化模型。这类模型在很多工业化的场景中都会被使用到,比如百度的Feed产品中。
## 数据集
目前,本项目
实
用机器生成的数据集来介绍多视角Simnet模型的概念,未来我们会逐渐加入真是世界中的数据集并在这个模型上进行效果验证。
目前,本项目
使
用机器生成的数据集来介绍多视角Simnet模型的概念,未来我们会逐渐加入真是世界中的数据集并在这个模型上进行效果验证。
## 模型
本项目的目标是提供一个在个性化匹配场景下利用Paddle搭建的模型。多视角Simnet模型包括多个编码器模块,每个编码器被用在不同的特征视角上。当前,项目中提供Bag-of-Embedding编码器,Temporal-Convolutional编码器,和Gated-Recurrent-Unit编码器。我们会逐渐加入稀疏特征场景下比较实用的编码器到这个项目中。模型的训练方法,当前采用的是Pairwise ranking模式进行训练,即针对一对具有关联的User-Item组合,随机实用一个Item作为负例进行排序学习。
...
...
fluid/PaddleRec/multiview_simnet/nets.py
浏览文件 @
a63df7b2
#
Copyright (c) 2016
PaddlePaddle Authors. All Rights Reserved
#
Copyright (c) 2018
PaddlePaddle Authors. All Rights Reserved
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
...
...
fluid/PaddleRec/multiview_simnet/reader.py
浏览文件 @
a63df7b2
#
Copyright (c) 2016
PaddlePaddle Authors. All Rights Reserved
#
Copyright (c) 2018
PaddlePaddle Authors. All Rights Reserved
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
...
...
fluid/PaddleRec/multiview_simnet/train.py
浏览文件 @
a63df7b2
#
Copyright (c) 2016
PaddlePaddle Authors. All Rights Reserved
#
Copyright (c) 2018
PaddlePaddle Authors. All Rights Reserved
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
...
...
@@ -124,7 +124,7 @@ def start_train(args):
.
format
(
pass_id
,
batch_id
,
loss_val
,
float
(
correct_val
)
/
args
.
batch_size
))
fluid
.
io
.
save_inference_model
(
args
.
model_output_dir
,
[
va
r
.
name
for
val
in
all_slots
],
[
va
l
.
name
for
val
in
all_slots
],
[
avg_cost
,
correct
],
exe
)
...
...
fluid/README.cn.rst
浏览文件 @
a63df7b2
...
...
@@ -185,3 +185,17 @@ SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架
百度阅读理解数据集是由百度自然语言处理部开源的一个真实世界数据集,所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。百度同时开源了对应的阅读理解模型,称为DuReader,采用当前通用的网络分层结构,通过双向attention机制捕捉问题和原文之间的交互关系,生成query-aware的原文表示,最终基于query-aware的原文表示通过point network预测答案范围。
- `DuReader in PaddlePaddle Fluid] <https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleNLP/machine_reading_comprehension/README.md>`__
推荐系统
-------
推荐系统在当前的互联网服务中正在发挥越来越大的作用,目前几乎所有的电子商务系统、社交网络,广告推荐,搜索引擎等等,都不同程度的使用了各种形式的推荐系统,帮助用户快速找到他们想要的信息。
目前主流的推荐算法很多都是基于深度学习算法实现的,PaddlePaddle对推荐算法的训练提供了完整的支持,并提供了多种模型配置供用户选择。
- `DNN for Click-Through Rate prediction <https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleRec/ctr/README.cn.md>`__
基于DNN模型的点击率预估模型,使用的是Kaggle公司举办的展示广告竞赛中所使用的Criteo数据集。和论文DeepFM: A Factorization-Machine based Neural Network for CTR Prediction中的的dnn网络结构,
经过一个pass的训练之后,测试数据集的AUC能达到0.8左右。
能达到0.8左右。
\ No newline at end of file
fluid/README.md
浏览文件 @
a63df7b2
...
...
@@ -154,3 +154,16 @@ SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架
百度阅读理解数据集是由百度自然语言处理部开源的一个真实世界数据集,所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。百度同时开源了对应的阅读理解模型,称为DuReader,采用当前通用的网络分层结构,通过双向attention机制捕捉问题和原文之间的交互关系,生成query-aware的原文表示,最终基于query-aware的原文表示通过point network预测答案范围。
-
[
DuReader in PaddlePaddle Fluid
](
https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleNLP/machine_reading_comprehension/README.md
)
推荐系统
-------
推荐系统在当前的互联网服务中正在发挥越来越大的作用,目前几乎所有的电子商务系统、社交网络,广告推荐,搜索引擎等等,都不同程度的使用了各种形式的推荐系统,帮助用户快速找到他们想要的信息。
目前主流的推荐算法很多都是基于深度学习算法实现的,PaddlePaddle对推荐算法的训练提供了完整的支持,并提供了多种模型配置供用户选择。
*
[
DNN for Click-Through Rate prediction
](
https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleRec/ctr/README.cn.md
)
基于DNN模型的点击率预估模型,使用的是Kaggle公司举办的展示广告竞赛中所使用的Criteo数据集。和论文DeepFM: A Factorization-Machine based Neural Network for CTR Prediction中的的dnn网络结构,
经过一个pass的训练之后,测试数据集的AUC能达到0.8左右。
能达到0.8左右。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录