Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
PaddleRec
提交
2bc3802b
P
PaddleRec
项目概览
BaiXuePrincess
/
PaddleRec
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleRec
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleRec
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
2bc3802b
编写于
8月 31, 2020
作者:
T
tangwei12
提交者:
GitHub
8月 31, 2020
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'master' into log_print
上级
7db0dfe2
8c7d113e
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
23 addition
and
14 deletion
+23
-14
models/multitask/esmm/README.md
models/multitask/esmm/README.md
+16
-7
models/multitask/esmm/config.yaml
models/multitask/esmm/config.yaml
+7
-7
未找到文件。
models/multitask/esmm/README.md
浏览文件 @
2bc3802b
...
...
@@ -50,11 +50,6 @@ ESMM是发表在 SIGIR’2018 的论文[《Entire Space Multi-Task Model: An E
数据地址:
[
Ali-CCP:Alibaba Click and Conversion Prediction
](
https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408
)
```
cd data
sh run.sh
```
数据格式参见demo数据:data/train
...
...
@@ -108,11 +103,25 @@ CPU环境
## 论文复现
用原论文的完整数据复现论文效果需要在config.yaml中修改batch_size=1000, thread_num=8, epoch_num=4
由于原论文的数据太大,我们选取了部分数据作为训练和测试数据, 建议使用gpu训练。
我们的测试ctr auc为0.79+,ctcvr auc为0.82+。
```
wget https://paddlerec.bj.bcebos.com/esmm/traindata_10w.csv
wget https://paddlerec.bj.bcebos.com/esmm/testdata_10w.csv
mkdir data/train_data data/test_data
mv traindata_10w.csv data/train_data
mv testdata_10w.csv data/test_data
```
修改后运行方案:修改config.yaml中的'workspace'为config.yaml的目录位置,执行
用原论文的完整数据复现论文效果需要在config.yaml中修改batch_size=1024, epoch=10, device=gpu, selected_gpus:"0"
具体配置可以下载config_10w.yaml文件
```
wget https://paddlerec.bj.bcebos.com/esmm/config_10w.yaml
```
修改后运行
```
python -m paddlerec.run -m /home/your/dir/config.yaml #调试模式 直接指定本地config的绝对路径
```
...
...
models/multitask/esmm/config.yaml
浏览文件 @
2bc3802b
...
...
@@ -17,19 +17,19 @@ workspace: "models/multitask/esmm"
dataset
:
-
name
:
dataset_train
batch_size
:
1
batch_size
:
5
type
:
QueueDataset
data_path
:
"
{workspace}/data/train"
data_converter
:
"
{workspace}/esmm_reader.py"
-
name
:
dataset_infer
batch_size
:
1
batch_size
:
5
type
:
QueueDataset
data_path
:
"
{workspace}/data/test"
data_converter
:
"
{workspace}/esmm_reader.py"
hyper_parameters
:
vocab_size
:
10000
embed_size
:
12
8
vocab_size
:
737946
embed_size
:
12
optimizer
:
class
:
adam
learning_rate
:
0.001
...
...
@@ -43,15 +43,15 @@ runner:
class
:
train
device
:
cpu
epochs
:
3
save_checkpoint_interval
:
2
save_checkpoint_interval
:
1
save_inference_interval
:
4
save_checkpoint_path
:
"
increment"
save_checkpoint_path
:
"
increment
_esmm
"
save_inference_path
:
"
inference"
print_interval
:
10
phases
:
[
train
]
-
name
:
infer_runner
class
:
infer
init_model_path
:
"
increment/1"
init_model_path
:
"
increment
_esmm
/1"
device
:
cpu
print_interval
:
1
phases
:
[
infer
]
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录