From a1b2906fdbbacdacc1648a4b4cb7022ca4a415b7 Mon Sep 17 00:00:00 2001 From: Superjom Date: Thu, 25 May 2017 11:26:06 +0800 Subject: [PATCH] change Paddle -> PaddlePaddle --- ctr/README.md | 48 +++++++++++++++++++------------------- ctr/README.org | 4 ++-- ctr/dataset.md | 62 +++++++++++++++++++++---------------------------- ctr/dataset.org | 2 +- 4 files changed, 54 insertions(+), 62 deletions(-) diff --git a/ctr/README.md b/ctr/README.md index c70ac78c..1de5e843 100644 --- a/ctr/README.md +++ b/ctr/README.md @@ -2,29 +2,29 @@

Table of Contents

- + # 背景介绍 @@ -32,7 +32,7 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率 通常被用来衡量一个在线广告系统的有效性。 当有多个广告位时,CTR 预估一般会作为排序的基准。 -比如在百度的搜索广告系统,当用户输入一个带商业价值的搜索词(query)时,系统大体上会执行下列步骤: +比如在搜索引擎的广告系统里,当用户输入一个带商业价值的搜索词(query)时,系统大体上会执行下列步骤: 1. 召回满足 query 的广告集合 2. 业务规则和相关性过滤 @@ -51,7 +51,7 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率 逐渐地接过 CTR 预估任务的大旗。 - + ## LR vs DNN @@ -70,10 +70,10 @@ LR 部分和蓝色箭头部分可以直接类比到 NN 中的结构,可以看 LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力,包括内存和计算量等,工业界都有非常成熟的优化方法。 -本文后面的章节会演示如何使用 Paddle 编写一个结合两者优点的模型。 +本文后面的章节会演示如何使用 PaddlePaddle 编写一个结合两者优点的模型。 - + # 数据和任务抽象 @@ -89,14 +89,14 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力,包括 具体的特征处理方法参看 [data process](./dataset.md) - + # Wide & Deep Learning Model 谷歌在 16 年提出了 Wide & Deep Learning 的模型框架,用于融合 适合学习抽象特征的 DNN 和 适用于大规模系数特征的 LR 两种模型的优点。 - + ## 模型简介 @@ -111,7 +111,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 而模型右边的 Deep 部分,能够学习特征间的隐含关系,在相同数量的特征下有更好的学习和推导能力。 - + ## 编写模型输入 @@ -132,7 +132,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 click = paddle.layer.data(name='click', type=dtype.dense_vector(1)) - + ## 编写 Wide 部分 @@ -142,7 +142,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 return fc - + ## 编写 Deep 部分 @@ -159,7 +159,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 return _input_layer - + ## 两者融合 @@ -175,7 +175,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 return fc - + ## 训练任务的定义 @@ -221,7 +221,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用 num_passes=100) - + # 写在最后 diff --git a/ctr/README.org b/ctr/README.org index a88d9838..6adaf4e6 100644 --- a/ctr/README.org +++ b/ctr/README.org @@ -4,7 +4,7 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率 通常被用来衡量一个在线广告系统的有效性。 当有多个广告位时,CTR 预估一般会作为排序的基准。 -比如在百度的搜索广告系统,当用户输入一个带商业价值的搜索词(query)时,系统大体上会执行下列步骤: +比如在搜索引擎的广告系统里,当用户输入一个带商业价值的搜索词(query)时,系统大体上会执行下列步骤: 1. 召回满足 query 的广告集合 2. 业务规则和相关性过滤 @@ -38,7 +38,7 @@ LR 部分和蓝色箭头部分可以直接类比到 NN 中的结构,可以看 LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力,包括内存和计算量等,工业界都有非常成熟的优化方法。 -本文后面的章节会演示如何使用 Paddle 编写一个结合两者优点的模型。 +本文后面的章节会演示如何使用 PaddlePaddle 编写一个结合两者优点的模型。 * 数据和任务抽象 我们可以将 `click` 作为学习目标,具体任务可以有以下几种方案: diff --git a/ctr/dataset.md b/ctr/dataset.md index 6c437434..a368411b 100644 --- a/ctr/dataset.md +++ b/ctr/dataset.md @@ -2,35 +2,34 @@

Table of Contents

- + # 数据集介绍 @@ -55,7 +54,7 @@ - C14-C21 – anonymized categorical variables - + # 特征提取 @@ -79,7 +78,7 @@ - hour (可以转化成数值,也可以按小时为单位转化为类别) - + ## 类别类特征 @@ -89,7 +88,7 @@ 2. 类似词向量,用一个 Embedding Table 将每个类别映射到对应的向量 - + ## ID 类特征 @@ -104,7 +103,7 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot 上面的方法尽管存在一定的碰撞概率,但能够处理任意数量的 ID 特征,并保留一定的效果[2]。 - + ## 数值型特征 @@ -114,19 +113,12 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot - 用区间分割处理成类别类特征,稀疏化表示,模糊细微上的差别 - - -## 特征处理方法 - -具体特征处理方法参看 [data process](./dataset.md) - - - + # 特征处理 - + ## 类别型特征 @@ -173,7 +165,7 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot 本任务中,类别类特征会输入到 DNN 中使用。 - + ## ID 类特征 @@ -198,7 +190,7 @@ ID 类特征代稀疏值,且值的空间很大的情况,一般用模操作 return self.max_dim - + ## 交叉类特征 @@ -215,12 +207,12 @@ LR 模型作为 Wide & Deep model 的 \`wide\` 部分,可以输入很 wide 的 我们通过组合出两者组合来捕捉这类信息。 - + ## 特征维度 - + ### Deep submodel(DNN)特征 @@ -279,7 +271,7 @@ LR 模型作为 Wide & Deep model 的 \`wide\` 部分,可以输入很 wide 的 - + ### Wide submodel(LR)特征 @@ -338,9 +330,9 @@ LR 模型作为 Wide & Deep model 的 \`wide\` 部分,可以输入很 wide 的 - + -# 输入到 Paddle 中 +# 输入到 PaddlePaddle 中 Deep 和 Wide 两部分均以 \`sparsebinaryvector\` 的格式[1]输入,输入前需要将相关特征拼合,模型最终只接受 3 个 input, 分别是 diff --git a/ctr/dataset.org b/ctr/dataset.org index 8cdcc0f8..128e3f4c 100644 --- a/ctr/dataset.org +++ b/ctr/dataset.org @@ -170,7 +170,7 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot |---------------------+-----------| | Total | 1,040,000 | |---------------------+-----------| -* 输入到 Paddle 中 +* 输入到 PaddlePaddle 中 Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入,输入前需要将相关特征拼合,模型最终只接受 3 个 input, 分别是 -- GitLab