wrap ~

d265ff51 · Superjom · 4f705218 · d265ff51 · d265ff51 · d265ff51
显示空白变更内容
内联并排

Showing with 71 addition and 67 deletion

ctr/README.md ctr/README.md +22 -22

ctr/dataset.md ctr/dataset.md +33 -33

ctr/dataset.org ctr/dataset.org +16 -12

未找到文件。
--- a/ctr/README.md
+++ b/ctr/README.md
@@ -2,29 +2,29 @@
 <h2>Table of Contents</h2>
 <div id="text-table-of-contents">
 <ul>
-<li><a href="#orgc28ecb9">1. 背景介绍</a>
+<li><a href="#orga5d96a2">1. 背景介绍</a>
 <ul>
-<li><a href="#orge91be83">1.1. LR vs DNN</a></li>
+<li><a href="#orgad9f213">1.1. LR vs DNN</a></li>
 </ul>
 </li>
-<li><a href="#orgb9f7917">2. 数据和任务抽象</a></li>
+<li><a href="#org8985d02">2. 数据和任务抽象</a></li>
-<li><a href="#orga236fe5">3. Wide &amp; Deep Learning Model</a>
+<li><a href="#orgc2a928c">3. Wide &amp; Deep Learning Model</a>
 <ul>
-<li><a href="#org2b15cec">3.1. 模型简介</a></li>
+<li><a href="#org9d012fc">3.1. 模型简介</a></li>
-<li><a href="#org97ffb58">3.2. 编写模型输入</a></li>
+<li><a href="#org316d2a7">3.2. 编写模型输入</a></li>
-<li><a href="#org65eb281">3.3. 编写 Wide 部分</a></li>
+<li><a href="#orgd1b91e3">3.3. 编写 Wide 部分</a></li>
-<li><a href="#org2f04073">3.4. 编写 Deep 部分</a></li>
+<li><a href="#orge808ed0">3.4. 编写 Deep 部分</a></li>
-<li><a href="#org627bd1a">3.5. 两者融合</a></li>
+<li><a href="#orgfdc2b81">3.5. 两者融合</a></li>
-<li><a href="#orgbfd11b8">3.6. 训练任务的定义</a></li>
+<li><a href="#org7c41052">3.6. 训练任务的定义</a></li>
 </ul>
 </li>
-<li><a href="#org4c7ec78">4. 引用</a></li>
+<li><a href="#orgb7f7b96">4. 引用</a></li>
 </ul>
 </div>
 </div>
-<a id="orgc28ecb9"></a>
+<a id="orga5d96a2"></a>
 # 背景介绍
@@ -51,7 +51,7 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率
 逐渐地接过 CTR 预估任务的大旗。
-<a id="orge91be83"></a>
+<a id="orgad9f213"></a>
 ## LR vs DNN
@@ -73,7 +73,7 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力，包括
 本文后面的章节会演示如何使用 PaddlePaddle 编写一个结合两者优点的模型。
-<a id="orgb9f7917"></a>
+<a id="org8985d02"></a>
 # 数据和任务抽象
@@ -90,14 +90,14 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力，包括
 具体的特征处理方法参看 [data process](./dataset.md)
-<a id="orga236fe5"></a>
+<a id="orgc2a928c"></a>
 # Wide & Deep Learning Model
 谷歌在 16 年提出了 Wide & Deep Learning 的模型框架，用于融合适合学习抽象特征的 DNN 和 适用于大规模稀疏特征的 LR 两种模型的优点。
-<a id="org2b15cec"></a>
+<a id="org9d012fc"></a>
 ## 模型简介
@@ -112,7 +112,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
 而模型右边的 Deep 部分，能够学习特征间的隐含关系，在相同数量的特征下有更好的学习和推导能力。
-<a id="org97ffb58"></a>
+<a id="org316d2a7"></a>
 ## 编写模型输入
@@ -136,7 +136,7 @@ click = paddle.layer.data(name='click', type=dtype.dense_vector(1))
 ```
-<a id="org65eb281"></a>
+<a id="orgd1b91e3"></a>
 ## 编写 Wide 部分
@@ -151,7 +151,7 @@ def build_lr_submodel():
 ```
-<a id="org2f04073"></a>
+<a id="orge808ed0"></a>
 ## 编写 Deep 部分
@@ -173,7 +173,7 @@ def build_dnn_submodel(dnn_layer_dims):
 ```
-<a id="org627bd1a"></a>
+<a id="orgfdc2b81"></a>
 ## 两者融合
@@ -195,7 +195,7 @@ def combine_submodels(dnn, lr):
 ```
-<a id="orgbfd11b8"></a>
+<a id="org7c41052"></a>
 ## 训练任务的定义
@@ -244,7 +244,7 @@ trainer.train(
 ```
-<a id="org4c7ec78"></a>
+<a id="orgb7f7b96"></a>
 # 引用

--- a/ctr/dataset.md
+++ b/ctr/dataset.md
@@ -2,34 +2,34 @@
 <h2>Table of Contents</h2>
 <div id="text-table-of-contents">
 <ul>
-<li><a href="#orgc14f235">1. 数据集介绍</a></li>
+<li><a href="#orgca3e53d">1. 数据集介绍</a></li>
-<li><a href="#orgbbd35aa">2. 特征提取</a>
+<li><a href="#org47b1669">2. 特征提取</a>
 <ul>
-<li><a href="#org6cd6490">2.1. 类别类特征</a></li>
+<li><a href="#org7f26ecf">2.1. 类别类特征</a></li>
-<li><a href="#orga7b8fc0">2.2. ID 类特征</a></li>
+<li><a href="#org07917d3">2.2. ID 类特征</a></li>
-<li><a href="#orgd9e9727">2.3. 数值型特征</a></li>
+<li><a href="#org5d114f5">2.3. 数值型特征</a></li>
 </ul>
 </li>
-<li><a href="#orgd77edab">3. 特征处理</a>
+<li><a href="#org446467b">3. 特征处理</a>
 <ul>
-<li><a href="#orgd148362">3.1. 类别型特征</a></li>
+<li><a href="#orgf027e9c">3.1. 类别型特征</a></li>
-<li><a href="#orge427332">3.2. ID 类特征</a></li>
+<li><a href="#orgc79bb05">3.2. ID 类特征</a></li>
-<li><a href="#org417457a">3.3. 交叉类特征</a></li>
+<li><a href="#org14552b6">3.3. 交叉类特征</a></li>
-<li><a href="#org7ed28fc">3.4. 特征维度</a>
+<li><a href="#org274bbec">3.4. 特征维度</a>
 <ul>
-<li><a href="#orgecae989">3.4.1. Deep submodel(DNN)特征</a></li>
+<li><a href="#org210c8b4">3.4.1. Deep submodel(DNN)特征</a></li>
-<li><a href="#orgc7a00e0">3.4.2. Wide submodel(LR)特征</a></li>
+<li><a href="#org21d041c">3.4.2. Wide submodel(LR)特征</a></li>
 </ul>
 </li>
 </ul>
 </li>
-<li><a href="#org8a65ed5">4. 输入到 PaddlePaddle 中</a></li>
+<li><a href="#orgd8c5ade">4. 输入到 PaddlePaddle 中</a></li>
 </ul>
 </div>
 </div>
-<a id="orgc14f235"></a>
+<a id="orgca3e53d"></a>
 # 数据集介绍
@@ -54,7 +54,7 @@
 -   `C14-C21` &#x2013; anonymized categorical variables
-<a id="orgbbd35aa"></a>
+<a id="org47b1669"></a>
 # 特征提取
@@ -64,7 +64,7 @@
 1.  ID 类特征（稀疏，数量多）
 ```python
-   id
+-   `id`
 -   `site_id`
 -   `app_id`
 -   `device_id`
@@ -73,7 +73,7 @@
 2.  类别类特征（稀疏，但数量有限）
 ```python
-   C1
+-   `C1`
 -   `site_category`
 -   `device_type`
 -   `C14-C21`
@@ -87,7 +87,7 @@
 ```
-<a id="org6cd6490"></a>
+<a id="org7f26ecf"></a>
 ## 类别类特征
@@ -97,7 +97,7 @@
 2.  类似词向量，用一个 Embedding Table 将每个类别映射到对应的向量
-<a id="orga7b8fc0"></a>
+<a id="org07917d3"></a>
 ## ID 类特征
@@ -112,7 +112,7 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
 上面的方法尽管存在一定的碰撞概率，但能够处理任意数量的 ID 特征，并保留一定的效果[2]。
-<a id="orgd9e9727"></a>
+<a id="org5d114f5"></a>
 ## 数值型特征
@@ -122,12 +122,12 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
 -   用区间分割处理成类别类特征，稀疏化表示，模糊细微上的差别
-<a id="orgd77edab"></a>
+<a id="org446467b"></a>
 # 特征处理
-<a id="orgd148362"></a>
+<a id="orgf027e9c"></a>
 ## 类别型特征
@@ -177,7 +177,7 @@ class CategoryFeatureGenerator(object):
 本任务中，类别类特征会输入到 DNN 中使用。
-<a id="orge427332"></a>
+<a id="orgc79bb05"></a>
 ## ID 类特征
@@ -205,7 +205,7 @@ class IDfeatureGenerator(object):
 ```
-<a id="org417457a"></a>
+<a id="org14552b6"></a>
 ## 交叉类特征
@@ -225,12 +225,12 @@ def gen_cross_fea(self, fea1, fea2):
 我们通过组合出两者组合来捕捉这类信息。
-<a id="org7ed28fc"></a>
+<a id="org274bbec"></a>
 ## 特征维度
-<a id="orgecae989"></a>
+<a id="org210c8b4"></a>
 ### Deep submodel(DNN)特征
@@ -269,7 +269,7 @@ def gen_cross_fea(self, fea1, fea2):
 <tr>
-<td class="org-left">hour</td>
+<td class="org-left">`hour`</td>
 <td class="org-right">24</td>
 </tr>
@@ -289,7 +289,7 @@ def gen_cross_fea(self, fea1, fea2):
 </table>
-<a id="orgc7a00e0"></a>
+<a id="org21d041c"></a>
 ### Wide submodel(LR)特征
@@ -310,7 +310,7 @@ def gen_cross_fea(self, fea1, fea2):
 <tbody>
 <tr>
-<td class="org-left">id</td>
+<td class="org-left">`id`</td>
 <td class="org-right">100000</td>
 </tr>
@@ -348,16 +348,16 @@ def gen_cross_fea(self, fea1, fea2):
 </table>
-<a id="org8a65ed5"></a>
+<a id="orgd8c5ade"></a>
 # 输入到 PaddlePaddle 中
 Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，
 分别是
-1.  ~dnn input~，DNN 的输入
+1.  `dnn input` ，DNN 的输入
-2.  `lr input`, LR 的输入
+2.  `lr input` , LR 的输入
-3.  ~click~， 标签
+3.  `click`  ， 标签
 拼合特征的方法：

--- a/ctr/dataset.org
+++ b/ctr/dataset.org
@@ -26,19 +26,23 @@
 原始数据中的特征可以分为以下几类：
 1. ID 类特征（稀疏，数量多）
-   - id
+   - ~id~
   - ~site_id~
   - ~app_id~
   - ~device_id~
 2. 类别类特征（稀疏，但数量有限）
-   - C1
+   - ~C1~
   - ~site_category~
   - ~device_type~
   - ~C14-C21~
 3. 数值型特征转化为类别型特征
   - hour (可以转化成数值，也可以按小时为单位转化为类别）
 ** 类别类特征
 类别类特征的提取方法有以下两种：
@@ -152,31 +156,31 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
 | ~app_category~     |        21 |
 | ~site_category~    |        22 |
 | ~device_conn_type~ |         5 |
-| hour               |        24 |
+| ~hour~             |        24 |
 | ~banner_pos~       |         7 |
 |--------------------+-----------|
 | Total              |        79 |
 |--------------------+-----------|
 *** Wide submodel(LR)特征
-|-------------------------+-----------|
+|-------------------------+------------|
 | Feature                 |  Dimention |
-|-------------------------+-----------|
+|-------------------------+------------|
-| id                      |     100000 |
+| ~id~                    |     100000 |
 | ~site_id~               |     100000 |
 | ~app_id~                |     100000 |
 | ~device_id~             |     100000 |
 | ~device_id~ X ~site_id~ |   10000000 |
-|-------------------------+-----------|
+|-------------------------+------------|
 | Total                   | 10,400,000 |
-|-------------------------+-----------|
+|-------------------------+------------|
 * 输入到 PaddlePaddle 中
 Deep 和 Wide 两部分均以 ~sparse_binary_vector~ 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，
 分别是
-1. ~dnn input~，DNN 的输入
+1. ~dnn input~ ，DNN 的输入
-2. ~lr input~, LR 的输入
+2. ~lr input~ , LR 的输入
-3. ~click~， 标签
+3. ~click~  ， 标签
 拼合特征的方法：