change ` -> ~

4f6dd9d3 · Superjom · c126c520 · 4f6dd9d3
隐藏空白更改
内联并排

Showing with 9 addition and 10 deletion

ctr/dataset.org ctr/dataset.org +9 -10

未找到文件。
--- a/ctr/dataset.org
+++ b/ctr/dataset.org
 #+title: 数据处理
 * 数据集介绍
-数据集使用 `csv` 格式存储，其中各个字段内容如下：
+数据集使用 ~csv~ 格式存储，其中各个字段内容如下：

 - id: ad identifier
 - click: 0/1 for non-click/click
@@ -73,7 +73,7 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
       '''
       Generator category features.

-       Register all records by calling `register` first, then call `gen` to generate
+       Register all records by calling ~register~ first, then call ~gen~ to generate
       one-hot representation for a record.
       '''

@@ -131,10 +131,10 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
           return self.max_dim
 #+END_SRC
 ** 交叉类特征
- LR 模型作为 Wide & Deep model 的 `wide` 部分，可以输入很 wide 的数据（特征空间的维度很大），
+ LR 模型作为 Wide & Deep model 的 ~wide~ 部分，可以输入很 wide 的数据（特征空间的维度很大），
 为了充分利用这个优势，我们将演示交叉组合特征构建成更大维度特征的情况，之后塞入到模型中训练。

- 这里我们依旧使用模操作来约束最终组合出的特征空间的大小，具体实现是直接在 `IDfeatureGenerator` 中添加一个`gen_cross_feature` 的方法：
+ 这里我们依旧使用模操作来约束最终组合出的特征空间的大小，具体实现是直接在 ~IDfeatureGenerator~ 中添加一个~gen_cross_feature~ 的方法：

 #+BEGIN_SRC python
       def gen_cross_fea(self, fea1, fea2):
@@ -142,7 +142,7 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
           return self.gen(key)
 #+END_SRC

- 比如，我们觉得原始数据中，`device_id` 和 `site_id` 有一些关联（比如某个 device 倾向于浏览特定 site)，
+ 比如，我们觉得原始数据中， ~device_id~ 和 ~site_id~ 有一些关联（比如某个 device 倾向于浏览特定 site)，
 我们通过组合出两者组合来捕捉这类信息。
 ** 特征维度
 *** Deep submodel(DNN)特征
@@ -171,12 +171,12 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
 | Total               | 1,040,000 |
 |---------------------+-----------|
 * 输入到 PaddlePaddle 中
-Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，
+Deep 和 Wide 两部分均以 ~sparse_binary_vector~ 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，
 分别是

-1. `dnn input`，DNN 的输入
-2. `lr input`, LR 的输入
-3. `click`， 标签
+1. ~dnn input~，DNN 的输入
+2. ~lr input~, LR 的输入
+3. ~click~， 标签

 拼合特征的方法：

@@ -202,4 +202,3 @@ Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入，输入


 [1] https://github.com/PaddlePaddle/Paddle/blob/develop/doc/api/v1/data_provider/pydataprovider2_en.rst
-