From 4f6dd9d352800660ac343bc7a4d802ed71e6e74d Mon Sep 17 00:00:00 2001 From: Superjom Date: Fri, 26 May 2017 09:10:02 +0800 Subject: [PATCH] change ` -> ~ --- ctr/dataset.org | 19 +++++++++---------- 1 file changed, 9 insertions(+), 10 deletions(-) diff --git a/ctr/dataset.org b/ctr/dataset.org index 128e3f4c..9a93d4d4 100644 --- a/ctr/dataset.org +++ b/ctr/dataset.org @@ -1,6 +1,6 @@ #+title: 数据处理 * 数据集介绍 -数据集使用 `csv` 格式存储,其中各个字段内容如下: +数据集使用 ~csv~ 格式存储,其中各个字段内容如下: - id: ad identifier - click: 0/1 for non-click/click @@ -73,7 +73,7 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot ''' Generator category features. - Register all records by calling `register` first, then call `gen` to generate + Register all records by calling ~register~ first, then call ~gen~ to generate one-hot representation for a record. ''' @@ -131,10 +131,10 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot return self.max_dim #+END_SRC ** 交叉类特征 - LR 模型作为 Wide & Deep model 的 `wide` 部分,可以输入很 wide 的数据(特征空间的维度很大), + LR 模型作为 Wide & Deep model 的 ~wide~ 部分,可以输入很 wide 的数据(特征空间的维度很大), 为了充分利用这个优势,我们将演示交叉组合特征构建成更大维度特征的情况,之后塞入到模型中训练。 - 这里我们依旧使用模操作来约束最终组合出的特征空间的大小,具体实现是直接在 `IDfeatureGenerator` 中添加一个`gen_cross_feature` 的方法: + 这里我们依旧使用模操作来约束最终组合出的特征空间的大小,具体实现是直接在 ~IDfeatureGenerator~ 中添加一个~gen_cross_feature~ 的方法: #+BEGIN_SRC python def gen_cross_fea(self, fea1, fea2): @@ -142,7 +142,7 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot return self.gen(key) #+END_SRC - 比如,我们觉得原始数据中,`device_id` 和 `site_id` 有一些关联(比如某个 device 倾向于浏览特定 site), + 比如,我们觉得原始数据中, ~device_id~ 和 ~site_id~ 有一些关联(比如某个 device 倾向于浏览特定 site), 我们通过组合出两者组合来捕捉这类信息。 ** 特征维度 *** Deep submodel(DNN)特征 @@ -171,12 +171,12 @@ ID 类特征的特点是稀疏数据,但量比较大,直接使用 One-hot | Total | 1,040,000 | |---------------------+-----------| * 输入到 PaddlePaddle 中 -Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入,输入前需要将相关特征拼合,模型最终只接受 3 个 input, +Deep 和 Wide 两部分均以 ~sparse_binary_vector~ 的格式[1]输入,输入前需要将相关特征拼合,模型最终只接受 3 个 input, 分别是 -1. `dnn input`,DNN 的输入 -2. `lr input`, LR 的输入 -3. `click`, 标签 +1. ~dnn input~,DNN 的输入 +2. ~lr input~, LR 的输入 +3. ~click~, 标签 拼合特征的方法: @@ -202,4 +202,3 @@ Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入,输入 [1] https://github.com/PaddlePaddle/Paddle/blob/develop/doc/api/v1/data_provider/pydataprovider2_en.rst - -- GitLab