diff --git a/ctr/README.md b/ctr/README.md
index 411227d060715a581630797aa0ea185bf71c6ce6..37b7071c966d2b4a391ab6491146283b9cfdbb65 100644
--- a/ctr/README.md
+++ b/ctr/README.md
@@ -2,29 +2,29 @@
 <h2>Table of Contents</h2>
 <div id="text-table-of-contents">
 <ul>
-<li><a href="#org7f839ad">1. 背景介绍</a>
+<li><a href="#org80045af">1. 背景介绍</a>
 <ul>
-<li><a href="#org731851a">1.1. LR vs DNN</a></li>
+<li><a href="#org2edb17b">1.1. LR vs DNN</a></li>
 </ul>
 </li>
-<li><a href="#orgc2a75e1">2. 数据和任务抽象</a></li>
-<li><a href="#org7f7e5a5">3. Wide &amp; Deep Learning Model</a>
+<li><a href="#org94ecde7">2. 数据和任务抽象</a></li>
+<li><a href="#org4f46e91">3. Wide &amp; Deep Learning Model</a>
 <ul>
-<li><a href="#org218a889">3.1. 模型简介</a></li>
-<li><a href="#org222c8b8">3.2. 编写模型输入</a></li>
-<li><a href="#org12bc870">3.3. 编写 Wide 部分</a></li>
-<li><a href="#org4c61b9b">3.4. 编写 Deep 部分</a></li>
-<li><a href="#orged7c312">3.5. 两者融合</a></li>
-<li><a href="#orgb6ad56e">3.6. 训练任务的定义</a></li>
+<li><a href="#org837c2cb">3.1. 模型简介</a></li>
+<li><a href="#orga01450a">3.2. 编写模型输入</a></li>
+<li><a href="#orgaa0f255">3.3. 编写 Wide 部分</a></li>
+<li><a href="#org977dfc7">3.4. 编写 Deep 部分</a></li>
+<li><a href="#orgca6f48d">3.5. 两者融合</a></li>
+<li><a href="#orgd2d3549">3.6. 训练任务的定义</a></li>
 </ul>
 </li>
-<li><a href="#orga0bd27d">4. 写在最后</a></li>
+<li><a href="#orgc20b351">4. 写在最后</a></li>
 </ul>
 </div>
 </div>
 
 
-<a id="org7f839ad"></a>
+<a id="org80045af"></a>
 
 # 背景介绍
 
@@ -51,13 +51,13 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率
 逐渐地接过 CTR 预估任务的大旗。
 
 
-<a id="org731851a"></a>
+<a id="org2edb17b"></a>
 
 ## LR vs DNN
 
 下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：
 
-![img](背景介绍/lr-vs-dnn_2017-05-25_10-36-48.jpg)
+![img](./img/lr-vs-dnn.png)
 
 LR 部分和蓝色箭头部分可以直接类比到 NN 中的结构，可以看到 LR 和 NN 有一些共通之处（比如权重累加），
 但前者的模型复杂度在相同输入维度下比后者可能第很多（从某方面讲，模型越复杂，越有潜力学习到更复杂的信息）。
@@ -73,7 +73,7 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力，包括
 本文后面的章节会演示如何使用 Paddle 编写一个结合两者优点的模型。
 
 
-<a id="orgc2a75e1"></a>
+<a id="org94ecde7"></a>
 
 # 数据和任务抽象
 
@@ -89,14 +89,14 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力，包括
 具体的特征处理方法参看 [data process](./dataset.md)
 
 
-<a id="org7f7e5a5"></a>
+<a id="org4f46e91"></a>
 
 # Wide & Deep Learning Model
 
 谷歌在 16 年提出了 Wide & Deep Learning 的模型框架，用于融合 适合学习抽象特征的 DNN 和 适用于大规模系数特征的 LR 两种模型的优点。
 
 
-<a id="org218a889"></a>
+<a id="org837c2cb"></a>
 
 ## 模型简介
 
@@ -105,13 +105,13 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
 
 模型结构如下：
 
-![img](Wide & Deep Learning Model/wide-deep_2017-05-25_10-24-26.png)
+![img](./img/wide-deep.png)
 
 模型左边的 Wide 部分，可以容纳大规模系数特征，并且对一些特定的信息（比如 ID）有一定的记忆能力；
 而模型右边的 Deep 部分，能够学习特征间的隐含关系，在相同数量的特征下有更好的学习和推导能力。
 
 
-<a id="org222c8b8"></a>
+<a id="orga01450a"></a>
 
 ## 编写模型输入
 
@@ -132,7 +132,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
     click = paddle.layer.data(name='click', type=dtype.dense_vector(1))
 
 
-<a id="org12bc870"></a>
+<a id="orgaa0f255"></a>
 
 ## 编写 Wide 部分
 
@@ -142,7 +142,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
         return fc
 
 
-<a id="org4c61b9b"></a>
+<a id="org977dfc7"></a>
 
 ## 编写 Deep 部分
 
@@ -159,7 +159,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
         return _input_layer
 
 
-<a id="orged7c312"></a>
+<a id="orgca6f48d"></a>
 
 ## 两者融合
 
@@ -175,7 +175,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
         return fc
 
 
-<a id="orgb6ad56e"></a>
+<a id="orgd2d3549"></a>
 
 ## 训练任务的定义
 
@@ -221,7 +221,7 @@ Wide & Deep Learning Model 可以作为一种相对成熟的模型框架使用
         num_passes=100)
 
 
-<a id="orga0bd27d"></a>
+<a id="orgc20b351"></a>
 
 # 写在最后
 
diff --git a/ctr/README.org b/ctr/README.org
index 9773604b54ca4f62e915dd38a116afee7236104e..6c6109ab9cbc497f6826d602fdc4ba47615b7027 100644
--- a/ctr/README.org
+++ b/ctr/README.org
@@ -25,8 +25,7 @@ CTR(Click-through rate) 是用来表示用户点击一个特定链接的概率
 ** LR vs DNN
 下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：
 
-#+DOWNLOADED: file:/Users/superjom/project/paddle_models/ctr/img/lr-vs-dnn.jpg @ 2017-05-25 10:36:48
-[[file:背景介绍/lr-vs-dnn_2017-05-25_10-36-48.jpg]]
+[[./img/lr-vs-dnn.png]]
 
 LR 部分和蓝色箭头部分可以直接类比到 NN 中的结构，可以看到 LR 和 NN 有一些共通之处（比如权重累加），
 但前者的模型复杂度在相同输入维度下比后者可能第很多（从某方面讲，模型越复杂，越有潜力学习到更复杂的信息）。
@@ -61,8 +60,7 @@ LR 对于 NN 模型的优势是对大规模稀疏特征的容纳能力，包括
 
  模型结构如下：
 
-#+DOWNLOADED: file:/Users/superjom/project/paddle_models/ctr/img/wide-deep.png @ 2017-05-25 10:24:26
-[[file:Wide & Deep Learning Model/wide-deep_2017-05-25_10-24-26.png]]
+[[./img/wide-deep.png]]
 
 模型左边的 Wide 部分，可以容纳大规模系数特征，并且对一些特定的信息（比如 ID）有一定的记忆能力；
 而模型右边的 Deep 部分，能够学习特征间的隐含关系，在相同数量的特征下有更好的学习和推导能力。
diff --git a/ctr/dataset.org b/ctr/dataset.org
index 6c98a159e18ac92ba18e3042b7e75847f29b5bd0..8cdcc0f894eec0c4185c580bd1e10ada61df1138 100644
--- a/ctr/dataset.org
+++ b/ctr/dataset.org
@@ -62,10 +62,6 @@ ID 类特征的特点是稀疏数据，但量比较大，直接使用 One-hot 
 - 归一化，直接作为特征输入模型
 - 用区间分割处理成类别类特征，稀疏化表示，模糊细微上的差别
  
-** 特征处理方法
-
-具体特征处理方法参看 [[./dataset.md][data process]]
-
 * 特征处理
 ** 类别型特征
  类别型特征有有限多种值，在模型中，我们一般使用 embedding table 将每种值映射为连续值的向量。