Merge branch 'release/0.15.0' of https://github.com/PaddlePaddle/Paddle into top_k_api

a5f0376d · Dang Qingqing · 1829c3a5 · 3206b179 · a5f0376d · a5f0376d
144 changed file
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -204,6 +204,10 @@ include(external/snappy)    # download snappy
 include(external/snappystream)
 include(external/threadpool)
+include(cudnn)              # set cudnn libraries, must before configure
+include(cupti)
+include(configure)          # add paddle env configuration
 if(WITH_GPU)
    include(cuda)
    include(tensorrt)
@@ -212,9 +216,6 @@ elseif()
    set(WITH_ANAKIN OFF CACHE STRING "Anakin is used in GPU only now." FORCE)
 endif()
-include(cudnn)              # set cudnn libraries, must before configure
-include(cupti)
-include(configure)          # add paddle env configuration
 include(generic)            # simplify cmake module
 include(package)            # set paddle packages
 include(ccache)             # set ccache for compilation

--- a/cmake/configure.cmake
+++ b/cmake/configure.cmake
@@ -110,10 +110,11 @@ if(WITH_GPU)
            message(WARNING "Anakin needs CUDNN >= 7.0 to compile. Force WITH_ANAKIN=OFF")
            set(WITH_ANAKIN OFF CACHE STRING "Anakin is valid only when CUDNN >= 7.0." FORCE)
        endif()
-    endif()
+        set(ENV{CUDNN_INCLUDE_DIR} "${CUDNN_INCLUDE_DIR}/")
-    if(WITH_ANAKIN)
+        get_filename_component(CUDNN_LIBRARY_DIR ${CUDNN_LIBRARY} DIRECTORY)
-        set(ENV{CUDNN_INCLUDE_DIR} ${CUDNN_INCLUDE_DIR})
+        set(ENV{CUDNN_LIBRARY} ${CUDNN_LIBRARY_DIR})
-        set(ENV{CUDNN_LIBRARY} ${CUDNN_LIBRARY})
+        message(STATUS "cudnn include header is ${CUDNN_INCLUDE_DIR}/cudnn.h")
+        message(STATUS "cudnn library is ${CUDNN_LIBRARY_DIR}")
    endif()
 elseif(WITH_AMD_GPU)
    add_definitions(-DPADDLE_WITH_HIP)

--- a/cmake/external/anakin.cmake
+++ b/cmake/external/anakin.cmake
@@ -47,6 +47,7 @@ ExternalProject_Add(
                        -DPROTOBUF_ROOT=${THIRD_PARTY_PATH}/install/protobuf
                        -DMKLML_ROOT=${THIRD_PARTY_PATH}/install/mklml
                        -DCUDNN_ROOT=${CUDNN_ROOT}
+                        -DCUDNN_INCLUDE_DIR=${CUDNN_INCLUDE_DIR}
                        ${EXTERNAL_OPTIONAL_ARGS}
    CMAKE_CACHE_ARGS    -DCMAKE_INSTALL_PREFIX:PATH=${ANAKIN_INSTALL_DIR}
 )

--- a/cmake/external/grpc.cmake
+++ b/cmake/external/grpc.cmake
@@ -44,7 +44,7 @@ ExternalProject_Add(
    # 3. keep only zlib, cares, protobuf, boringssl under "third_party",
    #    checkout and clean other dirs under third_party
    # 4. remove .git, and package the directory.
-    URL "http://paddlepaddledeps.bj.bcebos.com/grpc-v1.10.x.tar.gz"
+    URL "http://paddlepaddledeps.cdn.bcebos.com/grpc-v1.10.x.tar.gz"
    URL_MD5  "1f268a2aff6759839dccd256adcc91cf"
    PREFIX          ${GRPC_SOURCES_DIR}
    UPDATE_COMMAND  ""

--- a/doc/fluid/new_docs/advanced_usage/deploy/index_anakin.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/index_anakin.rst
-服务器端部署 - Anakin
+Anakin - 服务器端加速引擎
-#####################
+#######################
 使用文档

--- a/doc/fluid/new_docs/advanced_usage/deploy/index_native.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/index_native.rst
-服务器端部署 - 原生引擎
-#######################
-..  toctree::
-    :maxdepth: 2
-    build_and_install_lib_cn.rst
-    native_infer.rst
--- a/doc/fluid/new_docs/advanced_usage/index.rst
+++ b/doc/fluid/new_docs/advanced_usage/index.rst
@@ -10,7 +10,6 @@
 ..  toctree::
    :maxdepth: 2
-    deploy/index_native.rst
    deploy/index_anakin.rst
    deploy/index_mobile.rst
    development/contribute_to_paddle.md

--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/index.md
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/dog.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/dog.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/dog_cat.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/dog_cat.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/fea_conv0.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/fea_conv0.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/flowers.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/flowers.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/googlenet.jpeg
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/googlenet.jpeg
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/ilsvrc.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/ilsvrc.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/inception.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/inception.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/lenet.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/lenet.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/plot.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/plot.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/resnet.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/resnet.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/resnet_block.jpg
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/resnet_block.jpg
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/train_and_test.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/train_and_test.png
--- a/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/vgg16.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/image_classification/image/vgg16.png
--- a/doc/fluid/new_docs/beginners_guide/basics/index.rst
+++ b/doc/fluid/new_docs/beginners_guide/basics/index.rst
@@ -10,9 +10,9 @@
 ..  toctree::
    :maxdepth: 2
-    image_classification/index.md
+    image_classification/README.cn.md
-    word2vec/index.md
+    word2vec/README.cn.md
-    recommender_system/index.md
+    recommender_system/README.cn.md
-    understand_sentiment/index.md
+    understand_sentiment/README.cn.md
-    label_semantic_roles/index.md
+    label_semantic_roles/README.cn.md
-    machine_translation/index.md
+    machine_translation/README.cn.md
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/index.md
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bidirectional_stacked_lstm.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bidirectional_stacked_lstm.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bidirectional_stacked_lstm_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bidirectional_stacked_lstm_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bio_example.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bio_example.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bio_example_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/bio_example_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/db_lstm_network.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/db_lstm_network.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/db_lstm_network_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/db_lstm_network_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/dependency_parsing.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/dependency_parsing.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/dependency_parsing_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/dependency_parsing_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/linear_chain_crf.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/linear_chain_crf.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/stacked_lstm.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/stacked_lstm.png
--- a/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/stacked_lstm_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/label_semantic_roles/image/stacked_lstm_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/index.md
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/bi_rnn.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/bi_rnn.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/bi_rnn_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/bi_rnn_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/decoder_attention.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/decoder_attention.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/decoder_attention_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/decoder_attention_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_attention.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_attention.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_attention_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_attention_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_decoder.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_decoder.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_decoder_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/encoder_decoder_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/gru.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/gru.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/gru_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/gru_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/nmt.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/nmt.png
--- a/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/nmt_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/machine_translation/image/nmt_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/index.md
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/Deep_candidate_generation_model_architecture.en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/Deep_candidate_generation_model_architecture.en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/Deep_candidate_generation_model_architecture.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/Deep_candidate_generation_model_architecture.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/YouTube_Overview.en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/YouTube_Overview.en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/YouTube_Overview.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/YouTube_Overview.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/output_32_0.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/output_32_0.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/rec_regression_network.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/rec_regression_network.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/rec_regression_network_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/rec_regression_network_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/text_cnn.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/text_cnn.png
--- a/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/text_cnn_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/recommender_system/image/text_cnn_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/index.md
 # 情感分析
-本教程源代码目录在[book/understand_sentiment](https://github.com/PaddlePaddle/book/tree/develop/06.understand_sentiment)， 初次使用请参考PaddlePaddle[安装教程](https://github.com/PaddlePaddle/book/blob/develop/README.cn.md#运行这本书)。
+本教程源代码目录在[book/understand_sentiment](https://github.com/PaddlePaddle/book/tree/develop/06.understand_sentiment)， 初次使用请参考PaddlePaddle[安装教程](https://github.com/PaddlePaddle/book/blob/develop/README.cn.md#运行这本书)，更多内容请参考本教程的[视频课堂](http://bit.baidu.com/course/detail/id/177.html)。
 ## 背景介绍
@@ -36,54 +36,54 @@
 循环神经网络是一种能对序列数据进行精确建模的有力工具。实际上，循环神经网络的理论计算能力是图灵完备的\[[4](#参考文献)\]。自然语言是一种典型的序列数据（词序列），近年来，循环神经网络及其变体（如long short term memory\[[5](#参考文献)\]等）在自然语言处理的多个领域，如语言模型、句法解析、语义角色标注（或一般的序列标注）、语义表示、图文生成、对话、机器翻译等任务上均表现优异甚至成为目前效果最好的方法。
-![rnn](./image/rnn.png)
 <p align="center">
+<img src="https://github.com/PaddlePaddle/book/blob/develop/06.understand_sentiment/image/rnn.png?raw=true" width = "60%" align="center"/><br/>
 图1. 循环神经网络按时间展开的示意图
 </p>
-循环神经网络按时间展开后如图1所示：在第`$t$`时刻，网络读入第`$t$`个输入`$x_t$`（向量表示）及前一时刻隐层的状态值`$h_{t-1}$`（向量表示，`$h_0$`一般初始化为`$0$`向量），计算得出本时刻隐层的状态值`$h_t$`，重复这一步骤直至读完所有输入。如果将循环神经网络所表示的函数记为`$f$`，则其公式可表示为：
+循环神经网络按时间展开后如图1所示：在第$t$时刻，网络读入第$t$个输入$x_t$（向量表示）及前一时刻隐层的状态值$h_{t-1}$（向量表示，$h_0$一般初始化为$0$向量），计算得出本时刻隐层的状态值$h_t$，重复这一步骤直至读完所有输入。如果将循环神经网络所表示的函数记为$f$，则其公式可表示为：
 $$h_t=f(x_t,h_{t-1})=\sigma(W_{xh}x_t+W_{hh}h_{t-1}+b_h)$$
-其中`$W_{xh}$`是输入到隐层的矩阵参数，`$W_{hh}$`是隐层到隐层的矩阵参数，`$b_h$`为隐层的偏置向量（bias）参数，`$\sigma$`为`$sigmoid$`函数。
+其中$W_{xh}$是输入到隐层的矩阵参数，$W_{hh}$是隐层到隐层的矩阵参数，$b_h$为隐层的偏置向量（bias）参数，$\sigma$为$sigmoid$函数。  
-在处理自然语言时，一般会先将词（one-hot表示）映射为其词向量（word embedding）表示，然后再作为循环神经网络每一时刻的输入`$x_t$`。此外，可以根据实际需要的不同在循环神经网络的隐层上连接其它层。如，可以把一个循环神经网络的隐层输出连接至下一个循环神经网络的输入构建深层（deep or stacked）循环神经网络，或者提取最后一个时刻的隐层状态作为句子表示进而使用分类模型等等。
+在处理自然语言时，一般会先将词（one-hot表示）映射为其词向量（word embedding）表示，然后再作为循环神经网络每一时刻的输入$x_t$。此外，可以根据实际需要的不同在循环神经网络的隐层上连接其它层。如，可以把一个循环神经网络的隐层输出连接至下一个循环神经网络的输入构建深层（deep or stacked）循环神经网络，或者提取最后一个时刻的隐层状态作为句子表示进而使用分类模型等等。  
 ### 长短期记忆网络（LSTM）
 对于较长的序列数据，循环神经网络的训练过程中容易出现梯度消失或爆炸现象\[[6](#参考文献)\]。为了解决这一问题，Hochreiter S, Schmidhuber J. (1997)提出了LSTM(long short term memory\[[5](#参考文献)\])。  
-相比于简单的循环神经网络，LSTM增加了记忆单元`$c$`、输入门`$i$`、遗忘门`$f$`及输出门`$o$`。这些门及记忆单元组合起来大大提升了循环神经网络处理长序列数据的能力。若将基于LSTM的循环神经网络表示的函数记为`$F$`，则其公式为：
+相比于简单的循环神经网络，LSTM增加了记忆单元$c$、输入门$i$、遗忘门$f$及输出门$o$。这些门及记忆单元组合起来大大提升了循环神经网络处理长序列数据的能力。若将基于LSTM的循环神经网络表示的函数记为$F$，则其公式为：
 $$ h_t=F(x_t,h_{t-1})$$
-`$F$`由下列公式组合而成\[[7](#参考文献)\]：
+$F$由下列公式组合而成\[[7](#参考文献)\]：
 $$ i_t = \sigma{(W_{xi}x_t+W_{hi}h_{t-1}+W_{ci}c_{t-1}+b_i)} $$
 $$ f_t = \sigma(W_{xf}x_t+W_{hf}h_{t-1}+W_{cf}c_{t-1}+b_f) $$
 $$ c_t = f_t\odot c_{t-1}+i_t\odot tanh(W_{xc}x_t+W_{hc}h_{t-1}+b_c) $$
 $$ o_t = \sigma(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_{t}+b_o) $$
 $$ h_t = o_t\odot tanh(c_t) $$
-其中，`$i_t, f_t, c_t, o_t$`分别表示输入门，遗忘门，记忆单元及输出门的向量值，带角标的`$W$`及`$b$`为模型参数，`$tanh$`为双曲正切函数，`$\odot$`表示逐元素（elementwise）的乘法操作。输入门控制着新输入进入记忆单元`$c$`的强度，遗忘门控制着记忆单元维持上一时刻值的强度，输出门控制着输出记忆单元的强度。三种门的计算方式类似，但有着完全不同的参数，它们各自以不同的方式控制着记忆单元`$c$`，如图2所示：
+其中，$i_t, f_t, c_t, o_t$分别表示输入门，遗忘门，记忆单元及输出门的向量值，带角标的$W$及$b$为模型参数，$tanh$为双曲正切函数，$\odot$表示逐元素（elementwise）的乘法操作。输入门控制着新输入进入记忆单元$c$的强度，遗忘门控制着记忆单元维持上一时刻值的强度，输出门控制着输出记忆单元的强度。三种门的计算方式类似，但有着完全不同的参数，它们各自以不同的方式控制着记忆单元$c$，如图2所示：
-![lstm](./image/lstm.png)
 <p align="center">
-图2. 时刻`$t$`的LSTM [7]
+<img src="https://github.com/PaddlePaddle/book/blob/develop/06.understand_sentiment/image/lstm.png?raw=true" width = "65%" align="center"/><br/>
+图2. 时刻$t$的LSTM [7]
 </p>
 LSTM通过给简单的循环神经网络增加记忆及控制门的方式，增强了其处理远距离依赖问题的能力。类似原理的改进还有Gated Recurrent Unit (GRU)\[[8](#参考文献)\]，其设计更为简洁一些。**这些改进虽然各有不同，但是它们的宏观描述却与简单的循环神经网络一样（如图2所示），即隐状态依据当前输入及前一时刻的隐状态来改变，不断地循环这一过程直至输入处理完毕：**
 $$ h_t=Recrurent(x_t,h_{t-1})$$
-其中，`$Recrurent$`可以表示简单的循环神经网络、GRU或LSTM。
+其中，$Recrurent$可以表示简单的循环神经网络、GRU或LSTM。
 ### 栈式双向LSTM（Stacked Bidirectional LSTM）
-对于正常顺序的循环神经网络，`$h_t$`包含了`$t$`时刻之前的输入信息，也就是上文信息。同样，为了得到下文信息，我们可以使用反方向（将输入逆序处理）的循环神经网络。结合构建深层循环神经网络的方法（深层神经网络往往能得到更抽象和高级的特征表示），我们可以通过构建更加强有力的基于LSTM的栈式双向循环神经网络\[[9](#参考文献)\]，来对时序数据进行建模。
+对于正常顺序的循环神经网络，$h_t$包含了$t$时刻之前的输入信息，也就是上文信息。同样，为了得到下文信息，我们可以使用反方向（将输入逆序处理）的循环神经网络。结合构建深层循环神经网络的方法（深层神经网络往往能得到更抽象和高级的特征表示），我们可以通过构建更加强有力的基于LSTM的栈式双向循环神经网络\[[9](#参考文献)\]，来对时序数据进行建模。  
 如图3所示（以三层为例），奇数层LSTM正向，偶数层LSTM反向，高一层的LSTM使用低一层LSTM及之前所有层的信息作为输入，对最高层LSTM序列使用时间维度上的最大池化即可得到文本的定长向量表示（这一表示充分融合了文本的上下文信息，并且对文本进行了深层次抽象），最后我们将文本表示连接至softmax构建分类模型。
-![stacked_lstm](./image/stacked_lstm.jpg)
 <p align="center">
+<img src="https://github.com/PaddlePaddle/book/blob/develop/06.understand_sentiment/image/stacked_lstm.jpg?raw=true" width=450><br/>
 图3. 栈式双向LSTM用于文本分类
 </p>
@@ -94,11 +94,11 @@ $$ h_t=Recrurent(x_t,h_{t-1})$$
 ```text
 aclImdb
 |- test
-|-- neg
+   |-- neg
-|-- pos
+   |-- pos
 |- train
-|-- neg
+   |-- neg
-|-- pos
+   |-- pos
 ```
 Paddle在`dataset/imdb.py`中提实现了imdb数据集的自动下载和读取，并提供了读取字典、训练数据、测试数据等API。
@@ -107,6 +107,7 @@ Paddle在`dataset/imdb.py`中提实现了imdb数据集的自动下载和读取
 在该示例中，我们实现了两种文本分类算法，分别基于[推荐系统](https://github.com/PaddlePaddle/book/tree/develop/05.recommender_system)一节介绍过的文本卷积神经网络，以及[栈式双向LSTM](#栈式双向LSTM（Stacked Bidirectional LSTM）)。我们首先引入要用到的库和定义全局变量：
 ```python
+from __future__ import print_function
 import paddle
 import paddle.fluid as fluid
 from functools import partial
@@ -115,6 +116,7 @@ import numpy as np
 CLASS_DIM = 2
 EMB_DIM = 128
 HID_DIM = 512
+STACKED_NUM = 3
 BATCH_SIZE = 128
 USE_GPU = False
 ```
@@ -126,23 +128,23 @@ USE_GPU = False
 ```python
 def convolution_net(data, input_dim, class_dim, emb_dim, hid_dim):
-emb = fluid.layers.embedding(
+    emb = fluid.layers.embedding(
-input=data, size=[input_dim, emb_dim], is_sparse=True)
+        input=data, size=[input_dim, emb_dim], is_sparse=True)
-conv_3 = fluid.nets.sequence_conv_pool(
+    conv_3 = fluid.nets.sequence_conv_pool(
-input=emb,
+        input=emb,
-num_filters=hid_dim,
+        num_filters=hid_dim,
-filter_size=3,
+        filter_size=3,
-act="tanh",
+        act="tanh",
-pool_type="sqrt")
+        pool_type="sqrt")
-conv_4 = fluid.nets.sequence_conv_pool(
+    conv_4 = fluid.nets.sequence_conv_pool(
-input=emb,
+        input=emb,
-num_filters=hid_dim,
+        num_filters=hid_dim,
-filter_size=4,
+        filter_size=4,
-act="tanh",
+        act="tanh",
-pool_type="sqrt")
+        pool_type="sqrt")
-prediction = fluid.layers.fc(
+    prediction = fluid.layers.fc(
-input=[conv_3, conv_4], size=class_dim, act="softmax")
+        input=[conv_3, conv_4], size=class_dim, act="softmax")
-return prediction
+    return prediction
 ```
 网络的输入`input_dim`表示的是词典的大小，`class_dim`表示类别数。这里，我们使用[`sequence_conv_pool`](https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/trainer_config_helpers/networks.py) API实现了卷积和池化操作。
@@ -154,27 +156,26 @@ return prediction
 ```python
 def stacked_lstm_net(data, input_dim, class_dim, emb_dim, hid_dim, stacked_num):
-emb = fluid.layers.embedding(
+    emb = fluid.layers.embedding(
-input=data, size=[input_dim, emb_dim], is_sparse=True)
+        input=data, size=[input_dim, emb_dim], is_sparse=True)
-fc1 = fluid.layers.fc(input=emb, size=hid_dim)
+    fc1 = fluid.layers.fc(input=emb, size=hid_dim)
-lstm1, cell1 = fluid.layers.dynamic_lstm(input=fc1, size=hid_dim)
+    lstm1, cell1 = fluid.layers.dynamic_lstm(input=fc1, size=hid_dim)
-inputs = [fc1, lstm1]
+    inputs = [fc1, lstm1]
-for i in range(2, stacked_num + 1):
+    for i in range(2, stacked_num + 1):
-fc = fluid.layers.fc(input=inputs, size=hid_dim)
+        fc = fluid.layers.fc(input=inputs, size=hid_dim)
-lstm, cell = fluid.layers.dynamic_lstm(
+        lstm, cell = fluid.layers.dynamic_lstm(
-input=fc, size=hid_dim, is_reverse=(i % 2) == 0)
+            input=fc, size=hid_dim, is_reverse=(i % 2) == 0)
-inputs = [fc, lstm]
+        inputs = [fc, lstm]
-fc_last = fluid.layers.sequence_pool(input=inputs[0], pool_type='max')
+    fc_last = fluid.layers.sequence_pool(input=inputs[0], pool_type='max')
-lstm_last = fluid.layers.sequence_pool(input=inputs[1], pool_type='max')
+    lstm_last = fluid.layers.sequence_pool(input=inputs[1], pool_type='max')
-prediction = fluid.layers.fc(input=[fc_last, lstm_last],
+    prediction = fluid.layers.fc(
-size=class_dim,
+        input=[fc_last, lstm_last], size=class_dim, act='softmax')
-act='softmax')
+    return prediction
-return prediction
 ```
 以上的栈式双向LSTM抽象出了高级特征并把其映射到和分类类别数同样大小的向量上。`paddle.activation.Softmax`函数用来计算分类属于某个类别的概率。
@@ -184,12 +185,13 @@ return prediction
 ```python
 def inference_program(word_dict):
-data = fluid.layers.data(
+    data = fluid.layers.data(
-name="words", shape=[1], dtype="int64", lod_level=1)
+        name="words", shape=[1], dtype="int64", lod_level=1)
-dict_dim = len(word_dict)
+    dict_dim = len(word_dict)
-net = convolution_net(data, dict_dim, CLASS_DIM, EMB_DIM, HID_DIM)
+    net = convolution_net(data, dict_dim, CLASS_DIM, EMB_DIM, HID_DIM)
-return net
+    # net = stacked_lstm_net(data, dict_dim, CLASS_DIM, EMB_DIM, HID_DIM, STACKED_NUM)
+    return net
 ```
 我们这里定义了`training_program`。它使用了从`inference_program`返回的结果来计算误差。我们同时定义了优化函数`optimizer_func`。
@@ -200,16 +202,16 @@ return net
 ```python
 def train_program(word_dict):
-prediction = inference_program(word_dict)
+    prediction = inference_program(word_dict)
-label = fluid.layers.data(name="label", shape=[1], dtype="int64")
+    label = fluid.layers.data(name="label", shape=[1], dtype="int64")
-cost = fluid.layers.cross_entropy(input=prediction, label=label)
+    cost = fluid.layers.cross_entropy(input=prediction, label=label)
-avg_cost = fluid.layers.mean(cost)
+    avg_cost = fluid.layers.mean(cost)
-accuracy = fluid.layers.accuracy(input=prediction, label=label)
+    accuracy = fluid.layers.accuracy(input=prediction, label=label)
-return [avg_cost, accuracy]
+    return [avg_cost, accuracy]
 def optimizer_func():
-return fluid.optimizer.Adagrad(learning_rate=0.002)
+    return fluid.optimizer.Adagrad(learning_rate=0.002)
 ```
 ## 训练模型
@@ -236,9 +238,9 @@ word_dict = paddle.dataset.imdb.word_dict()
 print ("Reading training data....")
 train_reader = paddle.batch(
-paddle.reader.shuffle(
+    paddle.reader.shuffle(
-paddle.dataset.imdb.train(word_dict), buf_size=25000),
+        paddle.dataset.imdb.train(word_dict), buf_size=25000),
-batch_size=BATCH_SIZE)
+    batch_size=BATCH_SIZE)
 ```
 ### 构造训练器(trainer)
@@ -246,9 +248,9 @@ batch_size=BATCH_SIZE)
 ```python
 trainer = fluid.Trainer(
-train_func=partial(train_program, word_dict),
+    train_func=partial(train_program, word_dict),
-place=place,
+    place=place,
-optimizer_func=optimizer_func)
+    optimizer_func=optimizer_func)
 ```
 ### 提供数据
@@ -268,13 +270,13 @@ feed_order = ['words', 'label']
 params_dirname = "understand_sentiment_conv.inference.model"
 def event_handler(event):
-if isinstance(event, fluid.EndStepEvent):
+    if isinstance(event, fluid.EndStepEvent):
-print("Step {0}, Epoch {1} Metrics {2}".format(
+        print("Step {0}, Epoch {1} Metrics {2}".format(
-event.step, event.epoch, map(np.array, event.metrics)))
+                event.step, event.epoch, map(np.array, event.metrics)))
-if event.step == 10:
+        if event.step == 10:
-trainer.save_params(params_dirname)
+            trainer.save_params(params_dirname)
-trainer.stop()
+            trainer.stop()
 ```
 ### 开始训练
@@ -283,10 +285,10 @@ trainer.stop()
 ```python
 trainer.train(
-num_epochs=1,
+    num_epochs=1,
-event_handler=event_handler,
+    event_handler=event_handler,
-reader=train_reader,
+    reader=train_reader,
-feed_order=feed_order)
+    feed_order=feed_order)
 ```
 ## 应用模型
@@ -297,7 +299,7 @@ feed_order=feed_order)
 ```python
 inferencer = fluid.Inferencer(
-inference_program, param_path=params_dirname, place=place)
+        infer_func=partial(inference_program, word_dict), param_path=params_dirname, place=place)
 ```
 ### 生成测试用输入数据
@@ -307,14 +309,14 @@ inference_program, param_path=params_dirname, place=place)
 ```python
 reviews_str = [
-'read the book forget the movie', 'this is a great movie', 'this is very bad'
+    'read the book forget the movie', 'this is a great movie', 'this is very bad'
 ]
 reviews = [c.split() for c in reviews_str]
 UNK = word_dict['<unk>']
 lod = []
 for c in reviews:
-lod.append([word_dict.get(words, UNK) for words in c])
+    lod.append([word_dict.get(words, UNK) for words in c])
 base_shape = [[len(c) for c in lod]]
@@ -329,7 +331,7 @@ tensor_words = fluid.create_lod_tensor(lod, base_shape, place)
 results = inferencer.infer({'words': tensor_words})
 for i, r in enumerate(results[0]):
-print("Predict probability of ", r[0], " to be positive and ", r[1], " to be negative for review \'", reviews_str[i], "\'")
+    print("Predict probability of ", r[0], " to be positive and ", r[1], " to be negative for review \'", reviews_str[i], "\'")
 ```

--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/lstm.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/lstm.png
--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/lstm_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/lstm_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/rnn.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/rnn.png
--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/stacked_lstm.jpg
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/stacked_lstm.jpg
--- a/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/stacked_lstm_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/understand_sentiment/image/stacked_lstm_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/index.md
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/index.md
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/2d_similarity.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/2d_similarity.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/cbow.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/cbow.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/cbow_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/cbow_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/ngram.en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/ngram.en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/ngram.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/ngram.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/nnlm.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/nnlm.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/nnlm_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/nnlm_en.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/sentence_emb.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/sentence_emb.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/skipgram.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/skipgram.png
--- a/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/skipgram_en.png
+++ b/doc/fluid/new_docs/beginners_guide/basics/word2vec/image/skipgram_en.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/README.cn.md
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/README.cn.md
--- a/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/predictions.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/predictions.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/ranges.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/ranges.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/train_and_test.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/fit_a_line/image/train_and_test.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/README.cn.md
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/README.cn.md
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/cnn.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/cnn.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/cnn_train_log.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/cnn_train_log.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/infer_3.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/infer_3.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/max_pooling.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/max_pooling.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mlp.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mlp.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mlp_train_log.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mlp_train_log.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mnist_example_image.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/mnist_example_image.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/softmax_regression.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/softmax_regression.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/softmax_train_log.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/softmax_train_log.png
--- a/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/train_and_test.png
+++ b/doc/fluid/new_docs/beginners_guide/quick_start/recognize_digits/image/train_and_test.png
--- a/doc/fluid/new_docs/advanced_usage/deploy/build_and_install_lib_cn.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/build_and_install_lib_cn.rst
--- a/doc/fluid/new_docs/user_guides/howto/inference/index.rst
+++ b/doc/fluid/new_docs/user_guides/howto/inference/index.rst
+############
+模型预测部署
+############
+PaddlePaddle Fluid 提供了 C++ API 来支持模型的部署上线
+.. toctree::
+   :maxdepth: 2
+   build_and_install_lib_cn.rst
+   native_infer.rst
--- a/doc/fluid/new_docs/advanced_usage/deploy/native_infer.rst
+++ b/doc/fluid/new_docs/advanced_usage/deploy/native_infer.rst
@@ -4,11 +4,13 @@ Paddle 预测 API
 为了更简单方便的预测部署，Fluid 提供了一套高层 API
 用来隐藏底层不同的优化实现。
-`预测库相关代码 <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/fluid/inference/api>`__
+`预测库相关代码 <https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/contrib/inference>`__
 包括
 -  头文件 ``paddle_inference_api.h`` 定义了所有的接口
 -  库文件\ ``libpaddle_fluid.so`` 或 ``libpaddle_fluid.a``
+-  库文件 ``libpaddle_inference_api.so`` 或
+   ``libpaddle_inference_api.a``
 编译和依赖可以参考 :ref:`install_or_build_cpp_inference_lib` 。
@@ -95,7 +97,8 @@ engine
    CHECK(predictor->Run(slots, &outputs));
    // 获取 outputs ...
-编译时，联编 ``libpaddle_fluid.a/.so`` 即可。
+编译时，联编 ``libpaddle_fluid.a/.so`` 和
+``libpaddle_inference_api.a/.so`` 便可。
 详细代码参考
 ------------

--- a/doc/fluid/new_docs/user_guides/index.rst
+++ b/doc/fluid/new_docs/user_guides/index.rst
@@ -15,4 +15,5 @@
    howto/training/index
    howto/debug/index
    howto/evaluation/index
+    howto/inference/index
    models/index.rst
--- a/paddle/fluid/API.spec
+++ b/paddle/fluid/API.spec
@@ -55,9 +55,10 @@ paddle.fluid.Inferencer.__init__ ArgSpec(args=['self', 'infer_func', 'param_path
 paddle.fluid.Inferencer.infer ArgSpec(args=['self', 'inputs', 'return_numpy'], varargs=None, keywords=None, defaults=(True,))
 paddle.fluid.DistributeTranspiler.__init__ ArgSpec(args=['self', 'config'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.DistributeTranspiler.get_pserver_program ArgSpec(args=['self', 'endpoint'], varargs=None, keywords=None, defaults=None)
-paddle.fluid.DistributeTranspiler.get_startup_program ArgSpec(args=['self', 'endpoint', 'pserver_program', 'startup_program'], varargs=None, keywords=None, defaults=(None,))
+paddle.fluid.DistributeTranspiler.get_pserver_programs ArgSpec(args=['self', 'endpoint'], varargs=None, keywords=None, defaults=None)
+paddle.fluid.DistributeTranspiler.get_startup_program ArgSpec(args=['self', 'endpoint', 'pserver_program', 'startup_program'], varargs=None, keywords=None, defaults=(None, None))
 paddle.fluid.DistributeTranspiler.get_trainer_program ArgSpec(args=['self'], varargs=None, keywords=None, defaults=None)
-paddle.fluid.DistributeTranspiler.transpile ArgSpec(args=['self', 'trainer_id', 'program', 'pservers', 'trainers', 'sync_mode'], varargs=None, keywords=None, defaults=(None, '127.0.0.1:6174', 1, True))
+paddle.fluid.DistributeTranspiler.transpile ArgSpec(args=['self', 'trainer_id', 'program', 'pservers', 'trainers', 'sync_mode', 'startup_program'], varargs=None, keywords=None, defaults=(None, '127.0.0.1:6174', 1, True, None))
 paddle.fluid.InferenceTranspiler.__init__ 
 paddle.fluid.InferenceTranspiler.transpile ArgSpec(args=['self', 'program', 'place', 'scope'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.memory_optimize ArgSpec(args=['input_program', 'skip_opt_set', 'print_log', 'level'], varargs=None, keywords=None, defaults=(None, False, 0))
@@ -113,6 +114,7 @@ paddle.fluid.layers.beam_search_decode ArgSpec(args=['ids', 'scores', 'beam_size
 paddle.fluid.layers.conv2d_transpose ArgSpec(args=['input', 'num_filters', 'output_size', 'filter_size', 'padding', 'stride', 'dilation', 'groups', 'param_attr', 'bias_attr', 'use_cudnn', 'act', 'name'], varargs=None, keywords=None, defaults=(None, None, 0, 1, 1, None, None, None, True, None, None))
 paddle.fluid.layers.conv3d_transpose ArgSpec(args=['input', 'num_filters', 'output_size', 'filter_size', 'padding', 'stride', 'dilation', 'groups', 'param_attr', 'bias_attr', 'use_cudnn', 'act', 'name'], varargs=None, keywords=None, defaults=(None, None, 0, 1, 1, None, None, None, True, None, None))
 paddle.fluid.layers.sequence_expand ArgSpec(args=['x', 'y', 'ref_level', 'name'], varargs=None, keywords=None, defaults=(-1, None))
+paddle.fluid.layers.sequence_pad ArgSpec(args=['x', 'pad_value', 'maxlen'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.layers.lstm_unit ArgSpec(args=['x_t', 'hidden_t_prev', 'cell_t_prev', 'forget_bias', 'param_attr', 'bias_attr', 'name'], varargs=None, keywords=None, defaults=(0.0, None, None, None))
 paddle.fluid.layers.reduce_sum ArgSpec(args=['input', 'dim', 'keep_dim', 'name'], varargs=None, keywords=None, defaults=(None, False, None))
 paddle.fluid.layers.reduce_mean ArgSpec(args=['input', 'dim', 'keep_dim', 'name'], varargs=None, keywords=None, defaults=(None, False, None))
@@ -190,7 +192,7 @@ paddle.fluid.layers.argsort ArgSpec(args=['input', 'axis', 'name'], varargs=None
 paddle.fluid.layers.ones ArgSpec(args=['shape', 'dtype', 'force_cpu'], varargs=None, keywords=None, defaults=(False,))
 paddle.fluid.layers.zeros ArgSpec(args=['shape', 'dtype', 'force_cpu'], varargs=None, keywords=None, defaults=(False,))
 paddle.fluid.layers.reverse ArgSpec(args=['x', 'axis'], varargs=None, keywords=None, defaults=None)
-paddle.fluid.layers.While.__init__ ArgSpec(args=['self', 'cond', 'name'], varargs=None, keywords=None, defaults=(None,))
+paddle.fluid.layers.While.__init__ ArgSpec(args=['self', 'cond', 'is_test', 'name'], varargs=None, keywords=None, defaults=(False, None))
 paddle.fluid.layers.While.block ArgSpec(args=['self'], varargs=None, keywords=None, defaults=None)
 paddle.fluid.layers.Switch.__init__ ArgSpec(args=['self', 'name'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.layers.Switch.case ArgSpec(args=['self', 'condition'], varargs=None, keywords=None, defaults=None)
@@ -329,9 +331,10 @@ paddle.fluid.contrib.BeamSearchDecoder.update_array ArgSpec(args=['self', 'array
 paddle.fluid.contrib.memory_usage ArgSpec(args=['program', 'batch_size'], varargs=None, keywords=None, defaults=None)
 paddle.fluid.transpiler.DistributeTranspiler.__init__ ArgSpec(args=['self', 'config'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.transpiler.DistributeTranspiler.get_pserver_program ArgSpec(args=['self', 'endpoint'], varargs=None, keywords=None, defaults=None)
-paddle.fluid.transpiler.DistributeTranspiler.get_startup_program ArgSpec(args=['self', 'endpoint', 'pserver_program', 'startup_program'], varargs=None, keywords=None, defaults=(None,))
+paddle.fluid.transpiler.DistributeTranspiler.get_pserver_programs ArgSpec(args=['self', 'endpoint'], varargs=None, keywords=None, defaults=None)
+paddle.fluid.transpiler.DistributeTranspiler.get_startup_program ArgSpec(args=['self', 'endpoint', 'pserver_program', 'startup_program'], varargs=None, keywords=None, defaults=(None, None))
 paddle.fluid.transpiler.DistributeTranspiler.get_trainer_program ArgSpec(args=['self'], varargs=None, keywords=None, defaults=None)
-paddle.fluid.transpiler.DistributeTranspiler.transpile ArgSpec(args=['self', 'trainer_id', 'program', 'pservers', 'trainers', 'sync_mode'], varargs=None, keywords=None, defaults=(None, '127.0.0.1:6174', 1, True))
+paddle.fluid.transpiler.DistributeTranspiler.transpile ArgSpec(args=['self', 'trainer_id', 'program', 'pservers', 'trainers', 'sync_mode', 'startup_program'], varargs=None, keywords=None, defaults=(None, '127.0.0.1:6174', 1, True, None))
 paddle.fluid.transpiler.InferenceTranspiler.__init__ 
 paddle.fluid.transpiler.InferenceTranspiler.transpile ArgSpec(args=['self', 'program', 'place', 'scope'], varargs=None, keywords=None, defaults=(None,))
 paddle.fluid.transpiler.memory_optimize ArgSpec(args=['input_program', 'skip_opt_set', 'print_log', 'level'], varargs=None, keywords=None, defaults=(None, False, 0))

--- a/paddle/fluid/framework/details/multi_devices_graph_pass.cc
+++ b/paddle/fluid/framework/details/multi_devices_graph_pass.cc
@@ -625,19 +625,11 @@ int MultiDevSSAGraphBuilder::GetVarDeviceID(const ir::Graph &graph,
 void MultiDevSSAGraphBuilder::CreateScaleLossGradOp(
    ir::Graph *result, const std::string &loss_grad_name) const {
  for (size_t i = 0; i < places_.size(); ++i) {
-// Insert ScaleCost OpHandle
+    // Insert ScaleCost OpHandle
-#ifdef PADDLE_WITH_CUDA
+    auto *dev_ctx = platform::DeviceContextPool::Instance().Get(places_[i]);
-    auto *communication_dev_ctx =
-        nccl_ctxs_ ? nccl_ctxs_->DevCtx(places_[i])
-                   : platform::DeviceContextPool::Instance().Get(places_[i]);
-#else
-    auto *communication_dev_ctx =
-        platform::DeviceContextPool::Instance().Get(platform::CPUPlace());
-#endif
    auto *op_handle = new ScaleLossGradOpHandle(
        result->CreateEmptyNode("scale_loss_grad", ir::Node::Type::kOperation),
-        local_scopes_.size(), local_scopes_[i], places_[i],
+        local_scopes_.size(), local_scopes_[i], places_[i], dev_ctx);
-        communication_dev_ctx);
    result->Get<GraphOps>(kGraphOps).emplace_back(op_handle);
    // FIXME: Currently ScaleLossGradOp only use device_count as scale
@@ -744,7 +736,7 @@ void MultiDevSSAGraphBuilder::CreateDistTrainOp(ir::Graph *result,
          .emplace(varname, op_dev_id);
    }
  } else {
-    PADDLE_ENFORCE(
+    PADDLE_THROW(
        "the distribute training related op should be in [split_byref, "
        "concat].");
  }
@@ -754,17 +746,26 @@ void MultiDevSSAGraphBuilder::CreateDistTrainOp(ir::Graph *result,
                 node->Op()->Type());
  CreateComputationalOp(result, node, op_dev_id);
-  if (node->Op()->Type() == "concat") {
+}
-    ConnectOp(result, result->Get<GraphOps>(kGraphOps).back().get(),
-              "fetch_barrier");
+void SetOpInputsAllPlaces(ir::Graph *result, ir::Node *node, int num_places) {
+  auto *op_handle = result->Get<GraphOps>(kGraphOps).back().get();
+  for (ir::Node *input : node->inputs) {
+    VarHandle *var = nullptr;
+    for (int place_offset = 0; place_offset < num_places; ++place_offset) {
+      auto &var_holders = result->Get<GraphVars>(kGraphVars)[place_offset];
+      auto &var_holder = var_holders[input->Name()];
+      if (!var_holder.empty()) {
+        var = var_holder.rbegin()->get();
+        op_handle->AddInput(var);
+      }
+    }
  }
 }
 // Create RPC related op handles that connects its in ops and out ops.
 void MultiDevSSAGraphBuilder::CreateRPCOp(ir::Graph *result,
                                          ir::Node *node) const {
-  // FIXME(typhoonzero): Cleanup this deps for both sync mode and async mode
-  //                     put them into transpiler.
  int op_dev_id = -1;
  if (node->Op()->Type() == "send") {
    // TODO(paddle-dev): getting the first var is not safe.
@@ -799,8 +800,6 @@ void MultiDevSSAGraphBuilder::CreateRPCOp(ir::Graph *result,
    }
    auto recv_param_grad = boost::get<std::vector<std::string>>(
        node->Op()->GetAttr(OpProtoAndCheckerMaker::OpRoleVarAttrName()));
-    // FIXME(typhoonzero): assume each recv op output one param
-    // Use the same place as send.
    if (recv_param_grad.size() == 2U) {
      op_dev_id = GetVarDeviceID(*result, recv_param_grad[1]);
      VLOG(10) << "recv param " << recv_param_grad[0]
@@ -814,34 +813,44 @@ void MultiDevSSAGraphBuilder::CreateRPCOp(ir::Graph *result,
          .emplace(varname, op_dev_id);
    }
  } else {
-    // send_barrier and fetch_barrier op can be scheduled on device 0
+    // send_barrier, fetch_barrier will run on place 0;
    op_dev_id = 0;
  }
  PADDLE_ENFORCE(op_dev_id != -1, "can not find the right place for rpc op: %s",
                 node->Op()->Type());
  result->Get<GraphOps>(kGraphOps).emplace_back(new RPCOpHandle(
      result->CreateOpNode(node->Op()), *node->Op(), local_scopes_[op_dev_id],
      node->Op()->Type(), places_[op_dev_id]));
-  // TODO(panyx0718): This might not be needed anymore.
+  if (node->Op()->Type() == "send") {
-  if (node->Op()->Type() == "send_barrier") {
+    CreateOpHandleIOs(result, node, op_dev_id);
-    ConnectOp(result, result->Get<GraphOps>(kGraphOps).back().get(), "send");
-  } else if (node->Op()->Type() == "recv") {
-    ConnectOp(result, result->Get<GraphOps>(kGraphOps).back().get(),
-              "send_barrier");
-  } else if (node->Op()->Type() == "fetch_barrier") {
-    ConnectOp(result, result->Get<GraphOps>(kGraphOps).back().get(), "recv");
-  } else if (node->Op()->Type() == "send") {
-    // do nothing
  } else {
-    PADDLE_THROW(
+    // send_barrier, recv, fetch_barrier's inputs are deps var, get them from
-        "rpc op should be in ["
+    // all places
-        "send, send_barrier. recv, fetch_barrier]");
+    auto p = places_[op_dev_id];
-  }
+    auto *op_handle = result->Get<GraphOps>(kGraphOps).back().get();
+    op_handle->SetDeviceContext(p,
+                                platform::DeviceContextPool::Instance().Get(p));
-  CreateOpHandleIOs(result, node, op_dev_id);
+    SetOpInputsAllPlaces(result, node, places_.size());
+    for (ir::Node *output : node->outputs) {
+      int outvar_dev_id = op_dev_id;
+      if (node->Op()->Type() == "fetch_barrier") {
+        outvar_dev_id = GetVarDeviceID(*result, output->Name());
+        PADDLE_ENFORCE_NE(outvar_dev_id, -1);
+      }
+      p = places_[outvar_dev_id];
+      ir::Node *new_node = nullptr;
+      if (output->Var()) {
+        new_node = result->CreateVarNode(output->Var());
+      } else {
+        new_node =
+            result->CreateEmptyNode(output->Name(), ir::Node::Type::kVariable);
+      }
+      CreateOpOutput(result, op_handle, new_node, p, outvar_dev_id);
+    }
+  }
 }
 bool MultiDevSSAGraphBuilder::IsScaleLossOp(ir::Node *node) const {

--- a/paddle/fluid/framework/ir/graph.cc
+++ b/paddle/fluid/framework/ir/graph.cc
@@ -132,63 +132,6 @@ Graph::Graph(const ProgramDesc &program) : program_(program) {
    }
  }
-  std::vector<ir::Node *> send_ops;
-  ir::Node *send_bar = nullptr;
-  std::vector<ir::Node *> recv_ops;
-  ir::Node *fetch_bar = nullptr;
-  for (ir::Node *node : Nodes()) {
-    if (node->Name() == "send") {
-      send_ops.push_back(node);
-    } else if (node->Name() == "send_barrier") {
-      PADDLE_ENFORCE(!send_bar, "only has one send barrier");
-      send_bar = node;
-    } else if (node->Name() == "recv") {
-      recv_ops.push_back(node);
-    } else if (node->Name() == "fetch_barrier") {
-      PADDLE_ENFORCE(!fetch_bar, "only has one fetch barrier");
-      fetch_bar = node;
-    }
-  }
-  if (send_bar) {
-    for (ir::Node *send : send_ops) {
-      ir::Node *dep_var = CreateControlDepVar();
-      send->outputs.push_back(dep_var);
-      dep_var->inputs.push_back(send);
-      send_bar->inputs.push_back(dep_var);
-      dep_var->outputs.push_back(send_bar);
-    }
-    for (ir::Node *recv : recv_ops) {
-      ir::Node *dep_var = CreateControlDepVar();
-      recv->inputs.push_back(dep_var);
-      dep_var->outputs.push_back(recv);
-      send_bar->outputs.push_back(dep_var);
-      dep_var->inputs.push_back(send_bar);
-    }
-  }
-  if (fetch_bar) {
-    for (ir::Node *recv : recv_ops) {
-      ir::Node *dep_var = CreateControlDepVar();
-      recv->outputs.push_back(dep_var);
-      dep_var->inputs.push_back(recv);
-      fetch_bar->inputs.push_back(dep_var);
-      dep_var->outputs.push_back(fetch_bar);
-    }
-  }
-  std::vector<std::string> send_vars = FindDistTrainSendVars(send_ops);
-  std::vector<std::string> recv_vars = FindDistTrainRecvVars(recv_ops);
-  for (ir::Node *node : Nodes()) {
-    if (IsDistTrainOp(node, send_vars, recv_vars)) {
-      if (fetch_bar && node->Name() == "concat") {
-        ir::Node *dep_var = CreateControlDepVar();
-        fetch_bar->outputs.push_back(dep_var);
-        dep_var->inputs.push_back(fetch_bar);
-        node->inputs.push_back(dep_var);
-        dep_var->outputs.push_back(node);
-      }
-    }
-  }
  /**
   * We should handle write after read(WAR) and write after write(WAW) here.
   * Because some of the operators of the program can be executed parallelly.

--- a/paddle/fluid/framework/ir/graph_test.cc
+++ b/paddle/fluid/framework/ir/graph_test.cc
@@ -200,9 +200,11 @@ TEST(GraphTest, WriteAfterWrite) {
      ASSERT_TRUE(ir::IsControlDepVar(*n->inputs[1]));
      control_dep2 = n->inputs[1];
      ASSERT_EQ(n->inputs.size(), 2);
-      ASSERT_EQ(control_dep1, control_dep2);
    }
  }
+  ASSERT_NE(control_dep1, nullptr);
+  ASSERT_NE(control_dep2, nullptr);
+  ASSERT_EQ(control_dep1, control_dep2);
 }
 }  // namespace framework
 }  // namespace paddle
--- a/paddle/fluid/inference/tensorrt/CMakeLists.txt
+++ b/paddle/fluid/inference/tensorrt/CMakeLists.txt
-nv_library(tensorrt_engine SRCS engine.cc DEPS framework_proto)
+nv_library(tensorrt_engine SRCS engine.cc DEPS framework_proto device_context)
 nv_test(test_tensorrt SRCS test_tensorrt.cc DEPS dynload_cuda device_context dynamic_loader)
 nv_test(test_tensorrt_engine SRCS test_engine.cc DEPS dynload_cuda tensorrt_engine)
 add_subdirectory(convert)
--- a/paddle/fluid/operators/CMakeLists.txt
+++ b/paddle/fluid/operators/CMakeLists.txt
@@ -282,6 +282,7 @@ op_library(unsqueeze_op DEPS reshape_op)
 op_library(squeeze_op DEPS reshape_op)
 op_library(extract_rows_op DEPS memory)
 op_library(flatten_op DEPS reshape_op)
+op_library(sequence_pad_op DEPS sequence_padding)
 if (WITH_GPU)
    op_library(conv_op DEPS vol2col depthwise_conv im2col)

--- a/paddle/fluid/operators/distributed/request_handler_impl.cc
+++ b/paddle/fluid/operators/distributed/request_handler_impl.cc
@@ -39,8 +39,17 @@ bool RequestSendHandler::Handle(const std::string& varname,
                                const std::string& out_var_name) {
  VLOG(4) << "RequestSendHandler:" << varname;
+  // Sync
+  if (varname == BATCH_BARRIER_MESSAGE) {
+    VLOG(3) << "sync: recv BATCH_BARRIER_MESSAGE";
+    rpc_server_->IncreaseBatchBarrier(kRequestSend);
+  } else if (varname == COMPLETE_MESSAGE) {
+    VLOG(3) << "sync: recv complete message";
+    rpc_server_->Complete();
+  } else {
    // Async
    if (!sync_mode_) {
+      VLOG(3) << "async process var: " << varname;
      rpc_server_->Profiler().OneStep();
      try {
        executor_->RunPreparedContext((*grad_to_prepared_ctx_)[varname].get(),
@@ -50,17 +59,7 @@ bool RequestSendHandler::Handle(const std::string& varname,
        return false;
      }
      return true;
-  }
+    } else {  // sync
-  // Sync
-  if (varname == BATCH_BARRIER_MESSAGE) {
-    VLOG(3) << "sync: recv BATCH_BARRIER_MESSAGE";
-    rpc_server_->IncreaseBatchBarrier(kRequestSend);
-  } else if (varname == COMPLETE_MESSAGE) {
-    VLOG(3) << "sync: recv complete message";
-    rpc_server_->Complete();
-  } else {
-    VLOG(3) << "sync: received var_name: " << varname;
      rpc_server_->WaitCond(kRequestSend);
      VLOG(3) << "sync: processing received var: " << varname;
@@ -68,11 +67,13 @@ bool RequestSendHandler::Handle(const std::string& varname,
        LOG(FATAL) << "sync: Can not find server side var: " << varname;
        return false;
      }
      if (invar->IsType<framework::SelectedRows>()) {
        std::unique_lock<std::mutex> lock(mutex_sparse_vars_);
        sparse_vars_.push_back(invar);
      }
    }
+  }
  return true;
 }

--- a/paddle/fluid/operators/fetch_barrier_op.cc
+++ b/paddle/fluid/operators/fetch_barrier_op.cc
--- a/paddle/fluid/operators/math/sequence_padding.cc
+++ b/paddle/fluid/operators/math/sequence_padding.cc
--- a/paddle/fluid/operators/math/sequence_padding.cu
+++ b/paddle/fluid/operators/math/sequence_padding.cu
--- a/paddle/fluid/operators/math/sequence_padding.h
+++ b/paddle/fluid/operators/math/sequence_padding.h
--- a/paddle/fluid/operators/math/sequence_padding_test.cc
+++ b/paddle/fluid/operators/math/sequence_padding_test.cc
--- a/paddle/fluid/operators/scale_op.cc
+++ b/paddle/fluid/operators/scale_op.cc
--- a/paddle/fluid/operators/scale_op.h
+++ b/paddle/fluid/operators/scale_op.h
--- a/paddle/fluid/operators/send_barrier_op.cc
+++ b/paddle/fluid/operators/send_barrier_op.cc
--- a/paddle/fluid/operators/sequence_pad_op.cc
+++ b/paddle/fluid/operators/sequence_pad_op.cc
--- a/paddle/fluid/operators/sequence_pad_op.cu
+++ b/paddle/fluid/operators/sequence_pad_op.cu
--- a/paddle/fluid/operators/sequence_pad_op.h
+++ b/paddle/fluid/operators/sequence_pad_op.h
--- a/paddle/fluid/operators/shrink_rnn_memory_op.cc
+++ b/paddle/fluid/operators/shrink_rnn_memory_op.cc
--- a/paddle/fluid/operators/warpctc_op.h
+++ b/paddle/fluid/operators/warpctc_op.h
--- a/paddle/fluid/operators/while_op.cc
+++ b/paddle/fluid/operators/while_op.cc
--- a/paddle/fluid/platform/device_context.h
+++ b/paddle/fluid/platform/device_context.h
--- a/paddle/scripts/paddle_build.sh
+++ b/paddle/scripts/paddle_build.sh
--- a/python/paddle/fluid/inferencer.py
+++ b/python/paddle/fluid/inferencer.py
--- a/python/paddle/fluid/layers/control_flow.py
+++ b/python/paddle/fluid/layers/control_flow.py
--- a/python/paddle/fluid/layers/io.py
+++ b/python/paddle/fluid/layers/io.py
--- a/python/paddle/fluid/layers/nn.py
+++ b/python/paddle/fluid/layers/nn.py
--- a/python/paddle/fluid/tests/book/high-level-api/image_classification/test_image_classification_resnet.py
+++ b/python/paddle/fluid/tests/book/high-level-api/image_classification/test_image_classification_resnet.py
--- a/python/paddle/fluid/tests/book/high-level-api/image_classification/test_image_classification_vgg.py
+++ b/python/paddle/fluid/tests/book/high-level-api/image_classification/test_image_classification_vgg.py
--- a/python/paddle/fluid/tests/book/high-level-api/recognize_digits/test_recognize_digits_conv.py
+++ b/python/paddle/fluid/tests/book/high-level-api/recognize_digits/test_recognize_digits_conv.py
--- a/python/paddle/fluid/tests/book/high-level-api/recognize_digits/test_recognize_digits_mlp.py
+++ b/python/paddle/fluid/tests/book/high-level-api/recognize_digits/test_recognize_digits_mlp.py
--- a/python/paddle/fluid/tests/unittests/CMakeLists.txt
+++ b/python/paddle/fluid/tests/unittests/CMakeLists.txt
--- a/python/paddle/fluid/tests/unittests/dist_se_resnext.py
+++ b/python/paddle/fluid/tests/unittests/dist_se_resnext.py
--- a/python/paddle/fluid/tests/unittests/dist_transformer.py
+++ b/python/paddle/fluid/tests/unittests/dist_transformer.py
--- a/python/paddle/fluid/tests/unittests/dist_word2vec.py
+++ b/python/paddle/fluid/tests/unittests/dist_word2vec.py
--- a/python/paddle/fluid/tests/unittests/test_desc_clone.py
+++ b/python/paddle/fluid/tests/unittests/test_desc_clone.py
--- a/python/paddle/fluid/tests/unittests/test_dist_base.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_base.py
--- a/python/paddle/fluid/tests/unittests/test_dist_mnist.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_mnist.py
--- a/python/paddle/fluid/tests/unittests/test_dist_se_resnext.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_se_resnext.py
--- a/python/paddle/fluid/tests/unittests/test_dist_train.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_train.py
--- a/python/paddle/fluid/tests/unittests/test_dist_transformer.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transformer.py
--- a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
--- a/python/paddle/fluid/tests/unittests/test_dist_word2vec.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_word2vec.py
--- a/python/paddle/fluid/tests/unittests/test_prelu_op.py
+++ b/python/paddle/fluid/tests/unittests/test_prelu_op.py
--- a/python/paddle/fluid/tests/unittests/test_scale_op.py
+++ b/python/paddle/fluid/tests/unittests/test_scale_op.py
--- a/python/paddle/fluid/tests/unittests/test_sequence_pad_op.py
+++ b/python/paddle/fluid/tests/unittests/test_sequence_pad_op.py
--- a/python/paddle/fluid/transpiler/details/program_utils.py
+++ b/python/paddle/fluid/transpiler/details/program_utils.py
--- a/python/paddle/fluid/transpiler/distribute_transpiler.py
+++ b/python/paddle/fluid/transpiler/distribute_transpiler.py
--- a/tools/check_ctest_hung.py
+++ b/tools/check_ctest_hung.py
--- a/tools/print_signatures.py
+++ b/tools/print_signatures.py
--- a/tools/timeline.py
+++ b/tools/timeline.py