Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into complete_py_reader_python

9b282600 · sneaxiy · 739c3309 · 26ff5a53 · 9b282600 · 9b282600
481 changed file
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -65,6 +65,7 @@ option(REPLACE_ENFORCE_GLOG "Replace PADDLE_ENFORCE with glog/CHECK for better d
 option(WITH_ANAKIN      "Compile with Anakin library"                   OFF)
 option(WITH_GRPC     "Use grpc as the default rpc framework"            ${WITH_DISTRIBUTE})
 option(WITH_BRPC_RDMA     "Use brpc rdma as the rpc protocal"           OFF)
+option(WITH_SYSTEM_BLAS   "Use system blas library"           OFF)
 # CMAKE_BUILD_TYPE
 if(NOT CMAKE_BUILD_TYPE)

--- a/README.md
+++ b/README.md
@@ -18,6 +18,8 @@ learning to many products at Baidu.
 Our vision is to enable deep learning for everyone via PaddlePaddle.
 Please refer to our [release announcement](https://github.com/PaddlePaddle/Paddle/releases) to track the latest feature of PaddlePaddle.
+### Lastest PaddlePaddle Version: [Fluid](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/fluid)
 ## Features
 - **Flexibility**

--- a/benchmark/fluid/args.py
+++ b/benchmark/fluid/args.py
@@ -125,6 +125,10 @@ def parse_args():
    parser.add_argument(
        '--use_inference_transpiler',
        action='store_true',
-        help='If set, uses inference transpiler to optimize the program.')
+        help='If set, use inference transpiler to optimize the program.')
+    parser.add_argument(
+        '--no_random',
+        action='store_true',
+        help='If set, keep the random seed and do not shuffle the data.')
    args = parser.parse_args()
    return args
--- a/benchmark/fluid/fluid_benchmark.py
+++ b/benchmark/fluid/fluid_benchmark.py
@@ -132,10 +132,6 @@ def train(avg_loss, infer_prog, optimizer, train_reader, test_reader, batch_acc,
    exe.run(startup_prog)
    # Use inference_transpiler to speedup
-    if args.use_inference_transpiler:
-        t = fluid.InferenceTranspiler()
-        t.transpile(infer_prog, place)
    if not args.use_reader_op:
        feed_var_list = [
            var for var in train_prog.global_block().vars.itervalues()
@@ -186,6 +182,10 @@ def train(avg_loss, infer_prog, optimizer, train_reader, test_reader, batch_acc,
        print("Pass: %d, Loss: %f" % (pass_id, np.mean(train_losses))),
        # evaluation
        if not args.no_test and batch_acc and not args.use_reader_op:
+            if args.use_inference_transpiler:
+                t = fluid.InferenceTranspiler()
+                t.transpile(infer_prog, place)
            pass_test_acc = test(exe, infer_prog, test_reader, feeder,
                                 batch_acc)
            print(", Test Accuracy: %f" % pass_test_acc)
@@ -316,6 +316,8 @@ def main():
    args = parse_args()
    print_arguments(args)
    print_paddle_envs()
+    if args.no_random:
+        fluid.default_startup_program().random_seed = 1
    # the unique trainer id, starting from 0, needed by trainer
    # only

--- a/benchmark/fluid/models/resnet.py
+++ b/benchmark/fluid/models/resnet.py
@@ -197,12 +197,12 @@ def get_model(args):
    optimizer = fluid.optimizer.Momentum(learning_rate=0.01, momentum=0.9)
    batched_train_reader = paddle.batch(
-        paddle.reader.shuffle(
+        train_reader if args.no_random else paddle.reader.shuffle(
            train_reader, buf_size=5120),
        batch_size=args.batch_size * args.gpus,
        drop_last=True)
    batched_test_reader = paddle.batch(
-        train_reader, batch_size=args.batch_size, drop_last=True)
+        test_reader, batch_size=args.batch_size, drop_last=True)
    return avg_cost, inference_program, optimizer, batched_train_reader,\
                   batched_test_reader, batch_acc
--- a/cmake/cblas.cmake
+++ b/cmake/cblas.cmake
@@ -83,18 +83,20 @@ else()
  set(REFERENCE_CBLAS_LIB_SEARCH_PATHS ${REFERENCE_CBLAS_ROOT}/lib)
 endif()
-find_path(REFERENCE_CBLAS_INCLUDE_DIR NAMES cblas.h PATHS
+if(WITH_SYSTEM_BLAS)
+  find_path(REFERENCE_CBLAS_INCLUDE_DIR NAMES cblas.h PATHS
        ${REFERENCE_CBLAS_INCLUDE_SEARCH_PATHS})
-find_library(REFERENCE_CBLAS_LIBRARY NAMES cblas PATHS
+  find_library(REFERENCE_CBLAS_LIBRARY NAMES cblas PATHS
        ${REFERENCE_CBLAS_LIB_SEARCH_PATHS})
-if(REFERENCE_CBLAS_INCLUDE_DIR AND REFERENCE_CBLAS_LIBRARY)
+  if(REFERENCE_CBLAS_INCLUDE_DIR AND REFERENCE_CBLAS_LIBRARY)
-  set(CBLAS_FOUND ON)
+    set(CBLAS_FOUND ON)
-  set(CBLAS_PROVIDER REFERENCE)
+    set(CBLAS_PROVIDER REFERENCE)
-  set(CBLAS_INC_DIR ${REFERENCE_CBLAS_INCLUDE_DIR})
+    set(CBLAS_INC_DIR ${REFERENCE_CBLAS_INCLUDE_DIR})
-  set(CBLAS_LIBRARIES ${REFERENCE_CBLAS_LIBRARY})
+    set(CBLAS_LIBRARIES ${REFERENCE_CBLAS_LIBRARY})
-  add_definitions(-DPADDLE_USE_REFERENCE_CBLAS)
+    add_definitions(-DPADDLE_USE_REFERENCE_CBLAS)
-  message(STATUS "Found reference-cblas (include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
+    message(STATUS "Found reference-cblas (include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
+  endif()
 endif()
 if(IOS_USE_VECLIB_FOR_BLAS AND VECLIB_FOUND)

--- a/doc/v2/design/cluster_train/large_model_dist_train.md
+++ b/doc/v2/design/cluster_train/large_model_dist_train.md
@@ -52,7 +52,7 @@ In `trainer_internal.cpp:L93 trainOneBatch`:
 When doing actual network forward and backward, at the beginning of each batch, the trainer will try to download one row of data from pserver.
-In `trainer/RemoteParameterUpdater.cpp`: `parameterUpdater_->getParametersRemote();`:
+In `legacy/trainer/RemoteParameterUpdater.cpp`: `parameterUpdater_->getParametersRemote();`:
 ```c++
 if (fullSize) {

--- a/doc/v2/design/mkl/mkldnn.md
+++ b/doc/v2/design/mkl/mkldnn.md
@@ -18,20 +18,20 @@ Figure 1. PaddlePaddle on IA
 具体的完成状态可以参见[这里](https://github.com/PaddlePaddle/Paddle/projects/21)。
 ## Contents
 - [Overview](#overview)
 - [Actions](#actions)
 	- [CMake](#cmake)
 	- [Matrix](#matrix)
 	- [Layers](#layers)
 	- [Activations](#activations)
 	- [Parameters](#parameters)
 	- [Gradients](#gradients)
 	- [Unit Tests](#unit-tests)
 	- [Python API](#python-api)
 	- [Benchmarking](#benchmarking)
 	- [Others](#others)
 - [Design Concerns](#design-concerns)
 ## Overview
@@ -218,20 +218,20 @@ if use_mkldnn
 我们总结出一些特别需要注意的点：
 1. 使用**deviceId_**。为了尽可能少的在父类Layer中添加变量或者函数，
 我们决定使用已有的`deviceId_`变量来区分layer的属性，定义`-2`为`MKLDNNLayer`特有的设备ID。
 2. 重写父类Layer的**init**函数，修改`deviceId_`为`-2`，代表这个layer是用于跑在MKL-DNN的环境下。
 3. 创建`MKLDNNBase`，定义一些除了layer和memory相关的类和函数。
 包括MKL-DNN会用到`MKLDNNStream`和`CPUEngine`，和未来可能还会用到`FPGAEngine`等。
 4. 如果MKL-DNN layer的后面接有cpu device，那么就会使`output_.value`与`extOutVal_`共享内存，
 同时数据格式就是`NCHW`，这样下一个cpu device就能拿到正确的数据。
 在有普通的CPU layer时， `extOutVal_`和`extOutGrad_`的格式始终是`NCHW`或者`NC`。
 ## References
 1. [MKL small library](https://github.com/01org/mkl-dnn#linking-your-application)是[Intel MKL](https://software.intel.com/en-us/mkl)的一个子集。
 主要包括了深度学习相关的数学原语与操作，一般由MKL-DNN在发布[新版本](https://github.com/01org/mkl-dnn/releases)时一起更新。
 2. [MKL-DNN System Requirements](https://github.com/01org/mkl-dnn#system-requirements)。
 目前在PaddlePaddle中，仅会在支持AVX2指令集及以上的机器才使用MKL-DNN。
 3. [原来的方案](https://github.com/PaddlePaddle/Paddle/pull/3096)会引入**nextLayer**的信息。
 但是在PaddlePaddle中，无论是重构前的layer还是重构后的op，都不会想要知道next layer/op的信息。
 4. MKL-DNN的高性能格式与PaddlePaddle原有的`NCHW`不同(PaddlePaddle中的cuDNN部分使用的也是`NCHW`，所以不存在这个问题)。
 所以需要引入一个转换方法，并且只需要在必要的时候转换这种格式，才能更好的发挥MKL-DNN的性能。
--- a/doc/v2/dev/new_layer_en.rst
+++ b/doc/v2/dev/new_layer_en.rst
@@ -339,7 +339,7 @@ If you are creating a new file for the test, such as :code:`paddle/legacy/gserve
 Implement Python Wrapper
 ========================
-Implementing Python wrapper allows us to use the added layer in configuration files. All the Python wrappers are in file :code:`python/paddle/trainer/config_parser.py`. An example of the Python wrapper for fully connected layer is listed below. It has the following steps:
+Implementing Python wrapper allows us to use the added layer in configuration files. All the Python wrappers are in file :code:`python/paddle/legacy/trainer/config_parser.py`. An example of the Python wrapper for fully connected layer is listed below. It has the following steps:
 - Use :code:`@config_layer('fc')` at the decorator for all the Python wrapper class. :code:`fc` is the identifier of the layer.
 - Implements :code:`__init__` constructor function.

--- a/doc/v2/howto/capi/compile_paddle_lib_cn.md
+++ b/doc/v2/howto/capi/compile_paddle_lib_cn.md
@@ -18,7 +18,7 @@
 </tr>
 <tr>
 <td>cpu_avx_openblas</td>
-<td>暂无</td>
+<td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxOpenblas/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
 </tr>
 <tr>
 <td>cpu_noavx_openblas</td>
@@ -35,7 +35,12 @@
 <tr>
 <td>cuda8.0_cudnn7_avx_mkl</td>
 <td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda8cudnn7cp27cp27mu/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
-</tr></tbody></table>
+</tr>
+<tr>
+<td>cuda9.0_cudnn7_avx_mkl</td>
+<td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda90cudnn7avxMkl/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
+</tr>
+</tbody></table>
 ### 从源码编译

--- a/doc/v2/howto/capi/compile_paddle_lib_en.md
+++ b/doc/v2/howto/capi/compile_paddle_lib_en.md
@@ -17,7 +17,7 @@
 </tr>
 <tr>
 <td>cpu_avx_openblas</td>
-<td>-</td>
+<td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_CpuAvxOpenblas/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
 </tr>
 <tr>
 <td>cpu_noavx_openblas</td>
@@ -34,7 +34,12 @@
 <tr>
 <td>cuda8.0_cudnn7_avx_mkl</td>
 <td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda8cudnn7cp27cp27mu/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
-</tr></tbody></table>
+</tr>
+<tr>
+<td>cuda9.0_cudnn7_avx_mkl</td>
+<td><a href="https://guest:@paddleci.ngrok.io/repository/download/Manylinux1_Cuda90cudnn7avxMkl/.lastSuccessful/paddle.tgz" rel="nofollow">paddle.tgz</a></td>
+</tr>
+</tbody></table>
 ### From source

--- a/paddle/CMakeLists.txt
+++ b/paddle/CMakeLists.txt
 if(NOT WITH_FLUID_ONLY)
  add_subdirectory(legacy/cuda)
  add_subdirectory(legacy/function)
-  add_subdirectory(utils)
+  add_subdirectory(legacy/utils)
  add_subdirectory(legacy/math)
  add_subdirectory(legacy/gserver)
  add_subdirectory(legacy/parameter)
  if(MOBILE_INFERENCE)
-    add_subdirectory(capi)
+    add_subdirectory(legacy/capi)
  else()
    add_subdirectory(legacy/pserver)
-    add_subdirectory(trainer)
+    add_subdirectory(legacy/trainer)
    add_subdirectory(scripts)
    if(WITH_C_API)
-      add_subdirectory(capi)
+      add_subdirectory(legacy/capi)
    endif()
    if(WITH_SWIG_PY)
-      add_subdirectory(api)
+      add_subdirectory(legacy/api)
    endif()
  endif()
 endif()

--- a/paddle/fluid/framework/details/CMakeLists.txt
+++ b/paddle/fluid/framework/details/CMakeLists.txt
@@ -25,11 +25,12 @@ else()
    cc_library(broadcast_op_handle SRCS broadcast_op_handle.cc DEPS op_handle_base scope ddim memory variable_visitor)
 endif()
+cc_library(data_balance_op_handle SRCS data_balance_op_handle.cc DEPS op_handle_base scope lod_tensor)
 cc_library(gather_op_handle SRCS gather_op_handle.cc DEPS op_handle_base scope ddim memory variable_visitor)
 cc_library(fuse_vars_op_handle SRCS fuse_vars_op_handle.cc DEPS op_handle_base scope)
 cc_library(multi_devices_graph_builder SRCS multi_devices_graph_builder.cc DEPS ssa_graph_builder computation_op_handle
-        scale_loss_grad_op_handle rpc_op_handle all_reduce_op_handle reduce_op_handle broadcast_op_handle)
+        scale_loss_grad_op_handle rpc_op_handle all_reduce_op_handle reduce_op_handle broadcast_op_handle data_balance_op_handle)
 cc_library(ssa_graph_builder_factory SRCS ssa_graph_builder_factory.cc DEPS multi_devices_graph_builder ssa_graph_printer ssa_graph_checker)

--- a/paddle/fluid/framework/details/build_strategy.h
+++ b/paddle/fluid/framework/details/build_strategy.h
@@ -33,6 +33,8 @@ struct BuildStrategy {
  GradientScaleStrategy gradient_scale_{GradientScaleStrategy::kCoeffNumDevice};
  std::string debug_graphviz_path_{""};
+  bool enable_data_balance_{true};
 };
 }  // namespace details

--- a/paddle/fluid/framework/details/data_balance_op_handle.cc
+++ b/paddle/fluid/framework/details/data_balance_op_handle.cc
+// Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+#include "paddle/fluid/framework/details/data_balance_op_handle.h"
+#include <algorithm>
+#include "paddle/fluid/framework/details/container_cast.h"
+namespace paddle {
+namespace framework {
+namespace details {
+#ifdef PADDLE_WITH_CUDA
+DataBalanceOpHandle::DataBalanceOpHandle(
+    const std::vector<Scope *> &local_scopes,
+    const std::vector<platform::Place> &places,
+    const platform::NCCLContextMap *ctxs)
+    : local_scopes_(local_scopes), places_(places) {
+  if (ctxs) {
+    for (auto &p : places_) {
+      this->dev_ctxes_[p] = ctxs->DevCtx(p);
+    }
+  }
+}
+#else
+DataBalanceOpHandle::DataBalanceOpHandle(
+    const std::vector<Scope *> &local_scopes,
+    const std::vector<platform::Place> &places)
+    : local_scopes_(local_scopes), places_(places) {}
+#endif
+std::string DataBalanceOpHandle::Name() const { return "data balance"; }
+std::vector<std::array<int, 3>> DataBalanceOpHandle::GetBalancePlan(
+    const std::vector<int> &device_sizes) {
+  int device_num = device_sizes.size();
+  int total_size = 0;
+  int empty_num = 0;
+  std::vector<std::array<int, 2>> size_device_vec;
+  size_device_vec.reserve(device_num);
+  for (int i = 0; i < device_num; ++i) {
+    if (device_sizes[i] == 0) {
+      ++empty_num;
+    }
+    total_size += device_sizes[i];
+    size_device_vec.push_back({{device_sizes[i], i}});
+  }
+  std::vector<std::array<int, 3>> res;
+  if (empty_num == 0) {
+    // No need to do data balance.
+    return res;
+  }
+  if (total_size < device_num) {
+    // No enough data.
+    PADDLE_THROW_EOF();
+  }
+  std::sort(size_device_vec.begin(), size_device_vec.end(),
+            [](const std::array<int, 2> &a, const std::array<int, 2> &b) {
+              return a[0] > b[0];
+            });
+  int expected_device_size = total_size / device_num;
+  int src_idx = 0;
+  for (int dst_idx = device_num - empty_num; dst_idx < device_num; ++dst_idx) {
+    if (size_device_vec[src_idx][0] <= expected_device_size) {
+      ++src_idx;
+      PADDLE_ENFORCE_LT(
+          src_idx, device_num - empty_num,
+          "In current srategy an empty tensor should not be copy source.");
+    }
+    size_device_vec[src_idx][0] -= expected_device_size;
+    size_device_vec[dst_idx][0] += expected_device_size;
+    res.push_back({{size_device_vec[src_idx][1], size_device_vec[dst_idx][1],
+                    expected_device_size}});
+  }
+  return res;
+}
+void DataBalanceOpHandle::RunImpl() {
+  if (places_.size() == 1) {
+    return;
+  }
+  auto in_var_handles = DynamicCast<VarHandle>(inputs_);
+  auto out_var_handles = DynamicCast<VarHandle>(outputs_);
+  PADDLE_ENFORCE(in_var_handles.size() % places_.size() == 0);
+  PADDLE_ENFORCE_EQ(
+      in_var_handles.size(), out_var_handles.size(),
+      "The NoDummyInputSize and NoDummyOutputSize should be equal.");
+  int data_num = in_var_handles.size() / places_.size();
+  WaitInputVarGenerated();
+  std::vector<std::vector<LoDTensor *>> lod_tensors(data_num);
+  std::vector<int> device_sizes;
+  for (int i = 0; i < static_cast<int>(in_var_handles.size()); ++i) {
+    PADDLE_ENFORCE_EQ(in_var_handles[i]->name_, out_var_handles[i]->name_,
+                      "The name of input and output should be equal.");
+    int place_idx = i / data_num;
+    int data_idx = i % data_num;
+    auto *local_scope =
+        local_scopes_[place_idx]->FindVar(kLocalExecScopeName)->Get<Scope *>();
+    auto *tensor_var = local_scope->FindVar(in_var_handles[i]->name_);
+    PADDLE_ENFORCE(tensor_var->IsType<LoDTensor>());
+    auto *tensor = tensor_var->GetMutable<LoDTensor>();
+    lod_tensors[data_idx].push_back(tensor);
+    int ins_size =
+        tensor->lod().empty() ? tensor->dims()[0] : tensor->NumElements();
+    if (data_idx == 0) {
+      device_sizes.emplace_back(ins_size);
+    } else {
+      PADDLE_ENFORCE_EQ(
+          ins_size, device_sizes.at(place_idx),
+          "All data on the same device shall have the same batch size.");
+    }
+  }
+  const auto &balance_plan = GetBalancePlan(device_sizes);
+  for (const auto &trans : balance_plan) {
+    for (int data_idx = 0; data_idx < data_num; ++data_idx) {
+      LoDTensor *src_tensor = lod_tensors[data_idx][trans[0]];
+      LoDTensor *dst_tensor = lod_tensors[data_idx][trans[1]];
+      int trans_ins_size = trans[2];
+      LoD src_lod = src_tensor->lod();
+      int src_ins_size =
+          src_lod.empty() ? src_tensor->dims()[0] : src_tensor->NumElements();
+      int cut_point = src_ins_size - trans_ins_size;
+      if (!src_lod.empty()) {
+        for (auto &level : src_lod) {
+          cut_point = level[cut_point];
+        }
+      }
+      TensorCopySync(src_tensor->Slice(cut_point, src_tensor->dims()[0]),
+                     dst_tensor->place(), dst_tensor);
+      src_tensor->ShareDataWith(src_tensor->Slice(0, cut_point));
+      if (!src_lod.empty()) {
+        dst_tensor->set_lod(SliceInLevel(
+            src_lod, 0, src_ins_size - trans_ins_size, src_ins_size));
+        src_tensor->set_lod(
+            SliceInLevel(src_lod, 0, 0, src_ins_size - trans_ins_size));
+      }
+    }
+  }
+}
+}  // namespace details
+}  // namespace framework
+}  // namespace paddle
--- a/paddle/fluid/framework/details/data_balance_op_handle.h
+++ b/paddle/fluid/framework/details/data_balance_op_handle.h
+// Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
+//
+// Licensed under the Apache License, Version 2.0 (the "License");
+// you may not use this file except in compliance with the License.
+// You may obtain a copy of the License at
+//
+//     http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+#pragma once
+#include <string>
+#include <vector>
+#include "paddle/fluid/framework/details/op_handle_base.h"
+#include "paddle/fluid/framework/lod_tensor.h"
+#include "paddle/fluid/framework/scope.h"
+#ifdef PADDLE_WITH_CUDA
+#include "paddle/fluid/platform/nccl_helper.h"
+#endif
+namespace paddle {
+namespace framework {
+namespace details {
+struct DataBalanceOpHandle : public OpHandleBase {
+ public:
+#ifdef PADDLE_WITH_CUDA
+  DataBalanceOpHandle(const std::vector<Scope *> &local_scopes,
+                      const std::vector<platform::Place> &places,
+                      const platform::NCCLContextMap *ctxs);
+#else
+  DataBalanceOpHandle(const std::vector<Scope *> &local_scopes,
+                      const std::vector<platform::Place> &places);
+#endif
+  std::string Name() const override;
+  bool IsMultiDeviceTransfer() override { return false; };
+ protected:
+  void RunImpl() override;
+ private:
+  // std::vector<(src_dev_id, dst_dev_id, trans_size)>
+  std::vector<std::array<int, 3>> GetBalancePlan(
+      const std::vector<int> &batch_size_per_device);
+  const std::vector<Scope *> local_scopes_;
+  const std::vector<platform::Place> places_;
+};
+}  // namespace details
+}  // namespace framework
+}  // namespace paddle
--- a/paddle/fluid/framework/details/fetch_op_handle.cc
+++ b/paddle/fluid/framework/details/fetch_op_handle.cc
@@ -67,8 +67,8 @@ void FetchOpHandle::RunImpl() {
 #endif
    } else {
      tensors_[i].ShareDataWith(t);
-      tensors_[i].set_lod(t.lod());
    }
+    tensors_[i].set_lod(t.lod());
  }
  this->WaitAndMergeCPUTensors();

--- a/paddle/fluid/framework/details/multi_devices_graph_builder.cc
+++ b/paddle/fluid/framework/details/multi_devices_graph_builder.cc
@@ -20,6 +20,7 @@
 #include "paddle/fluid/framework/details/all_reduce_op_handle.h"
 #include "paddle/fluid/framework/details/broadcast_op_handle.h"
 #include "paddle/fluid/framework/details/computation_op_handle.h"
+#include "paddle/fluid/framework/details/data_balance_op_handle.h"
 #include "paddle/fluid/framework/details/multi_devices_graph_builder.h"
 #include "paddle/fluid/framework/details/reduce_op_handle.h"
 #include "paddle/fluid/framework/details/rpc_op_handle.h"
@@ -215,7 +216,14 @@ std::unique_ptr<SSAGraph> MultiDevSSAGraphBuilder::Build(
      } else {
        // This op runs on all devices, and its output may have parameter's
        // gradients.
-        CreateComputationalOps(&result, *op, places_.size());
+        if (op->Type() == "read" && strategy_.enable_data_balance_) {
+          op->SetAttr("throw_eof_exp", false);
+          CreateComputationalOps(&result, *op, places_.size());
+          const auto &data_var_names = op->Output("Out");
+          InsertDataBalanceOp(&result, data_var_names);
+        } else {
+          CreateComputationalOps(&result, *op, places_.size());
+        }
        if (!is_forwarding && places_.size() > 1) {
          // Currently, we assume that once gradient is generated, it can be
@@ -360,6 +368,29 @@ void MultiDevSSAGraphBuilder::InsertAllReduceOp(SSAGraph *result,
  }
 }
+void MultiDevSSAGraphBuilder::InsertDataBalanceOp(
+    SSAGraph *result, const std::vector<std::string> &datas) const {
+#ifdef PADDLE_WITH_CUDA
+  result->ops_.emplace_back(
+      new DataBalanceOpHandle(local_scopes_, places_, nccl_ctxs_));
+#else
+  result->ops_.emplace_back(new DataBalanceOpHandle(local_scopes_, places_));
+#endif
+  auto *op_handle = result->ops_.back().get();
+  for (size_t i = 0; i < places_.size(); ++i) {
+    auto &p = places_[i];
+    SetCommunicationContext(op_handle, p);
+    for (const std::string &d_name : datas) {
+      auto &vars = result->vars_[i][d_name];
+      PADDLE_ENFORCE(!vars.empty());
+      op_handle->AddInput(vars.back().get());
+      auto var = new VarHandle(vars.size(), i, d_name, p);
+      vars.emplace_back(var);
+      op_handle->AddOutput(var);
+    }
+  }
+}
 bool MultiDevSSAGraphBuilder::IsParameterGradientOnce(
    const std::string &og,
    std::unordered_set<std::string> *og_has_been_broadcast) const {
@@ -512,7 +543,8 @@ void MultiDevSSAGraphBuilder::CreateRPCOp(SSAGraph *result,
    op_dev_id = GetVarDeviceID(op.InputArgumentNames()[0]);
    // the variable name which contains .block means it was splited by
    // split_byref op
-    // so that we can balance the variable blocks to all the pserver instances.
+    // so that we can balance the variable blocks to all the pserver
+    // instances.
    if (strategy_.reduce_ == BuildStrategy::ReduceStrategy::kAllReduce &&
        op.InputArgumentNames()[0].find(".block") == std::string::npos) {
      op_dev_id = GetAppropriateDeviceID(op.InputArgumentNames());

--- a/paddle/fluid/framework/details/multi_devices_graph_builder.h
+++ b/paddle/fluid/framework/details/multi_devices_graph_builder.h
@@ -101,6 +101,9 @@ class MultiDevSSAGraphBuilder : public SSAGraphBuilder {
  void InsertAllReduceOp(SSAGraph *result, const std::string &og) const;
+  void InsertDataBalanceOp(SSAGraph *result,
+                           const std::vector<std::string> &datas) const;
  void CreateBroadcastOp(SSAGraph *result, const std::string &p_name,
                         size_t src_dev_id) const;

--- a/paddle/fluid/framework/details/op_handle_base.cc
+++ b/paddle/fluid/framework/details/op_handle_base.cc
@@ -58,8 +58,10 @@ void OpHandleBase::Run(bool use_cuda) {
 void OpHandleBase::RecordWaitEventOnCtx(platform::DeviceContext *waited_ctx) {
 #ifdef PADDLE_WITH_CUDA
+  PADDLE_ENFORCE_NOT_NULL(waited_ctx);
  if (platform::is_cpu_place(waited_ctx->GetPlace()) || events_.empty()) {
    for (auto &dev_ctx : dev_ctxes_) {
+      PADDLE_ENFORCE_NOT_NULL(dev_ctx.second);
      dev_ctx.second->Wait();
    }
  } else {
@@ -122,16 +124,10 @@ void OpHandleBase::RunAndRecordEvent(const std::function<void()> &callback) {
 #ifdef PADDLE_WITH_CUDA
  if (!events_.empty()) {  // Use event
    std::function<void()> method = callback;
-    // NOTE(zcd): device context must be ordered here because RecordEvent
-    // will use a mutex to ensure the safe of multi-threads.
-    std::map<platform::DeviceContext *, platform::Place> ordered_ctxes;
    for (auto &p : dev_ctxes_) {
-      ordered_ctxes.emplace(p.second, p.first);
-    }
-    for (auto &p : ordered_ctxes) {
      method = [method, p, this]() {
-        static_cast<platform::CUDADeviceContext *>(p.first)->RecordEvent(
+        static_cast<platform::CUDADeviceContext *>(p.second)->RecordEvent(
-            events_.at(boost::get<platform::CUDAPlace>(p.second).device),
+            events_.at(boost::get<platform::CUDAPlace>(p.first).device),
            method);
      };
    }

--- a/paddle/fluid/framework/details/op_handle_base.h
+++ b/paddle/fluid/framework/details/op_handle_base.h
@@ -13,9 +13,9 @@
 // limitations under the License.
 #pragma once
+#include <map>
 #include <string>
 #include <vector>
 #include "paddle/fluid/framework/details/var_handle.h"
 #include "paddle/fluid/platform/device_context.h"
 #include "paddle/fluid/platform/macros.h"
@@ -92,9 +92,7 @@ class OpHandleBase {
  std::vector<VarHandleBase *> inputs_;
  std::vector<VarHandleBase *> outputs_;
-  std::unordered_map<platform::Place, platform::DeviceContext *,
+  std::map<platform::Place, platform::DeviceContext *> dev_ctxes_;
-                     platform::PlaceHash>
-      dev_ctxes_;
 #ifdef PADDLE_WITH_CUDA
  std::unordered_map<int, cudaEvent_t> events_;

--- a/paddle/fluid/framework/details/reduce_and_gather.h
+++ b/paddle/fluid/framework/details/reduce_and_gather.h
@@ -54,8 +54,7 @@ struct ReduceLoDTensor {
 inline void GatherSelectedRows(
    const std::vector<const SelectedRows *> &src_selecte_rows_,
    const std::vector<platform::Place> &in_places,
-    const std::unordered_map<platform::Place, platform::DeviceContext *,
+    const std::map<platform::Place, platform::DeviceContext *> &dev_ctxes,
-                             platform::PlaceHash> &dev_ctxes,
    const platform::Place &out_place, SelectedRows *dst_selecte_rows) {
  PADDLE_ENFORCE(!src_selecte_rows_.empty());

--- a/paddle/fluid/framework/details/threaded_ssa_graph_executor.cc
+++ b/paddle/fluid/framework/details/threaded_ssa_graph_executor.cc
@@ -98,9 +98,18 @@ FeedFetchList ThreadedSSAGraphExecutor::Run(
    if (timeout) {
      std::lock_guard<std::mutex> l(exception_mu_);
      if (exception_) {
-        auto exp = *exception_;
+        std::exception *exp = exception_.get();
-        exception_.reset();
+        if (dynamic_cast<platform::EOFException *>(exp)) {
-        throw exp;
+          auto e = *static_cast<platform::EOFException *>(exp);
+          exception_.reset();
+          throw e;
+        } else if (dynamic_cast<platform::EnforceNotMet *>(exp)) {
+          auto e = *static_cast<platform::EnforceNotMet *>(exp);
+          exception_.reset();
+          throw e;
+        } else {
+          LOG(FATAL) << "Unknown exception.";
+        }
      } else {
        continue;
      }
@@ -199,6 +208,12 @@ void ThreadedSSAGraphExecutor::RunOp(
      running_ops_--;
      ready_var_q->Extend(op->Outputs());
      VLOG(10) << op << " " << op->Name() << "Signal posted";
+    } catch (platform::EOFException ex) {
+      std::lock_guard<std::mutex> l(exception_mu_);
+      // EOFException will not cover up existing EnforceNotMet.
+      if (exception_.get() == nullptr) {
+        exception_.reset(new platform::EOFException(ex));
+      }
    } catch (platform::EnforceNotMet ex) {
      std::lock_guard<std::mutex> l(exception_mu_);
      exception_.reset(new platform::EnforceNotMet(ex));

--- a/paddle/fluid/framework/details/threaded_ssa_graph_executor.h
+++ b/paddle/fluid/framework/details/threaded_ssa_graph_executor.h
@@ -57,7 +57,7 @@ class ThreadedSSAGraphExecutor : public SSAGraphExecutor {
  std::vector<platform::Place> places_;
  platform::DeviceContextPool fetch_ctxs_;
  std::mutex exception_mu_;
-  std::unique_ptr<platform::EnforceNotMet> exception_;
+  std::unique_ptr<std::exception> exception_;
  std::atomic<int> running_ops_;
  void InsertPendingOp(std::unordered_map<OpHandleBase *, size_t> *pending_ops,

--- a/paddle/fluid/framework/executor.cc
+++ b/paddle/fluid/framework/executor.cc
@@ -46,9 +46,16 @@ ExecutorPrepareContext::~ExecutorPrepareContext() {
 Executor::Executor(const platform::Place& place) : place_(place) {}
 #ifdef PADDLE_WITH_DISTRIBUTE
-void Executor::Complete() {
+void Executor::BeginPass() {
-  ::paddle::operators::distributed::RPCClient::GetInstance<RPCCLIENT_T>()
+  ::paddle::operators::distributed::RPCClient::GetInstance<
-      ->SendComplete();
+      ::paddle::operators::distributed::GRPCClient>()
+      ->SendBeginPass();
+}
+void Executor::EndPass() {
+  ::paddle::operators::distributed::RPCClient::GetInstance<
+      ::paddle::operators::distributed::GRPCClient>()
+      ->SendEndPass();
 }
 #endif

--- a/paddle/fluid/framework/executor.h
+++ b/paddle/fluid/framework/executor.h
@@ -46,9 +46,14 @@ class Executor {
 #ifdef PADDLE_WITH_DISTRIBUTE
  /*
-   * Sending signal to pserver to mark current trainer stop.
+   * Sending signal to pserver to mark current pass started.
   */
-  void Complete();
+  void BeginPass();
+  /*
+   * Sending signal to pserver to mark current pass finished.
+   */
+  void EndPass();
 #endif
  /* @Brief

--- a/paddle/fluid/framework/lod_tensor.cc
+++ b/paddle/fluid/framework/lod_tensor.cc
@@ -90,6 +90,7 @@ std::string LoDToString(const LoD &lod) {
 LoD SliceInLevel(const LoD &in, size_t level, size_t elem_begin,
                 size_t elem_end) {
  PADDLE_ENFORCE_LT(level, in.size());
+  PADDLE_ENFORCE_LT(elem_begin, elem_end);
  PADDLE_ENFORCE_LT(elem_end, in[level].size());
  LoD res;
@@ -393,6 +394,7 @@ void LoDTensor::MergeLoDTensor(
    new_dim[0] += t->dims()[0];
    auto &lod = t->lod();
+    PADDLE_ENFORCE_EQ(new_lod.size(), lod.size());
    for (size_t j = 0; j < lod.size(); ++j) {
      auto &sub_lod = new_lod[j];
      auto &offset = sub_lod.back();

--- a/paddle/fluid/framework/op_registry.h
+++ b/paddle/fluid/framework/op_registry.h
@@ -76,6 +76,20 @@ class OpRegistry {
 template <typename PlaceType, bool at_end, size_t I, typename... KernelType>
 struct OpKernelRegistrarFunctor;
+template <typename PlaceType, typename T, typename Func>
+inline void RegisterKernelClass(const char* op_type, const char* library_type,
+                                Func func) {
+  std::string library(library_type);
+  std::string data_layout = "ANYLAYOUT";
+  if (library == "MKLDNN") {
+    data_layout = "MKLDNNLAYOUT";
+  }
+  OpKernelType key(ToDataType(std::type_index(typeid(T))), PlaceType(),
+                   StringToDataLayout(data_layout),
+                   StringToLibraryType(library_type));
+  OperatorWithKernel::AllOpKernels()[op_type][key] = func;
+}
 template <typename PlaceType, size_t I, typename... KernelTypes>
 struct OpKernelRegistrarFunctor<PlaceType, false, I, KernelTypes...> {
  using KERNEL_TYPE =
@@ -83,16 +97,10 @@ struct OpKernelRegistrarFunctor<PlaceType, false, I, KernelTypes...> {
  void operator()(const char* op_type, const char* library_type) const {
    using T = typename KERNEL_TYPE::ELEMENT_TYPE;
-    std::string library(library_type);
+    RegisterKernelClass<PlaceType, T>(
-    std::string data_layout = "ANYLAYOUT";
+        op_type, library_type, [](const framework::ExecutionContext& ctx) {
-    if (library == "MKLDNN") {
+          KERNEL_TYPE().Compute(ctx);
-      data_layout = "MKLDNNLAYOUT";
+        });
-    }
-    OpKernelType key(ToDataType(std::type_index(typeid(T))), PlaceType(),
-                     StringToDataLayout(data_layout),
-                     StringToLibraryType(library_type));
-    OperatorWithKernel::AllOpKernels()[op_type][key].reset(new KERNEL_TYPE);
    constexpr auto size = std::tuple_size<std::tuple<KernelTypes...>>::value;
    OpKernelRegistrarFunctor<PlaceType, I + 1 == size, I + 1, KernelTypes...>
        func;
@@ -116,6 +124,47 @@ class OpKernelRegistrar : public Registrar {
  }
 };
+template <typename PlaceType, bool at_end, size_t I, typename... KernelType>
+struct OpKernelRegistrarFunctorEx;
+template <typename PlaceType, typename... DataTypeAndKernelType>
+class OpKernelRegistrarEx : public Registrar {
+ public:
+  explicit OpKernelRegistrarEx(const char* op_type, const char* library_type) {
+    OpKernelRegistrarFunctorEx<PlaceType, false, 0, DataTypeAndKernelType...>
+        func;
+    func(op_type, library_type);
+  }
+};
+template <typename PlaceType, size_t I, typename... DataTypeAndKernelType>
+struct OpKernelRegistrarFunctorEx<PlaceType, true, I,
+                                  DataTypeAndKernelType...> {
+  void operator()(const char* op_type, const char* library_type) const {}
+};
+template <typename PlaceType, size_t I, typename... DataTypeAndKernelType>
+struct OpKernelRegistrarFunctorEx<PlaceType, false, I,
+                                  DataTypeAndKernelType...> {
+  using Functor =
+      typename std::tuple_element<I + 1,
+                                  std::tuple<DataTypeAndKernelType...>>::type;
+  using T =
+      typename std::tuple_element<I,
+                                  std::tuple<DataTypeAndKernelType...>>::type;
+  void operator()(const char* op_type, const char* library_type) const {
+    RegisterKernelClass<PlaceType, T>(op_type, library_type, Functor());
+    constexpr auto size =
+        std::tuple_size<std::tuple<DataTypeAndKernelType...>>::value;
+    OpKernelRegistrarFunctorEx<PlaceType, I + 2 >= size, I + 2,
+                               DataTypeAndKernelType...>
+        func;
+    func(op_type, library_type);
+  }
+};
 /**
 * check if MACRO is used in GLOBAL NAMESPACE.
 */
@@ -174,6 +223,25 @@ class OpKernelRegistrar : public Registrar {
 #define REGISTER_OP_CPU_KERNEL(op_type, ...) \
  REGISTER_OP_KERNEL(op_type, CPU, ::paddle::platform::CPUPlace, __VA_ARGS__)
+#define REGISTER_OP_KERNEL_EX(op_type, library_type, place_class, ...)      \
+  STATIC_ASSERT_GLOBAL_NAMESPACE(                                           \
+      __reg_op_kernel_##op_type##_##library_type##__,                       \
+      "REGISTER_OP_KERNEL_EX must be called in global namespace");          \
+  static ::paddle::framework::OpKernelRegistrarEx<place_class, __VA_ARGS__> \
+      __op_kernel_registrar_##op_type##_##library_type##__(#op_type,        \
+                                                           #library_type);  \
+  int TouchOpKernelRegistrar_##op_type##_##library_type() {                 \
+    __op_kernel_registrar_##op_type##_##library_type##__.Touch();           \
+    return 0;                                                               \
+  }
+#define REGISTER_OP_CUDA_KERNEL_FUNCTOR(op_type, ...)                 \
+  REGISTER_OP_KERNEL_EX(op_type, CUDA, ::paddle::platform::CUDAPlace, \
+                        __VA_ARGS__)
+#define REGISTER_OP_CPU_KERNEL_FUNCTOR(op_type, ...) \
+  REGISTER_OP_KERNEL_EX(op_type, CPU, ::paddle::platform::CPUPlace, __VA_ARGS__)
 /**
 * Macro to mark what Operator and Kernel
 * we will use and tell the compiler to

--- a/paddle/fluid/framework/operator.cc
+++ b/paddle/fluid/framework/operator.cc
@@ -651,7 +651,7 @@ void OperatorWithKernel::RunImpl(const Scope& scope,
    dev_ctx = pool.Get(expected_kernel_key.place_);
  }
-  kernel_iter->second->Compute(ExecutionContext(*this, exec_scope, *dev_ctx));
+  kernel_iter->second(ExecutionContext(*this, exec_scope, *dev_ctx));
  if (!transfered_inplace_vars.empty()) {
    // there is inplace variable has been transfered.

--- a/paddle/fluid/framework/operator.h
+++ b/paddle/fluid/framework/operator.h
@@ -347,9 +347,9 @@ class OpKernel : public OpKernelBase {
 class OperatorWithKernel : public OperatorBase {
 public:
+  using OpKernelFunc = std::function<void(const ExecutionContext&)>;
  using OpKernelMap =
-      std::unordered_map<OpKernelType, std::unique_ptr<OpKernelBase>,
+      std::unordered_map<OpKernelType, OpKernelFunc, OpKernelType::Hash>;
-                         OpKernelType::Hash>;
  OperatorWithKernel(const std::string& type, const VariableNameMap& inputs,
                     const VariableNameMap& outputs, const AttributeMap& attrs)

--- a/paddle/fluid/operators/distributed/grpc_client.cc
+++ b/paddle/fluid/operators/distributed/grpc_client.cc
@@ -35,10 +35,20 @@ void GRPCClient::InitEventLoop() {
  client_thread_.reset(new std::thread(std::bind(&GRPCClient::Proceed, this)));
 }
-void GRPCClient::SendComplete() {
+void GRPCClient::SendBeginPass() {
  for (auto& it : channels_) {
-    this->AsyncSendComplete(it.first);
+    VLOG(3) << "send begin pass to: " << it.first;
+    this->AsyncSendBeginPass(it.first);
  }
+  this->Wait();
+}
+void GRPCClient::SendEndPass() {
+  for (auto& it : channels_) {
+    VLOG(3) << "send end pass to " << it.first;
+    this->AsyncSendEndPass(it.first);
+  }
+  this->Wait();
 }
 GRPCClient::~GRPCClient() {
@@ -226,19 +236,32 @@ void GRPCClient::AsyncSendFetchBarrier(const std::string& ep,
  req_count_++;
 }
-void GRPCClient::AsyncSendComplete(const std::string& ep, int64_t time_out) {
+void GRPCClient::AsyncSendBeginPass(const std::string& ep, int64_t time_out) {
  const auto ch = GetChannel(ep);
  BatchBarrierProcessor* s = new BatchBarrierProcessor(ch);
  s->Prepare(time_out);
  sendrecv::VariableMessage req;
-  req.set_varname(COMPLETE_MESSAGE);
+  req.set_varname(BEGIN_PASS_MESSAGE);
  auto rpc = s->stub_->AsyncSendVariable(s->context_.get(), req, &cq_);
  rpc->Finish(&s->reply_, &s->status_, reinterpret_cast<void*>(s));
  req_count_++;
 }
+void GRPCClient::AsyncSendEndPass(const std::string& ep, int64_t time_out) {
+  const auto ch = GetChannel(ep);
+  FetchBarrierProcessor* s = new FetchBarrierProcessor(ch);
+  s->Prepare(time_out);
+  sendrecv::VariableMessage req;
+  req.set_varname(END_PASS_MESSAGE);
+  auto rpc = s->stub_->AsyncGetVariable(s->context_.get(), req, &cq_);
+  rpc->Finish(&s->reply_, &s->status_, reinterpret_cast<void*>(s));
+  req_count_++;
+}
 void GRPCClient::AsyncCheckpointNotify(const std::string& ep,
                                       const std::string& dir,
                                       int64_t time_out) {

--- a/paddle/fluid/operators/distributed/grpc_client.h
+++ b/paddle/fluid/operators/distributed/grpc_client.h
@@ -77,11 +77,12 @@ class BaseProcessor {
    context_.reset(new grpc::ClientContext());
    var_h_ = var_info;
    context_->set_wait_for_ready(true);
+    if (time_out) {
-    std::chrono::system_clock::time_point deadline =
+      std::chrono::system_clock::time_point deadline =
-        std::chrono::system_clock::now() + std::chrono::milliseconds(time_out);
+          std::chrono::system_clock::now() +
+          std::chrono::milliseconds(time_out);
-    context_->set_deadline(deadline);
+      context_->set_deadline(deadline);
+    }
  }
  virtual void Prepare(int64_t time_out) {
@@ -214,9 +215,17 @@ class GRPCClient : public RPCClient {
  void AsyncCheckpointNotify(const std::string& ep, const std::string& dir,
                             int64_t time_out = FLAGS_rpc_deadline) override;
+  void AsyncSendBeginPass(const std::string& ep,
+                          int64_t time_out = FLAGS_rpc_deadline) override;
+  void AsyncSendEndPass(const std::string& ep,
+                        int64_t time_out = FLAGS_rpc_deadline) override;
  void Wait() override;
-  void SendComplete() override;
+  void SendBeginPass() override;
+  void SendEndPass() override;
 protected:
  void InitImpl() override;
@@ -227,9 +236,6 @@ class GRPCClient : public RPCClient {
  void Proceed();
-  void AsyncSendComplete(const std::string& ep,
-                         int64_t time_out = FLAGS_rpc_deadline);
  std::shared_ptr<grpc::Channel> GetChannel(const std::string& ep);
 private:

--- a/paddle/fluid/operators/distributed/request_handler.h
+++ b/paddle/fluid/operators/distributed/request_handler.h
@@ -37,11 +37,14 @@ constexpr char kRequestSend[] = "RequestSend";
 constexpr char kRequestGet[] = "RequestGet";
 constexpr char kRequestPrefetch[] = "RequestPrefetch";
 constexpr char kRequestCheckpoint[] = "RequestCheckpoint";
+constexpr char kRequestPassBarrier[] = "RequestPassBarrier";
 #define LISTEN_TERMINATE_MESSAGE "TERMINATE@RECV"
 #define BATCH_BARRIER_MESSAGE "BATCH_BARRIER@RECV"
 #define FETCH_BARRIER_MESSAGE "FETCH_BARRIER@RECV"
 #define COMPLETE_MESSAGE "COMPLETE@RECV"
+#define BEGIN_PASS_MESSAGE "BEGIN_PASS@RECV"
+#define END_PASS_MESSAGE "END_PASS@RECV"
 #define CHECKPOINT_SAVE_MESSAGE "SAVE@CHECKPOINTNOTIFY"
 #define CHECKPOINT_LOAD_MESSAGE "LOAD@CHECKPOINTNOTIFY"

--- a/paddle/fluid/operators/distributed/request_handler_impl.cc
+++ b/paddle/fluid/operators/distributed/request_handler_impl.cc
@@ -55,14 +55,14 @@ bool RequestSendHandler::Handle(const std::string& varname,
  if (varname == BATCH_BARRIER_MESSAGE) {
    VLOG(3) << "sync: recv batch barrier message";
    rpc_server_->IncreaseBatchBarrier(kRequestSend);
-  } else if (varname == COMPLETE_MESSAGE) {
+  } else if (varname == BEGIN_PASS_MESSAGE) {
-    VLOG(3) << "sync: recv complete message";
+    VLOG(3) << "sync: recv begin pass message";
-    rpc_server_->DecreaseClientNum();
+    rpc_server_->WaitCond(kRequestSend);
+    rpc_server_->BeginPass();
  } else {
    VLOG(3) << "sync: received var_name: " << varname;
-    if (sync_mode_) {
+    rpc_server_->WaitCond(kRequestSend);
-      rpc_server_->WaitCond(kRequestSend);
+    VLOG(3) << "sync: processing received var: " << varname;
-    }
    if (invar == nullptr) {
      LOG(ERROR) << "sync: Can not find server side var: " << varname;
@@ -91,21 +91,21 @@ bool RequestGetHandler::Handle(const std::string& varname,
                               framework::Variable** outvar,
                               const std::string& out_var_name) {
  VLOG(4) << "RequestGetHandler:" << varname;
+  if (sync_mode_) {
-  if (varname != FETCH_BARRIER_MESSAGE) {
+    if (varname == FETCH_BARRIER_MESSAGE) {
-    if (sync_mode_) {
+      VLOG(3) << "sync: recv fetch barrier message";
+      rpc_server_->IncreaseBatchBarrier(kRequestGet);
+    } else if (varname == END_PASS_MESSAGE) {
+      rpc_server_->EndPass();
+    } else {
      rpc_server_->WaitCond(kRequestGet);
+      *outvar = scope_->FindVar(varname);
+    }
+  } else {
+    if (varname != FETCH_BARRIER_MESSAGE && varname != END_PASS_MESSAGE) {
+      *outvar = scope_->FindVar(varname);
    }
-    *outvar = scope_->FindVar(varname);
-    return true;
-  }
-  // FETCH_BARRIER_MESSAGE
-  if (sync_mode_) {
-    VLOG(3) << "sync: recv fetch barrier message";
-    rpc_server_->IncreaseBatchBarrier(kRequestGet);
  }
  return true;
 }

--- a/paddle/fluid/operators/distributed/rpc_client.h
+++ b/paddle/fluid/operators/distributed/rpc_client.h
@@ -60,10 +60,17 @@ class RPCClient {
                                     const std::string& dir,
                                     int64_t time_out = FLAGS_rpc_deadline) = 0;
-  // SendComplete tells all the server that current trainer have no more data
+  virtual void AsyncSendBeginPass(const std::string& ep,
-  // to train, so that the pserver can reduce it's barrier count, and continue
+                                  int64_t time_out = FLAGS_rpc_deadline) = 0;
-  // to train with other trainers.
-  virtual void SendComplete() = 0;
+  virtual void AsyncSendEndPass(const std::string& ep,
+                                int64_t time_out = FLAGS_rpc_deadline) = 0;
+  // BeginePass/EndPass tells all the pserver that start/end a pass, so that
+  // the pserver can increase/reduce it's barrier count, and continue to train
+  // with other trainers.
+  virtual void SendBeginPass() = 0;
+  virtual void SendEndPass() = 0;
  virtual void Wait() = 0;

--- a/paddle/fluid/operators/distributed/rpc_server.cc
+++ b/paddle/fluid/operators/distributed/rpc_server.cc
@@ -44,7 +44,8 @@ void RPCServer::SavePort() const {
 void RPCServer::WaitBarrier(const std::string& rpc_name) {
  std::unique_lock<std::mutex> lock(this->mutex_);
  barrier_cond_.wait(lock, [this, &rpc_name] {
-    return (barrier_counter_[rpc_name] >= client_num_ || exit_flag_.load());
+    return ((barrier_counter_[rpc_name] == client_num_ && client_num_ != 0) ||
+            exit_flag_.load());
  });
  VLOG(3) << "batch_barrier_: " << rpc_name << " "
@@ -63,10 +64,25 @@ void RPCServer::IncreaseBatchBarrier(const std::string rpc_name) {
  }
 }
-void RPCServer::DecreaseClientNum() {
+void RPCServer::BeginPass() {
+  VLOG(4) << "RPCServer begin increase pass barrier";
+  {
+    std::unique_lock<std::mutex> lock(mutex_);
+    client_num_++;
+    VLOG(4) << "increase client_num to: " << client_num_;
+  }
+  barrier_cond_.notify_all();
+}
+void RPCServer::EndPass() {
+  VLOG(4) << "RPCServer begin increase pass barrier";
  {
    std::unique_lock<std::mutex> lock(mutex_);
    client_num_--;
+    VLOG(4) << "decrease client_num to: " << client_num_;
+    if (cur_cond_.load() == rpc_cond_map_[kRequestGet]) {
+      barrier_counter_[kRequestGet]--;
+    }
  }
  barrier_cond_.notify_all();
 }

--- a/paddle/fluid/operators/distributed/rpc_server.h
+++ b/paddle/fluid/operators/distributed/rpc_server.h
@@ -43,6 +43,9 @@ class RPCServer {
  bool IsExit() { return exit_flag_.load(); }
  int GetSelectedPort() const { return selected_port_; }
+  int GetClientNum() const;
  void SavePort() const;
  // RegisterRPC, register the rpc method name to a handler
@@ -60,7 +63,10 @@ class RPCServer {
  void SetCond(const std::string& rpc_name);
  void WaitCond(const std::string& rpc_name);
  void IncreaseBatchBarrier(const std::string rpc_name);
-  void DecreaseClientNum();
+  void BeginPass();
+  void EndPass();
  void ResetBarrierCounter();
 protected:

--- a/paddle/fluid/operators/fc_mkldnn_op.cc
+++ b/paddle/fluid/operators/fc_mkldnn_op.cc
@@ -115,6 +115,7 @@ class MKLDNNMemory {
 template <typename T>
 class FCMKLDNNOpKernel : public paddle::framework::OpKernel<T> {
+ public:
  void Compute(const paddle::framework::ExecutionContext& ctx) const override {
    PADDLE_ENFORCE(paddle::platform::is_cpu_place(ctx.GetPlace()),
                   "It must use CPUPlace.");

--- a/paddle/fluid/operators/positive_negative_pair_op.h
+++ b/paddle/fluid/operators/positive_negative_pair_op.h
@@ -14,7 +14,7 @@ limitations under the License. */
 #include <vector>
 #include "paddle/fluid/framework/eigen.h"
 #include "paddle/fluid/framework/op_registry.h"
-#include "paddle/utils/Logging.h"
+#include "paddle/legacy/utils/Logging.h"
 namespace paddle {
 namespace operators {

--- a/paddle/fluid/operators/read_op.cc
+++ b/paddle/fluid/operators/read_op.cc
@@ -66,9 +66,19 @@ class ReadOp : public framework::OperatorBase {
    std::vector<std::string> out_arg_names = Outputs("Out");
    std::vector<framework::LoDTensor> ins;
    reader->ReadNext(&ins);
-    PADDLE_ENFORCE(!ins.empty(), "There is no next data.");
+    if (ins.empty()) {
+      if (Attr<bool>("throw_eof_exp")) {
+        PADDLE_THROW_EOF();
+      } else {
+        ins.resize(out_arg_names.size());
+        for (auto& tensor : ins) {
+          // data type is not important for subsequent DataBalanceOpHandle
+          tensor.mutable_data<float>(framework::make_ddim({0}), dev_place);
+        }
+      }
+    }
    PADDLE_ENFORCE_EQ(ins.size(), out_arg_names.size());
-    for (size_t i = 0; i < ins.size(); ++i) {
+    for (size_t i = 0; i < out_arg_names.size(); ++i) {
      auto* out =
          scope.FindVar(out_arg_names[i])->GetMutable<framework::LoDTensor>();
      out->ShareDataWith(ins[i]);
@@ -82,6 +92,10 @@ class ReadOpMaker : public framework::OpProtoAndCheckerMaker {
  void Make() override {
    AddInput("Reader", "(ReaderHolder) The executed reader.");
    AddOutput("Out", "(LoDTensor) The output data.").AsDuplicable();
+    AddAttr<bool>("throw_eof_exp",
+                  "If set true, an exception will be thrown when the Reader "
+                  "yields empty (which means there is no next data).")
+        .SetDefault(true);
    AddComment(R"DOC(
      Read Operator

--- a/paddle/fluid/operators/reshape_op.cc
+++ b/paddle/fluid/operators/reshape_op.cc
@@ -12,14 +12,108 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
-#include "paddle/fluid/operators/reshape_op.h"
 #include <string>
 #include <vector>
+#include "paddle/fluid/framework/op_registry.h"
 namespace paddle {
 namespace operators {
+class ReshapeOp : public framework::OperatorWithKernel {
+ public:
+  ReshapeOp(const std::string &type, const framework::VariableNameMap &inputs,
+            const framework::VariableNameMap &outputs,
+            const framework::AttributeMap &attrs)
+      : OperatorWithKernel(type, inputs, outputs, attrs) {}
+  void InferShape(framework::InferShapeContext *ctx) const override {
+    PADDLE_ENFORCE(ctx->HasInput("X"),
+                   "Input(X) of ReshapeOp should not be null.");
+    PADDLE_ENFORCE(ctx->HasOutput("Out"),
+                   "Output(Out) of ReshapeOp should not be null.");
+    const std::vector<int> &shape = ctx->Attrs().Get<std::vector<int>>("shape");
+    PADDLE_ENFORCE(!shape.empty(),
+                   "The shape information must be set by Attr(shape).");
+    if (ctx->HasInput("Shape") && ctx->IsRuntime()) {
+      // If true, set the shape of Output(Out) according to Input(Shape) in
+      // ReshapeKernel with ExecutionContext. Also check LoD in ReshapeKernel.
+      ctx->ShareLoD("X", /*->*/ "Out");
+      return;
+    }
+    auto x_dims = ctx->GetInputDim("X");
+    auto out_dims = ValidateShape(shape, x_dims);
+    ctx->SetOutputDim("Out", out_dims);
+    if (x_dims[0] == out_dims[0]) {
+      // Only pass LoD when the first dimension of output and Input(X)
+      // are the same.
+      ctx->ShareLoD("X", /*->*/ "Out");
+    }
+  }
+  static framework::DDim ValidateShape(const std::vector<int> shape,
+                                       const framework::DDim &in_dims) {
+    const int64_t in_size = framework::product(in_dims);
+    // only one dimension can be set to -1, whose size will be automatically
+    // infered.
+    const int64_t unk_dim_val = -1;
+    const int64_t copy_dim_val = 0;
+    std::vector<int64_t> output_shape(shape.size(), 0);
+    int64_t capacity = 1;
+    int unk_dim_idx = -1;
+    for (size_t i = 0; i < shape.size(); ++i) {
+      if (shape[i] == unk_dim_val) {
+        PADDLE_ENFORCE(
+            unk_dim_idx == -1,
+            "Only one input dimension of Attr(shape) can be unknown.");
+        unk_dim_idx = i;
+      } else if (shape[i] == copy_dim_val) {
+        PADDLE_ENFORCE(
+            static_cast<int>(i) < in_dims.size(),
+            "The index of dimension to copy from input shape must be less "
+            "than the size of input shape.");
+      } else {
+        PADDLE_ENFORCE(
+            shape[i] > 0,
+            "Each input dimension of Attr(shape) must not be negtive except "
+            "one unknown dimension.");
+      }
+      capacity *= (shape[i] ? shape[i] : in_dims[i]);
+      output_shape[i] =
+          (shape[i] ? static_cast<int64_t>(shape[i]) : in_dims[i]);
+    }
+    if (unk_dim_idx != -1) {
+      if (in_size > 0) {
+        // in_size < 0 and is un-determinate in compile time, skip the check,
+        // for example, in_dims = [-1, 8, 1, 1], shape = [-1, 3, 8],
+        // capacity = -24, in_size = -8, output_shape[0] = 0
+        // the following check will fail.
+        output_shape[unk_dim_idx] = -in_size / capacity;
+        PADDLE_ENFORCE_EQ(output_shape[unk_dim_idx] * capacity, -in_size,
+                          "Invalid shape is given.");
+      } else {
+        output_shape[unk_dim_idx] = -1;
+      }
+    } else {
+      PADDLE_ENFORCE_EQ(capacity, in_size, "Invalid shape is given.");
+    }
+    return framework::make_ddim(output_shape);
+  }
+ protected:
+  framework::OpKernelType GetExpectedKernelType(
+      const framework::ExecutionContext &ctx) const override {
+    return framework::OpKernelType(
+        framework::ToDataType(ctx.Input<framework::LoDTensor>("X")->type()),
+        ctx.device_context());
+  }
+};
 class ReshapeOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
  void Make() override {
@@ -107,19 +201,93 @@ class ReshapeGradOp : public framework::OperatorWithKernel {
  }
 };
+class ReshapeKernel {
+ public:
+  void operator()(const framework::ExecutionContext &ctx) const {
+    auto *out = ctx.Output<framework::LoDTensor>("Out");
+    auto *in = ctx.Input<framework::LoDTensor>("X");
+    auto *shape_tensor = ctx.HasInput("Shape")
+                             ? ctx.Input<framework::LoDTensor>("Shape")
+                             : nullptr;
+    framework::DDim out_dims = out->dims();
+    if (shape_tensor) {
+      auto *shape_data = shape_tensor->data<int>();
+      framework::Tensor cpu_shape_tensor;
+      if (platform::is_gpu_place(ctx.GetPlace())) {
+        TensorCopySync(*shape_tensor, platform::CPUPlace(), &cpu_shape_tensor);
+        shape_data = cpu_shape_tensor.data<int>();
+      }
+      auto shape =
+          std::vector<int>(shape_data, shape_data + shape_tensor->numel());
+      out_dims = ReshapeOp::ValidateShape(shape, in->dims());
+    }
+    if (!in->lod().empty()) {
+      PADDLE_ENFORCE_EQ(
+          out_dims[0], in->dims()[0],
+          "Reshape operator cannot reshape an input sequence batch "
+          "into an output sequence batch that has a different "
+          "number of time steps. Please consider using "
+          "sequence_reshape op.");
+    }
+    bool inplace = ctx.Attr<bool>("inplace");
+    out->Resize(out_dims);
+    if (!inplace) {
+      out->mutable_data(ctx.GetPlace(), in->type());
+      framework::TensorCopySync(*in, ctx.GetPlace(), out);
+      out->Resize(out_dims);
+    } else {
+      out->ShareDataWith(*in);
+      out->Resize(out_dims);
+    }
+  }
+};
+class ReshapeGradKernel {
+ public:
+  void operator()(const framework::ExecutionContext &ctx) const {
+    auto *d_out = ctx.Input<framework::Tensor>(framework::GradVarName("Out"));
+    auto *d_x = ctx.Output<framework::Tensor>(framework::GradVarName("X"));
+    d_x->mutable_data(ctx.GetPlace(), d_out->type());
+    bool inplace = ctx.Attr<bool>("inplace");
+    auto in_dims = d_x->dims();
+    if (!inplace) {
+      framework::TensorCopy(*d_out, ctx.GetPlace(), ctx.device_context(), d_x);
+      ctx.device_context().Wait();
+      d_x->Resize(in_dims);
+    } else {
+      d_x->ShareDataWith(*d_out);
+      d_x->Resize(in_dims);
+    }
+  }
+};
 }  // namespace operators
 }  // namespace paddle
 namespace ops = paddle::operators;
-using CPU = paddle::platform::CPUDeviceContext;
 REGISTER_OPERATOR(reshape, ops::ReshapeOp, ops::ReshapeOpMaker,
                  paddle::framework::DefaultGradOpDescMaker<true>);
 REGISTER_OPERATOR(reshape_grad, ops::ReshapeGradOp);
-REGISTER_OP_CPU_KERNEL(reshape, ops::ReshapeKernel<CPU, float>,
+REGISTER_OP_CPU_KERNEL_FUNCTOR(reshape, float, ops::ReshapeKernel, double,
-                       ops::ReshapeKernel<CPU, double>,
+                               ops::ReshapeKernel, int, ops::ReshapeKernel,
-                       ops::ReshapeKernel<CPU, int>,
+                               int64_t, ops::ReshapeKernel);
-                       ops::ReshapeKernel<CPU, int64_t>);
+REGISTER_OP_CPU_KERNEL_FUNCTOR(reshape_grad, float, ops::ReshapeGradKernel,
-REGISTER_OP_CPU_KERNEL(reshape_grad, ops::ReshapeGradKernel<CPU, float>,
+                               double, ops::ReshapeGradKernel, int,
-                       ops::ReshapeGradKernel<CPU, double>,
+                               ops::ReshapeGradKernel, int64_t,
-                       ops::ReshapeGradKernel<CPU, int>,
+                               ops::ReshapeGradKernel);
-                       ops::ReshapeGradKernel<CPU, int64_t>);
+#ifdef PADDLE_WITH_CUDA
+REGISTER_OP_CUDA_KERNEL_FUNCTOR(reshape, float, ops::ReshapeKernel, double,
+                                ops::ReshapeKernel, int, ops::ReshapeKernel,
+                                int64_t, ops::ReshapeKernel);
+REGISTER_OP_CUDA_KERNEL_FUNCTOR(reshape_grad, float, ops::ReshapeGradKernel,
+                                double, ops::ReshapeGradKernel, int,
+                                ops::ReshapeGradKernel, int64_t,
+                                ops::ReshapeGradKernel);
+#endif
--- a/paddle/fluid/operators/reshape_op.cu
+++ b/paddle/fluid/operators/reshape_op.cu
-/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-    http://www.apache.org/licenses/LICENSE-2.0
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License. */
-#include "paddle/fluid/operators/reshape_op.h"
-using CUDA = paddle::platform::CUDADeviceContext;
-REGISTER_OP_CUDA_KERNEL(reshape, paddle::operators::ReshapeKernel<CUDA, float>,
-                        paddle::operators::ReshapeKernel<CUDA, double>,
-                        paddle::operators::ReshapeKernel<CUDA, int>,
-                        paddle::operators::ReshapeKernel<CUDA, int64_t>);
-REGISTER_OP_CUDA_KERNEL(reshape_grad,
-                        paddle::operators::ReshapeGradKernel<CUDA, float>,
-                        paddle::operators::ReshapeGradKernel<CUDA, double>,
-                        paddle::operators::ReshapeGradKernel<CUDA, int>,
-                        paddle::operators::ReshapeGradKernel<CUDA, int64_t>);
--- a/paddle/fluid/operators/reshape_op.h
+++ b/paddle/fluid/operators/reshape_op.h
-/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-Licensed under the Apache License, Version 2.0 (the "License");
-you may not use this file except in compliance with the License.
-You may obtain a copy of the License at
-    http://www.apache.org/licenses/LICENSE-2.0
-Unless required by applicable law or agreed to in writing, software
-distributed under the License is distributed on an "AS IS" BASIS,
-WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-See the License for the specific language governing permissions and
-limitations under the License. */
-#pragma once
-#include <string>
-#include <vector>
-#include "paddle/fluid/framework/eigen.h"
-#include "paddle/fluid/framework/op_registry.h"
-namespace paddle {
-namespace operators {
-class ReshapeOp : public framework::OperatorWithKernel {
- public:
-  ReshapeOp(const std::string &type, const framework::VariableNameMap &inputs,
-            const framework::VariableNameMap &outputs,
-            const framework::AttributeMap &attrs)
-      : OperatorWithKernel(type, inputs, outputs, attrs) {}
-  void InferShape(framework::InferShapeContext *ctx) const override {
-    PADDLE_ENFORCE(ctx->HasInput("X"),
-                   "Input(X) of ReshapeOp should not be null.");
-    PADDLE_ENFORCE(ctx->HasOutput("Out"),
-                   "Output(Out) of ReshapeOp should not be null.");
-    const std::vector<int> &shape = ctx->Attrs().Get<std::vector<int>>("shape");
-    PADDLE_ENFORCE(!shape.empty(),
-                   "The shape information must be set by Attr(shape).");
-    if (ctx->HasInput("Shape") && ctx->IsRuntime()) {
-      // If true, set the shape of Output(Out) according to Input(Shape) in
-      // ReshapeKernel with ExecutionContext. Also check LoD in ReshapeKernel.
-      ctx->ShareLoD("X", /*->*/ "Out");
-      return;
-    }
-    auto x_dims = ctx->GetInputDim("X");
-    auto out_dims = ValidateShape(shape, x_dims);
-    ctx->SetOutputDim("Out", out_dims);
-    if (x_dims[0] == out_dims[0]) {
-      // Only pass LoD when the first dimension of output and Input(X)
-      // are the same.
-      ctx->ShareLoD("X", /*->*/ "Out");
-    }
-  }
-  static framework::DDim ValidateShape(const std::vector<int> shape,
-                                       const framework::DDim &in_dims) {
-    const int64_t in_size = framework::product(in_dims);
-    // only one dimension can be set to -1, whose size will be automatically
-    // infered.
-    const int64_t unk_dim_val = -1;
-    const int64_t copy_dim_val = 0;
-    std::vector<int64_t> output_shape(shape.size(), 0);
-    int64_t capacity = 1;
-    int unk_dim_idx = -1;
-    for (size_t i = 0; i < shape.size(); ++i) {
-      if (shape[i] == unk_dim_val) {
-        PADDLE_ENFORCE(
-            unk_dim_idx == -1,
-            "Only one input dimension of Attr(shape) can be unknown.");
-        unk_dim_idx = i;
-      } else if (shape[i] == copy_dim_val) {
-        PADDLE_ENFORCE(
-            static_cast<int>(i) < in_dims.size(),
-            "The index of dimension to copy from input shape must be less "
-            "than the size of input shape.");
-      } else {
-        PADDLE_ENFORCE(
-            shape[i] > 0,
-            "Each input dimension of Attr(shape) must not be negtive except "
-            "one unknown dimension.");
-      }
-      capacity *= (shape[i] ? shape[i] : in_dims[i]);
-      output_shape[i] =
-          (shape[i] ? static_cast<int64_t>(shape[i]) : in_dims[i]);
-    }
-    if (unk_dim_idx != -1) {
-      if (in_size > 0) {
-        // in_size < 0 and is un-determinate in compile time, skip the check,
-        // for example, in_dims = [-1, 8, 1, 1], shape = [-1, 3, 8],
-        // capacity = -24, in_size = -8, output_shape[0] = 0
-        // the following check will fail.
-        output_shape[unk_dim_idx] = -in_size / capacity;
-        PADDLE_ENFORCE_EQ(output_shape[unk_dim_idx] * capacity, -in_size,
-                          "Invalid shape is given.");
-      } else {
-        output_shape[unk_dim_idx] = -1;
-      }
-    } else {
-      PADDLE_ENFORCE_EQ(capacity, in_size, "Invalid shape is given.");
-    }
-    return framework::make_ddim(output_shape);
-  }
- protected:
-  framework::OpKernelType GetExpectedKernelType(
-      const framework::ExecutionContext &ctx) const override {
-    return framework::OpKernelType(
-        framework::ToDataType(ctx.Input<framework::LoDTensor>("X")->type()),
-        ctx.device_context());
-  }
-};
-template <typename DeviceContext, typename T>
-class ReshapeKernel : public framework::OpKernel<T> {
- public:
-  void Compute(const framework::ExecutionContext &ctx) const {
-    auto *out = ctx.Output<framework::LoDTensor>("Out");
-    auto *in = ctx.Input<framework::LoDTensor>("X");
-    auto *shape_tensor = ctx.HasInput("Shape")
-                             ? ctx.Input<framework::LoDTensor>("Shape")
-                             : nullptr;
-    framework::DDim out_dims = out->dims();
-    if (shape_tensor) {
-      auto *shape_data = shape_tensor->data<int>();
-      framework::Tensor cpu_shape_tensor;
-      if (platform::is_gpu_place(ctx.GetPlace())) {
-        TensorCopySync(*shape_tensor, platform::CPUPlace(), &cpu_shape_tensor);
-        shape_data = cpu_shape_tensor.data<int>();
-      }
-      auto shape =
-          std::vector<int>(shape_data, shape_data + shape_tensor->numel());
-      out_dims = ReshapeOp::ValidateShape(shape, in->dims());
-    }
-    if (!in->lod().empty()) {
-      PADDLE_ENFORCE_EQ(
-          out_dims[0], in->dims()[0],
-          "Reshape operator cannot reshape an input sequence batch "
-          "into an output sequence batch that has a different "
-          "number of time steps. Please consider using "
-          "sequence_reshape op.");
-    }
-    bool inplace = ctx.Attr<bool>("inplace");
-    out->Resize(out_dims);
-    if (!inplace) {
-      out->mutable_data<T>(ctx.GetPlace());
-      framework::TensorCopySync(*in, ctx.GetPlace(), out);
-      out->Resize(out_dims);
-    } else {
-      out->ShareDataWith(*in);
-      out->Resize(out_dims);
-    }
-  }
-};
-template <typename DeviceContext, typename T>
-class ReshapeGradKernel : public framework::OpKernel<T> {
- public:
-  void Compute(const framework::ExecutionContext &ctx) const {
-    auto *d_out = ctx.Input<framework::Tensor>(framework::GradVarName("Out"));
-    auto *d_x = ctx.Output<framework::Tensor>(framework::GradVarName("X"));
-    d_x->mutable_data<T>(ctx.GetPlace());
-    bool inplace = ctx.Attr<bool>("inplace");
-    auto in_dims = d_x->dims();
-    if (!inplace) {
-      framework::TensorCopy(*d_out, ctx.GetPlace(), ctx.device_context(), d_x);
-      ctx.device_context().Wait();
-      d_x->Resize(in_dims);
-    } else {
-      d_x->ShareDataWith(*d_out);
-      d_x->Resize(in_dims);
-    }
-  }
-};
-}  // namespace operators
-}  // namespace paddle
--- a/paddle/fluid/platform/device_context.cc
+++ b/paddle/fluid/platform/device_context.cc
@@ -10,6 +10,7 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 #include "paddle/fluid/platform/device_context.h"
+#include <set>
 #include <string>
 #include <unordered_set>
 #include <vector>
@@ -35,7 +36,7 @@ DeviceContextPool::DeviceContextPool(
    const std::vector<platform::Place>& places) {
  PADDLE_ENFORCE_GT(places.size(), 0);
  using PtrType = std::unique_ptr<DeviceContext>;
-  std::unordered_set<Place, PlaceHash> set;
+  std::set<Place> set;
  for (auto& p : places) {
    set.insert(p);
  }

--- a/paddle/fluid/platform/device_context.h
+++ b/paddle/fluid/platform/device_context.h
@@ -27,12 +27,12 @@ limitations under the License. */
 #include <mkldnn.hpp>
 #endif
+#include <map>
+#include "glog/logging.h"
 #include "paddle/fluid/platform/enforce.h"
 #include "paddle/fluid/platform/place.h"
 #include "unsupported/Eigen/CXX11/Tensor"
-#include "glog/logging.h"
 namespace paddle {
 namespace platform {
@@ -201,9 +201,7 @@ class DeviceContextPool {
 private:
  static DeviceContextPool* pool;
-  std::unordered_map<const platform::Place,
+  std::map<Place, std::unique_ptr<DeviceContext>> device_contexts_;
-                     std::unique_ptr<platform::DeviceContext>, PlaceHash>
-      device_contexts_;
  DISABLE_COPY_AND_ASSIGN(DeviceContextPool);
 };

--- a/paddle/fluid/platform/enforce.h
+++ b/paddle/fluid/platform/enforce.h
@@ -102,6 +102,15 @@ struct EnforceNotMet : public std::exception {
  const char* what() const noexcept { return err_str_.c_str(); }
 };
+struct EOFException : public std::exception {
+  std::string err_str_;
+  EOFException(const char* err_msg, const char* f, int l) {
+    err_str_ = string::Sprintf("%s at [%s:%d]", err_msg, f, l);
+  }
+  const char* what() const noexcept { return err_str_.c_str(); }
+};
 // Because most enforce conditions would evaluate to true, we can use
 // __builtin_expect to instruct the C++ compiler to generate code that
 // always forces branch prediction of true.
@@ -242,6 +251,11 @@ inline void throw_on_error(T e) {
 #define PADDLE_ENFORCE(...) ::paddle::platform::throw_on_error(__VA_ARGS__);
 #endif
+#define PADDLE_THROW_EOF()                                                     \
+  do {                                                                         \
+    throw ::paddle::platform::EOFException("There is no next data.", __FILE__, \
+                                           __LINE__);                          \
+  } while (false)
 /*
 * Some enforce helpers here, usage:
 *    int a = 1;

--- a/paddle/fluid/platform/enforce_test.cc
+++ b/paddle/fluid/platform/enforce_test.cc
@@ -210,3 +210,14 @@ TEST(ENFORCE_USER_DEFINED_CLASS, NE) {
  Dims a{{1, 2, 3, 4}}, b{{5, 6, 7, 8}};
  ASSERT_THROW(PADDLE_ENFORCE_EQ(a, b), paddle::platform::EnforceNotMet);
 }
+TEST(EOF_EXCEPTION, THROW_EOF) {
+  bool caught_eof = false;
+  try {
+    PADDLE_THROW_EOF();
+  } catch (paddle::platform::EOFException error) {
+    caught_eof = true;
+    EXPECT_TRUE(HasPrefix(StringPiece(error.what()), "There is no next data."));
+  }
+  EXPECT_TRUE(caught_eof);
+}
--- a/paddle/fluid/platform/float16_test.cu
+++ b/paddle/fluid/platform/float16_test.cu
@@ -15,7 +15,7 @@ limitations under the License. */
 #include "paddle/fluid/framework/lod_tensor.h"
 #include "paddle/fluid/framework/tensor_util.h"
-#include "paddle/utils/Logging.h"
+#include "paddle/legacy/utils/Logging.h"
 #define ARITHMETIC_KERNEL(op_type, sign)                                 \
  __global__ void op_type(const half* in1, const half* in2, half* out) { \

--- a/paddle/fluid/platform/place.h
+++ b/paddle/fluid/platform/place.h
@@ -30,6 +30,7 @@ struct CPUPlace {
  // needed for variant equality comparison
  inline bool operator==(const CPUPlace &) const { return true; }
  inline bool operator!=(const CPUPlace &) const { return false; }
+  inline bool operator<(const CPUPlace &) const { return false; }
 };
 struct CUDAPlace {
@@ -42,6 +43,7 @@ struct CUDAPlace {
    return device == o.device;
  }
  inline bool operator!=(const CUDAPlace &o) const { return !(*this == o); }
+  inline bool operator<(const CUDAPlace &o) const { return device < o.device; }
  int device;
 };
@@ -52,6 +54,7 @@ struct CUDAPinnedPlace {
  // needed for variant equality comparison
  inline bool operator==(const CUDAPinnedPlace &) const { return true; }
  inline bool operator!=(const CUDAPinnedPlace &) const { return false; }
+  inline bool operator<(const CUDAPinnedPlace &) const { return false; }
 };
 struct IsCUDAPlace : public boost::static_visitor<bool> {
@@ -89,18 +92,6 @@ bool is_cuda_pinned_place(const Place &);
 bool places_are_same_class(const Place &, const Place &);
 bool is_same_place(const Place &, const Place &);
-struct PlaceHash {
-  std::size_t operator()(const Place &p) const {
-    constexpr size_t num_dev_bits = 4;
-    std::hash<int> ihash;
-    size_t dev_id = 0;
-    if (is_gpu_place(p)) {
-      dev_id = boost::get<CUDAPlace>(p).device;
-    }
-    return ihash(dev_id << num_dev_bits | p.which());
-  }
-};
 std::ostream &operator<<(std::ostream &, const Place &);
 template <typename Visitor>

--- a/paddle/fluid/pybind/exception.cc
+++ b/paddle/fluid/pybind/exception.cc
@@ -18,10 +18,13 @@ namespace paddle {
 namespace pybind {
 void BindException(pybind11::module* m) {
+  static pybind11::exception<platform::EOFException> eof(*m, "EOFException");
  static pybind11::exception<platform::EnforceNotMet> exc(*m, "EnforceNotMet");
  pybind11::register_exception_translator([](std::exception_ptr p) {
    try {
      if (p) std::rethrow_exception(p);
+    } catch (const platform::EOFException& e) {
+      eof(e.what());
    } catch (const platform::EnforceNotMet& e) {
      exc(e.what());
    }

--- a/paddle/fluid/pybind/pybind.cc
+++ b/paddle/fluid/pybind/pybind.cc
@@ -495,7 +495,8 @@ All parameter, weight, gradient are variables in Paddle.
  py::class_<framework::Executor>(m, "Executor")
      .def(py::init<const platform::Place &>())
 #ifdef PADDLE_WITH_DISTRIBUTE
-      .def("complete", &Executor::Complete)
+      .def("begin_pass", &Executor::BeginPass)
+      .def("end_pass", &Executor::EndPass)
 #endif
      .def("run", [](Executor &self, const ProgramDesc &prog, Scope *scope,
                     int block_id, bool create_local_scope, bool create_vars) {
@@ -647,7 +648,11 @@ All parameter, weight, gradient are variables in Paddle.
          [](const BuildStrategy &self) { return self.debug_graphviz_path_; },
          [](BuildStrategy &self, const std::string &path) {
            self.debug_graphviz_path_ = path;
-          });
+          })
+      .def_property(
+          "enable_data_balance",
+          [](const BuildStrategy &self) { return self.enable_data_balance_; },
+          [](BuildStrategy &self, bool b) { self.enable_data_balance_ = b; });
  pe.def(py::init<const std::vector<platform::Place> &,
                  const std::unordered_set<std::string> &,

--- a/paddle/fluid/string/printf.h
+++ b/paddle/fluid/string/printf.h
@@ -84,7 +84,7 @@ void Fprintf(std::ostream& out, const char* fmt, const Args&... args) {
 }
 template <typename... Args>
-std::string Sprintf(const char* fmt = "", const Args&... args) {
+std::string Sprintf(const char* fmt, const Args&... args) {
  std::ostringstream oss;
  Fprintf(oss, fmt, args...);
  return oss.str();

--- a/paddle/api/Arguments.cpp
+++ b/paddle/api/Arguments.cpp
--- a/paddle/api/CMakeLists.txt
+++ b/paddle/api/CMakeLists.txt
--- a/paddle/api/ConfigParser.cpp
+++ b/paddle/api/ConfigParser.cpp
@@ -14,7 +14,7 @@ limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
-#include "paddle/trainer/Trainer.h"
+#include "paddle/legacy/trainer/Trainer.h"
 struct ParameterConfigPrivate {
  paddle::ParameterPtr parameter;

--- a/paddle/api/Evaluator.cpp
+++ b/paddle/api/Evaluator.cpp
--- a/paddle/api/GradientMachine.cpp
+++ b/paddle/api/GradientMachine.cpp
--- a/paddle/api/Internal.h
+++ b/paddle/api/Internal.h
--- a/paddle/api/Matrix.cpp
+++ b/paddle/api/Matrix.cpp
--- a/paddle/api/Paddle.i
+++ b/paddle/api/Paddle.i
@@ -2,7 +2,7 @@
 %include "std_string.i"
 %{
 #define SWIG_FILE_WITH_INIT
-#include "api/PaddleAPI.h"   
+#include "legacy/api/PaddleAPI.h"
 %}
 %include "exception.i"
@@ -198,5 +198,5 @@ namespace std {
 %ignore ParameterConfigPrivate;
 %ignore OptimizationConfigPrivate;
 %ignore ParameterTraverseCallbackPrivate;
-%include "utils/GlobalConstants.h"
+%include "legacy/utils/GlobalConstants.h"
-%include "api/PaddleAPI.h"
+%include "legacy/api/PaddleAPI.h"
--- a/paddle/api/PaddleAPI.h
+++ b/paddle/api/PaddleAPI.h
@@ -20,8 +20,8 @@ limitations under the License. */
 #include <string>
 #include <vector>
 #include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
-#include "paddle/utils/Common.h"
+#include "paddle/legacy/utils/Common.h"
-#include "paddle/utils/GlobalConstants.h"
+#include "paddle/legacy/utils/GlobalConstants.h"
 /// Import PaddlePaddle's enumeration into global namespace.
 using namespace paddle::enumeration_wrapper;  // NOLINT

--- a/paddle/api/PaddleAPIPrivate.h
+++ b/paddle/api/PaddleAPIPrivate.h
@@ -17,7 +17,7 @@ limitations under the License. */
 #include "paddle/legacy/gserver/evaluators/Evaluator.h"
 #include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 #include "paddle/legacy/parameter/ParameterUpdaterBase.h"
-#include "paddle/trainer/TrainerConfigHelper.h"
+#include "paddle/legacy/trainer/TrainerConfigHelper.h"
 struct GradientMachinePrivate {
  std::shared_ptr<paddle::GradientMachine> machine;

--- a/paddle/api/Parameter.cpp
+++ b/paddle/api/Parameter.cpp
--- a/paddle/api/ParameterOptimizer.cpp
+++ b/paddle/api/ParameterOptimizer.cpp
--- a/paddle/api/ParameterUpdater.cpp
+++ b/paddle/api/ParameterUpdater.cpp
@@ -16,10 +16,10 @@ limitations under the License. */
 #include "PaddleAPIPrivate.h"
 #ifndef PADDLE_WITHOUT_GOLANG
-#include "paddle/trainer/NewRemoteParameterUpdater.h"
+#include "paddle/legacy/trainer/NewRemoteParameterUpdater.h"
 #endif
-#include "paddle/trainer/RemoteParameterUpdater.h"
+#include "paddle/legacy/trainer/RemoteParameterUpdater.h"
-#include "paddle/trainer/ThreadParameterUpdater.h"
+#include "paddle/legacy/trainer/ThreadParameterUpdater.h"
 ParameterUpdater::ParameterUpdater() : m(new ParameterUpdaterPrivate()) {}

--- a/paddle/api/SequenceGenerator.cpp
+++ b/paddle/api/SequenceGenerator.cpp
@@ -19,7 +19,7 @@ limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/legacy/gserver/gradientmachines/GradientMachine.h"
 #include "paddle/legacy/parameter/Argument.h"
-#include "paddle/utils/Flags.h"
+#include "paddle/legacy/utils/Flags.h"
 // used to represent partial sequence
 struct Path {

--- a/paddle/api/Trainer.cpp
+++ b/paddle/api/Trainer.cpp
@@ -20,10 +20,10 @@ limitations under the License. */
 #include <memory>
 #include "paddle/legacy/gserver/gradientmachines/NeuralNetwork.h"
-#include "paddle/trainer/ParamUtil.h"
+#include "paddle/legacy/trainer/ParamUtil.h"
-#include "paddle/trainer/Trainer.h"
+#include "paddle/legacy/trainer/Trainer.h"
-#include "paddle/trainer/TrainerInternal.h"
+#include "paddle/legacy/trainer/TrainerInternal.h"
-#include "paddle/utils/Flags.h"
+#include "paddle/legacy/utils/Flags.h"
 using paddle::real;

--- a/paddle/api/Util.cpp
+++ b/paddle/api/Util.cpp
@@ -15,10 +15,10 @@ limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/legacy/parameter/Parameter.h"
-#include "paddle/utils/Common.h"
+#include "paddle/legacy/utils/Common.h"
-#include "paddle/utils/Flags.h"
+#include "paddle/legacy/utils/Flags.h"
-#include "paddle/utils/PythonUtil.h"
+#include "paddle/legacy/utils/PythonUtil.h"
-#include "paddle/utils/Util.h"
+#include "paddle/legacy/utils/Util.h"
 #include <algorithm>
 #include <iostream>

--- a/paddle/api/Vector.cpp
+++ b/paddle/api/Vector.cpp
--- a/paddle/api/__init__.py
+++ b/paddle/api/__init__.py
--- a/paddle/api/numpy.i
+++ b/paddle/api/numpy.i
--- a/paddle/api/test/.gitignore
+++ b/paddle/api/test/.gitignore
--- a/paddle/api/test/CMakeLists.txt
+++ b/paddle/api/test/CMakeLists.txt
--- a/paddle/api/test/testArguments.py
+++ b/paddle/api/test/testArguments.py
--- a/paddle/api/test/testGradientMachine.py
+++ b/paddle/api/test/testGradientMachine.py
--- a/paddle/api/test/testMatrix.py
+++ b/paddle/api/test/testMatrix.py
--- a/paddle/api/test/testTrain.py
+++ b/paddle/api/test/testTrain.py
--- a/paddle/api/test/testTrainConfig.py
+++ b/paddle/api/test/testTrainConfig.py
--- a/paddle/api/test/testTrainer.py
+++ b/paddle/api/test/testTrainer.py
--- a/paddle/api/test/testVector.py
+++ b/paddle/api/test/testVector.py
--- a/paddle/api/test/util.py
+++ b/paddle/api/test/util.py
--- a/paddle/capi/Arguments.cpp
+++ b/paddle/capi/Arguments.cpp
--- a/paddle/capi/CMakeLists.txt
+++ b/paddle/capi/CMakeLists.txt
--- a/paddle/capi/Main.cpp
+++ b/paddle/capi/Main.cpp
@@ -18,9 +18,9 @@ limitations under the License. */
 #include <vector>
 #include "capi_private.h"
 #include "main.h"
-#include "paddle/trainer/TrainerConfigHelper.h"
+#include "paddle/legacy/trainer/TrainerConfigHelper.h"
-#include "paddle/utils/Excepts.h"
+#include "paddle/legacy/utils/Excepts.h"
-#include "paddle/utils/PythonUtil.h"
+#include "paddle/legacy/utils/PythonUtil.h"
 static void initPaddle(int argc, char** argv) {
  paddle::initMain(argc, argv);

--- a/paddle/capi/Matrix.cpp
+++ b/paddle/capi/Matrix.cpp
--- a/paddle/capi/Vector.cpp
+++ b/paddle/capi/Vector.cpp
--- a/paddle/capi/arguments.h
+++ b/paddle/capi/arguments.h
--- a/paddle/capi/capi.h
+++ b/paddle/capi/capi.h
--- a/paddle/capi/capi_private.h
+++ b/paddle/capi/capi_private.h
--- a/paddle/capi/config.h.in
+++ b/paddle/capi/config.h.in
--- a/paddle/capi/error.cpp
+++ b/paddle/capi/error.cpp
--- a/paddle/capi/error.h
+++ b/paddle/capi/error.h
--- a/paddle/capi/examples/.gitignore
+++ b/paddle/capi/examples/.gitignore
--- a/paddle/capi/examples/README.md
+++ b/paddle/capi/examples/README.md
--- a/paddle/capi/examples/model_inference/README.md
+++ b/paddle/capi/examples/model_inference/README.md
--- a/paddle/capi/examples/model_inference/common/common.h
+++ b/paddle/capi/examples/model_inference/common/common.h
--- a/paddle/capi/examples/model_inference/dense/CMakeLists.txt
+++ b/paddle/capi/examples/model_inference/dense/CMakeLists.txt
--- a/paddle/capi/examples/model_inference/dense/convert_protobin.sh
+++ b/paddle/capi/examples/model_inference/dense/convert_protobin.sh
--- a/paddle/capi/examples/model_inference/dense/main.c
+++ b/paddle/capi/examples/model_inference/dense/main.c
--- a/paddle/capi/examples/model_inference/dense/merge_v2_model.py
+++ b/paddle/capi/examples/model_inference/dense/merge_v2_model.py
--- a/paddle/capi/examples/model_inference/dense/mnist_v2.py
+++ b/paddle/capi/examples/model_inference/dense/mnist_v2.py
--- a/paddle/capi/examples/model_inference/dense/trainer_config.py
+++ b/paddle/capi/examples/model_inference/dense/trainer_config.py
--- a/paddle/capi/examples/model_inference/multi_thread/.gitignore
+++ b/paddle/capi/examples/model_inference/multi_thread/.gitignore
--- a/paddle/capi/examples/model_inference/multi_thread/CMakeLists.txt
+++ b/paddle/capi/examples/model_inference/multi_thread/CMakeLists.txt
--- a/paddle/capi/examples/model_inference/multi_thread/convert_protobin.sh
+++ b/paddle/capi/examples/model_inference/multi_thread/convert_protobin.sh
--- a/paddle/capi/examples/model_inference/multi_thread/main.c
+++ b/paddle/capi/examples/model_inference/multi_thread/main.c
--- a/paddle/capi/examples/model_inference/multi_thread/main_gpu.c
+++ b/paddle/capi/examples/model_inference/multi_thread/main_gpu.c
--- a/paddle/capi/examples/model_inference/multi_thread/trainer_config.py
+++ b/paddle/capi/examples/model_inference/multi_thread/trainer_config.py
--- a/paddle/capi/examples/model_inference/sequence/.gitignore
+++ b/paddle/capi/examples/model_inference/sequence/.gitignore
--- a/paddle/capi/examples/model_inference/sequence/CMakeLists.txt
+++ b/paddle/capi/examples/model_inference/sequence/CMakeLists.txt
--- a/paddle/capi/examples/model_inference/sequence/convert_protobin.sh
+++ b/paddle/capi/examples/model_inference/sequence/convert_protobin.sh
--- a/paddle/capi/examples/model_inference/sequence/main.c
+++ b/paddle/capi/examples/model_inference/sequence/main.c
--- a/paddle/capi/examples/model_inference/sequence/trainer_config.py
+++ b/paddle/capi/examples/model_inference/sequence/trainer_config.py
--- a/paddle/capi/examples/model_inference/sparse_binary/.gitignore
+++ b/paddle/capi/examples/model_inference/sparse_binary/.gitignore
--- a/paddle/capi/examples/model_inference/sparse_binary/CMakeLists.txt
+++ b/paddle/capi/examples/model_inference/sparse_binary/CMakeLists.txt
--- a/paddle/capi/examples/model_inference/sparse_binary/convert_protobin.sh
+++ b/paddle/capi/examples/model_inference/sparse_binary/convert_protobin.sh
--- a/paddle/capi/examples/model_inference/sparse_binary/main.c
+++ b/paddle/capi/examples/model_inference/sparse_binary/main.c
--- a/paddle/capi/examples/model_inference/sparse_binary/trainer_config.py
+++ b/paddle/capi/examples/model_inference/sparse_binary/trainer_config.py
--- a/paddle/capi/gradient_machine.cpp
+++ b/paddle/capi/gradient_machine.cpp
--- a/paddle/capi/gradient_machine.h
+++ b/paddle/capi/gradient_machine.h
--- a/paddle/capi/main.h
+++ b/paddle/capi/main.h
--- a/paddle/capi/matrix.h
+++ b/paddle/capi/matrix.h
--- a/paddle/capi/paddle_capi.map
+++ b/paddle/capi/paddle_capi.map
--- a/paddle/capi/tests/.gitignore
+++ b/paddle/capi/tests/.gitignore
--- a/paddle/capi/tests/CMakeLists.txt
+++ b/paddle/capi/tests/CMakeLists.txt
--- a/paddle/capi/tests/test_Arguments.cpp
+++ b/paddle/capi/tests/test_Arguments.cpp
--- a/paddle/capi/tests/test_GradientMachine.cpp
+++ b/paddle/capi/tests/test_GradientMachine.cpp
--- a/paddle/capi/tests/test_Matrix.cpp
+++ b/paddle/capi/tests/test_Matrix.cpp
--- a/paddle/capi/tests/test_Vector.cpp
+++ b/paddle/capi/tests/test_Vector.cpp
--- a/paddle/capi/tests/test_predict_network.py
+++ b/paddle/capi/tests/test_predict_network.py
--- a/paddle/capi/vector.h
+++ b/paddle/capi/vector.h
--- a/paddle/legacy/cuda/include/hl_base.h
+++ b/paddle/legacy/cuda/include/hl_base.h
--- a/paddle/legacy/cuda/include/hl_gpu_gru.cuh
+++ b/paddle/legacy/cuda/include/hl_gpu_gru.cuh
--- a/paddle/legacy/cuda/include/hl_gpu_lstm.cuh
+++ b/paddle/legacy/cuda/include/hl_gpu_lstm.cuh
--- a/paddle/legacy/cuda/include/hl_gpu_matrix_kernel.cuh
+++ b/paddle/legacy/cuda/include/hl_gpu_matrix_kernel.cuh
--- a/paddle/legacy/cuda/src/hl_cuda_aggregate.cu
+++ b/paddle/legacy/cuda/src/hl_cuda_aggregate.cu
--- a/paddle/legacy/cuda/src/hl_cuda_cublas.cc
+++ b/paddle/legacy/cuda/src/hl_cuda_cublas.cc
--- a/paddle/legacy/cuda/src/hl_cuda_cudnn.cc
+++ b/paddle/legacy/cuda/src/hl_cuda_cudnn.cc
--- a/paddle/legacy/cuda/src/hl_cuda_device.cc
+++ b/paddle/legacy/cuda/src/hl_cuda_device.cc
--- a/paddle/legacy/cuda/src/hl_cuda_lstm.cu
+++ b/paddle/legacy/cuda/src/hl_cuda_lstm.cu
--- a/paddle/legacy/cuda/src/hl_cuda_matrix.cu
+++ b/paddle/legacy/cuda/src/hl_cuda_matrix.cu
--- a/paddle/legacy/cuda/src/hl_cuda_sequence.cu
+++ b/paddle/legacy/cuda/src/hl_cuda_sequence.cu
--- a/paddle/legacy/cuda/src/hl_cuda_sparse.cu
+++ b/paddle/legacy/cuda/src/hl_cuda_sparse.cu
--- a/paddle/legacy/cuda/src/hl_table_apply.cu
+++ b/paddle/legacy/cuda/src/hl_table_apply.cu
--- a/paddle/legacy/cuda/src/hl_top_k.cu
+++ b/paddle/legacy/cuda/src/hl_top_k.cu
--- a/paddle/legacy/cuda/src/hl_warpctc_wrap.cc
+++ b/paddle/legacy/cuda/src/hl_warpctc_wrap.cc
--- a/paddle/legacy/function/Function.h
+++ b/paddle/legacy/function/Function.h
--- a/paddle/legacy/function/MulOp.cpp
+++ b/paddle/legacy/function/MulOp.cpp
--- a/paddle/legacy/gserver/activations/ActivationFunction.cpp
+++ b/paddle/legacy/gserver/activations/ActivationFunction.cpp
--- a/paddle/legacy/gserver/activations/ActivationFunction.h
+++ b/paddle/legacy/gserver/activations/ActivationFunction.h
--- a/paddle/legacy/gserver/activations/MKLDNNActivation.cpp
+++ b/paddle/legacy/gserver/activations/MKLDNNActivation.cpp
--- a/paddle/legacy/gserver/dataproviders/DataProvider.cpp
+++ b/paddle/legacy/gserver/dataproviders/DataProvider.cpp
--- a/paddle/legacy/gserver/dataproviders/DataProvider.h
+++ b/paddle/legacy/gserver/dataproviders/DataProvider.h
--- a/paddle/legacy/gserver/dataproviders/MultiDataProvider.cpp
+++ b/paddle/legacy/gserver/dataproviders/MultiDataProvider.cpp
--- a/paddle/legacy/gserver/dataproviders/PyDataProvider.cpp
+++ b/paddle/legacy/gserver/dataproviders/PyDataProvider.cpp
--- a/paddle/legacy/gserver/dataproviders/PyDataProvider.h
+++ b/paddle/legacy/gserver/dataproviders/PyDataProvider.h
--- a/paddle/legacy/gserver/dataproviders/PyDataProvider2.cpp
+++ b/paddle/legacy/gserver/dataproviders/PyDataProvider2.cpp
--- a/paddle/legacy/gserver/evaluators/CTCErrorEvaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/CTCErrorEvaluator.cpp
--- a/paddle/legacy/gserver/evaluators/ChunkEvaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/ChunkEvaluator.cpp
--- a/paddle/legacy/gserver/evaluators/Evaluator.cpp
+++ b/paddle/legacy/gserver/evaluators/Evaluator.cpp
--- a/paddle/legacy/gserver/evaluators/Evaluator.h
+++ b/paddle/legacy/gserver/evaluators/Evaluator.h
--- a/paddle/legacy/gserver/gradientmachines/GradientMachine.cpp
+++ b/paddle/legacy/gserver/gradientmachines/GradientMachine.cpp
--- a/paddle/legacy/gserver/gradientmachines/GradientMachine.h
+++ b/paddle/legacy/gserver/gradientmachines/GradientMachine.h
--- a/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.cpp
+++ b/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.cpp
--- a/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.h
+++ b/paddle/legacy/gserver/gradientmachines/MultiGradientMachine.h
--- a/paddle/legacy/gserver/gradientmachines/MultiNetwork.cpp
+++ b/paddle/legacy/gserver/gradientmachines/MultiNetwork.cpp
--- a/paddle/legacy/gserver/gradientmachines/MultiNetwork.h
+++ b/paddle/legacy/gserver/gradientmachines/MultiNetwork.h
--- a/paddle/legacy/gserver/gradientmachines/NeuralNetwork.cpp
+++ b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.cpp
--- a/paddle/legacy/gserver/gradientmachines/NeuralNetwork.h
+++ b/paddle/legacy/gserver/gradientmachines/NeuralNetwork.h
--- a/paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.cpp
+++ b/paddle/legacy/gserver/gradientmachines/ParallelNeuralNetwork.cpp
--- a/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.cpp
+++ b/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.cpp
--- a/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.h
+++ b/paddle/legacy/gserver/gradientmachines/RecurrentGradientMachine.h
--- a/paddle/legacy/gserver/layers/AddtoLayer.cpp
+++ b/paddle/legacy/gserver/layers/AddtoLayer.cpp
--- a/paddle/legacy/gserver/layers/AddtoLayer.h
+++ b/paddle/legacy/gserver/layers/AddtoLayer.h
--- a/paddle/legacy/gserver/layers/AgentLayer.cpp
+++ b/paddle/legacy/gserver/layers/AgentLayer.cpp
--- a/paddle/legacy/gserver/layers/AgentLayer.h
+++ b/paddle/legacy/gserver/layers/AgentLayer.h
--- a/paddle/legacy/gserver/layers/AverageLayer.cpp
+++ b/paddle/legacy/gserver/layers/AverageLayer.cpp
--- a/paddle/legacy/gserver/layers/BatchNormBaseLayer.cpp
+++ b/paddle/legacy/gserver/layers/BatchNormBaseLayer.cpp
--- a/paddle/legacy/gserver/layers/BatchNormBaseLayer.h
+++ b/paddle/legacy/gserver/layers/BatchNormBaseLayer.h
--- a/paddle/legacy/gserver/layers/BatchNormalizationLayer.cpp
+++ b/paddle/legacy/gserver/layers/BatchNormalizationLayer.cpp
--- a/paddle/legacy/gserver/layers/BilinearInterpLayer.cpp
+++ b/paddle/legacy/gserver/layers/BilinearInterpLayer.cpp
--- a/paddle/legacy/gserver/layers/BlockExpandLayer.cpp
+++ b/paddle/legacy/gserver/layers/BlockExpandLayer.cpp
--- a/paddle/legacy/gserver/layers/ConcatenateLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConcatenateLayer.cpp
--- a/paddle/legacy/gserver/layers/ContextProjection.cpp
+++ b/paddle/legacy/gserver/layers/ContextProjection.cpp
--- a/paddle/legacy/gserver/layers/Conv3DLayer.cpp
+++ b/paddle/legacy/gserver/layers/Conv3DLayer.cpp
--- a/paddle/legacy/gserver/layers/ConvBaseLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvBaseLayer.cpp
--- a/paddle/legacy/gserver/layers/ConvBaseProjection.cpp
+++ b/paddle/legacy/gserver/layers/ConvBaseProjection.cpp
--- a/paddle/legacy/gserver/layers/ConvProjection.cpp
+++ b/paddle/legacy/gserver/layers/ConvProjection.cpp
--- a/paddle/legacy/gserver/layers/ConvShiftLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvShiftLayer.cpp
--- a/paddle/legacy/gserver/layers/ConvTransProjection.cpp
+++ b/paddle/legacy/gserver/layers/ConvTransProjection.cpp
--- a/paddle/legacy/gserver/layers/ConvexCombinationLayer.cpp
+++ b/paddle/legacy/gserver/layers/ConvexCombinationLayer.cpp
--- a/paddle/legacy/gserver/layers/CosSimLayer.cpp
+++ b/paddle/legacy/gserver/layers/CosSimLayer.cpp
--- a/paddle/legacy/gserver/layers/CosSimLayer.h
+++ b/paddle/legacy/gserver/layers/CosSimLayer.h
--- a/paddle/legacy/gserver/layers/CosSimVecMatLayer.cpp
+++ b/paddle/legacy/gserver/layers/CosSimVecMatLayer.cpp
--- a/paddle/legacy/gserver/layers/CostLayer.cpp
+++ b/paddle/legacy/gserver/layers/CostLayer.cpp
--- a/paddle/legacy/gserver/layers/CropLayer.cpp
+++ b/paddle/legacy/gserver/layers/CropLayer.cpp
--- a/paddle/legacy/gserver/layers/CudnnBatchNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/CudnnBatchNormLayer.cpp
--- a/paddle/legacy/gserver/layers/CudnnBatchNormLayer.h
+++ b/paddle/legacy/gserver/layers/CudnnBatchNormLayer.h
--- a/paddle/legacy/gserver/layers/CudnnConvBaseLayer.cpp
+++ b/paddle/legacy/gserver/layers/CudnnConvBaseLayer.cpp
--- a/paddle/legacy/gserver/layers/CudnnPoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/CudnnPoolLayer.cpp
--- a/paddle/legacy/gserver/layers/DataNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/DataNormLayer.cpp
--- a/paddle/legacy/gserver/layers/DataNormLayer.h
+++ b/paddle/legacy/gserver/layers/DataNormLayer.h
--- a/paddle/legacy/gserver/layers/DeConv3DLayer.cpp
+++ b/paddle/legacy/gserver/layers/DeConv3DLayer.cpp
--- a/paddle/legacy/gserver/layers/DotProdLayer.cpp
+++ b/paddle/legacy/gserver/layers/DotProdLayer.cpp
--- a/paddle/legacy/gserver/layers/EosIdCheckLayer.cpp
+++ b/paddle/legacy/gserver/layers/EosIdCheckLayer.cpp
--- a/paddle/legacy/gserver/layers/ExpandConvLayer.cpp
+++ b/paddle/legacy/gserver/layers/ExpandConvLayer.cpp
--- a/paddle/legacy/gserver/layers/ExpandLayer.cpp
+++ b/paddle/legacy/gserver/layers/ExpandLayer.cpp
--- a/paddle/legacy/gserver/layers/FactorizationMachineLayer.cpp
+++ b/paddle/legacy/gserver/layers/FactorizationMachineLayer.cpp
--- a/paddle/legacy/gserver/layers/FactorizationMachineLayer.h
+++ b/paddle/legacy/gserver/layers/FactorizationMachineLayer.h
--- a/paddle/legacy/gserver/layers/FeatureMapExpandLayer.cpp
+++ b/paddle/legacy/gserver/layers/FeatureMapExpandLayer.cpp
--- a/paddle/legacy/gserver/layers/FullMatrixProjection.h
+++ b/paddle/legacy/gserver/layers/FullMatrixProjection.h
--- a/paddle/legacy/gserver/layers/FullyConnectedLayer.cpp
+++ b/paddle/legacy/gserver/layers/FullyConnectedLayer.cpp
--- a/paddle/legacy/gserver/layers/FullyConnectedLayer.h
+++ b/paddle/legacy/gserver/layers/FullyConnectedLayer.h
--- a/paddle/legacy/gserver/layers/GatedRecurrentLayer.cpp
+++ b/paddle/legacy/gserver/layers/GatedRecurrentLayer.cpp
--- a/paddle/legacy/gserver/layers/GruCompute.cpp
+++ b/paddle/legacy/gserver/layers/GruCompute.cpp
--- a/paddle/legacy/gserver/layers/GruCompute.h
+++ b/paddle/legacy/gserver/layers/GruCompute.h
--- a/paddle/legacy/gserver/layers/GruStepLayer.cpp
+++ b/paddle/legacy/gserver/layers/GruStepLayer.cpp
--- a/paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.cpp
+++ b/paddle/legacy/gserver/layers/HierarchicalSigmoidLayer.cpp
--- a/paddle/legacy/gserver/layers/IdentityProjection.cpp
+++ b/paddle/legacy/gserver/layers/IdentityProjection.cpp
--- a/paddle/legacy/gserver/layers/InterpolationLayer.cpp
+++ b/paddle/legacy/gserver/layers/InterpolationLayer.cpp
--- a/paddle/legacy/gserver/layers/L2DistanceLayer.cpp
+++ b/paddle/legacy/gserver/layers/L2DistanceLayer.cpp
--- a/paddle/legacy/gserver/layers/Layer.cpp
+++ b/paddle/legacy/gserver/layers/Layer.cpp
--- a/paddle/legacy/gserver/layers/Layer.h
+++ b/paddle/legacy/gserver/layers/Layer.h
--- a/paddle/legacy/gserver/layers/LstmCompute.cpp
+++ b/paddle/legacy/gserver/layers/LstmCompute.cpp
--- a/paddle/legacy/gserver/layers/LstmCompute.h
+++ b/paddle/legacy/gserver/layers/LstmCompute.h
--- a/paddle/legacy/gserver/layers/LstmLayer.cpp
+++ b/paddle/legacy/gserver/layers/LstmLayer.cpp
--- a/paddle/legacy/gserver/layers/LstmStepLayer.cpp
+++ b/paddle/legacy/gserver/layers/LstmStepLayer.cpp
--- a/paddle/legacy/gserver/layers/MKLDNNConvLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNConvLayer.cpp
--- a/paddle/legacy/gserver/layers/MKLDNNFcLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNFcLayer.cpp
--- a/paddle/legacy/gserver/layers/MKLDNNLRNLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNLRNLayer.cpp
--- a/paddle/legacy/gserver/layers/MKLDNNLayer.h
+++ b/paddle/legacy/gserver/layers/MKLDNNLayer.h
--- a/paddle/legacy/gserver/layers/MKLDNNPoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/MKLDNNPoolLayer.cpp
--- a/paddle/legacy/gserver/layers/MaxLayer.cpp
+++ b/paddle/legacy/gserver/layers/MaxLayer.cpp
--- a/paddle/legacy/gserver/layers/MaxLayer.h
+++ b/paddle/legacy/gserver/layers/MaxLayer.h
--- a/paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.cpp
+++ b/paddle/legacy/gserver/layers/MaxPoolWithMaskLayer.cpp
--- a/paddle/legacy/gserver/layers/MixedLayer.cpp
+++ b/paddle/legacy/gserver/layers/MixedLayer.cpp
--- a/paddle/legacy/gserver/layers/MultinomialSampler.h
+++ b/paddle/legacy/gserver/layers/MultinomialSampler.h
--- a/paddle/legacy/gserver/layers/MultiplexLayer.cpp
+++ b/paddle/legacy/gserver/layers/MultiplexLayer.cpp
--- a/paddle/legacy/gserver/layers/NormLayer.cpp
+++ b/paddle/legacy/gserver/layers/NormLayer.cpp
--- a/paddle/legacy/gserver/layers/NormProjectionLayer.cpp
+++ b/paddle/legacy/gserver/layers/NormProjectionLayer.cpp
--- a/paddle/legacy/gserver/layers/OuterProdLayer.cpp
+++ b/paddle/legacy/gserver/layers/OuterProdLayer.cpp
--- a/paddle/legacy/gserver/layers/PadLayer.cpp
+++ b/paddle/legacy/gserver/layers/PadLayer.cpp
--- a/paddle/legacy/gserver/layers/ParameterReluLayer.cpp
+++ b/paddle/legacy/gserver/layers/ParameterReluLayer.cpp
--- a/paddle/legacy/gserver/layers/ParameterReluLayer.h
+++ b/paddle/legacy/gserver/layers/ParameterReluLayer.h
--- a/paddle/legacy/gserver/layers/Pool3DLayer.cpp
+++ b/paddle/legacy/gserver/layers/Pool3DLayer.cpp
--- a/paddle/legacy/gserver/layers/PoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/PoolLayer.cpp
--- a/paddle/legacy/gserver/layers/PoolProjectionLayer.cpp
+++ b/paddle/legacy/gserver/layers/PoolProjectionLayer.cpp
--- a/paddle/legacy/gserver/layers/PowerLayer.cpp
+++ b/paddle/legacy/gserver/layers/PowerLayer.cpp
--- a/paddle/legacy/gserver/layers/RecurrentLayer.h
+++ b/paddle/legacy/gserver/layers/RecurrentLayer.h
--- a/paddle/legacy/gserver/layers/RecurrentLayerGroup.cpp
+++ b/paddle/legacy/gserver/layers/RecurrentLayerGroup.cpp
--- a/paddle/legacy/gserver/layers/RowConvLayer.cpp
+++ b/paddle/legacy/gserver/layers/RowConvLayer.cpp
--- a/paddle/legacy/gserver/layers/ScaleSubRegionLayer.cpp
+++ b/paddle/legacy/gserver/layers/ScaleSubRegionLayer.cpp
--- a/paddle/legacy/gserver/layers/ScalingLayer.cpp
+++ b/paddle/legacy/gserver/layers/ScalingLayer.cpp
--- a/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.cpp
+++ b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.cpp
--- a/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h
+++ b/paddle/legacy/gserver/layers/SelectiveFullyConnectedLayer.h
--- a/paddle/legacy/gserver/layers/SequenceConcatLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceConcatLayer.cpp
--- a/paddle/legacy/gserver/layers/SequenceLastInstanceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceLastInstanceLayer.cpp
--- a/paddle/legacy/gserver/layers/SequencePoolLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequencePoolLayer.cpp
--- a/paddle/legacy/gserver/layers/SequenceReshapeLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceReshapeLayer.cpp
--- a/paddle/legacy/gserver/layers/SequenceSliceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SequenceSliceLayer.cpp
--- a/paddle/legacy/gserver/layers/SlopeInterceptLayer.cpp
+++ b/paddle/legacy/gserver/layers/SlopeInterceptLayer.cpp
--- a/paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.h
+++ b/paddle/legacy/gserver/layers/SpatialPyramidPoolLayer.h
--- a/paddle/legacy/gserver/layers/SubNestedSequenceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SubNestedSequenceLayer.cpp
--- a/paddle/legacy/gserver/layers/SubSequenceLayer.cpp
+++ b/paddle/legacy/gserver/layers/SubSequenceLayer.cpp
--- a/paddle/legacy/gserver/layers/SumToOneNormLayer.cpp
+++ b/paddle/legacy/gserver/layers/SumToOneNormLayer.cpp
--- a/paddle/legacy/gserver/layers/SwitchOrderLayer.cpp
+++ b/paddle/legacy/gserver/layers/SwitchOrderLayer.cpp
--- a/paddle/legacy/gserver/layers/TensorLayer.cpp
+++ b/paddle/legacy/gserver/layers/TensorLayer.cpp
--- a/paddle/legacy/gserver/layers/TensorLayer.h
+++ b/paddle/legacy/gserver/layers/TensorLayer.h
--- a/paddle/legacy/gserver/layers/TransLayer.cpp
+++ b/paddle/legacy/gserver/layers/TransLayer.cpp
--- a/paddle/legacy/gserver/layers/TransposedFullMatrixProjection.cpp
+++ b/paddle/legacy/gserver/layers/TransposedFullMatrixProjection.cpp
--- a/paddle/legacy/gserver/layers/UpsampleLayer.h
+++ b/paddle/legacy/gserver/layers/UpsampleLayer.h
--- a/paddle/legacy/gserver/layers/ValidationLayer.cpp
+++ b/paddle/legacy/gserver/layers/ValidationLayer.cpp
--- a/paddle/legacy/gserver/tests/MKLDNNTester.cpp
+++ b/paddle/legacy/gserver/tests/MKLDNNTester.cpp
--- a/paddle/legacy/gserver/tests/test_BatchNorm.cpp
+++ b/paddle/legacy/gserver/tests/test_BatchNorm.cpp
--- a/paddle/legacy/gserver/tests/test_CompareSparse.cpp
+++ b/paddle/legacy/gserver/tests/test_CompareSparse.cpp
--- a/paddle/legacy/gserver/tests/test_CompareTwoNets.cpp
+++ b/paddle/legacy/gserver/tests/test_CompareTwoNets.cpp
--- a/paddle/legacy/gserver/tests/test_ConvTrans.cpp
+++ b/paddle/legacy/gserver/tests/test_ConvTrans.cpp
--- a/paddle/legacy/gserver/tests/test_ConvUnify.cpp
+++ b/paddle/legacy/gserver/tests/test_ConvUnify.cpp
--- a/paddle/legacy/gserver/tests/test_Evaluator.cpp
+++ b/paddle/legacy/gserver/tests/test_Evaluator.cpp
--- a/paddle/legacy/gserver/tests/test_KmaxSeqScore.cpp
+++ b/paddle/legacy/gserver/tests/test_KmaxSeqScore.cpp
--- a/paddle/legacy/gserver/tests/test_LinearChainCRF.cpp
+++ b/paddle/legacy/gserver/tests/test_LinearChainCRF.cpp
--- a/paddle/legacy/gserver/tests/test_MKLDNN.cpp
+++ b/paddle/legacy/gserver/tests/test_MKLDNN.cpp
--- a/paddle/legacy/gserver/tests/test_MultinomialSampler.cpp
+++ b/paddle/legacy/gserver/tests/test_MultinomialSampler.cpp
--- a/paddle/legacy/gserver/tests/test_NetworkCompare.cpp
+++ b/paddle/legacy/gserver/tests/test_NetworkCompare.cpp
--- a/paddle/legacy/gserver/tests/test_PyDataProvider.cpp
+++ b/paddle/legacy/gserver/tests/test_PyDataProvider.cpp
--- a/paddle/legacy/gserver/tests/test_PyDataProvider2.cpp
+++ b/paddle/legacy/gserver/tests/test_PyDataProvider2.cpp
--- a/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp
+++ b/paddle/legacy/gserver/tests/test_RecurrentGradientMachine.cpp
--- a/paddle/legacy/gserver/tests/test_RecurrentLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_RecurrentLayer.cpp
--- a/paddle/legacy/gserver/tests/test_SelectiveFCLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_SelectiveFCLayer.cpp
--- a/paddle/legacy/gserver/tests/test_WarpCTCLayer.cpp
+++ b/paddle/legacy/gserver/tests/test_WarpCTCLayer.cpp
--- a/paddle/legacy/math/Allocator.h
+++ b/paddle/legacy/math/Allocator.h
--- a/paddle/legacy/math/BaseMatrix.cu
+++ b/paddle/legacy/math/BaseMatrix.cu
--- a/paddle/legacy/math/BaseMatrix.h
+++ b/paddle/legacy/math/BaseMatrix.h
--- a/paddle/legacy/math/CpuSparseMatrix.cpp
+++ b/paddle/legacy/math/CpuSparseMatrix.cpp
--- a/paddle/legacy/math/MathFunctions.cpp
+++ b/paddle/legacy/math/MathFunctions.cpp
--- a/paddle/legacy/math/MathUtils.cpp
+++ b/paddle/legacy/math/MathUtils.cpp
--- a/paddle/legacy/math/Matrix.cpp
+++ b/paddle/legacy/math/Matrix.cpp
--- a/paddle/legacy/math/Matrix.h
+++ b/paddle/legacy/math/Matrix.h
--- a/paddle/legacy/math/MatrixBitCode.cpp
+++ b/paddle/legacy/math/MatrixBitCode.cpp
--- a/paddle/legacy/math/RowBuffer.h
+++ b/paddle/legacy/math/RowBuffer.h
--- a/paddle/legacy/math/SparseMatrix.cpp
+++ b/paddle/legacy/math/SparseMatrix.cpp
--- a/paddle/legacy/math/SparseRowMatrix.cpp
+++ b/paddle/legacy/math/SparseRowMatrix.cpp
--- a/paddle/legacy/math/SparseRowMatrix.h
+++ b/paddle/legacy/math/SparseRowMatrix.h
--- a/paddle/legacy/math/Storage.cpp
+++ b/paddle/legacy/math/Storage.cpp
--- a/paddle/legacy/math/Storage.h
+++ b/paddle/legacy/math/Storage.h
--- a/paddle/legacy/math/TensorAssign.h
+++ b/paddle/legacy/math/TensorAssign.h
--- a/paddle/legacy/math/TensorEvaluate.h
+++ b/paddle/legacy/math/TensorEvaluate.h
--- a/paddle/legacy/math/TensorExpression.h
+++ b/paddle/legacy/math/TensorExpression.h
--- a/paddle/legacy/math/TrainingAlgorithmOp.cu
+++ b/paddle/legacy/math/TrainingAlgorithmOp.cu
--- a/paddle/legacy/math/TrainingAlgorithmOp.h
+++ b/paddle/legacy/math/TrainingAlgorithmOp.h
--- a/paddle/legacy/math/Vector.cpp
+++ b/paddle/legacy/math/Vector.cpp
--- a/paddle/legacy/math/Vector.h
+++ b/paddle/legacy/math/Vector.h
--- a/paddle/legacy/math/tests/OriginalOptimizerApi.h
+++ b/paddle/legacy/math/tests/OriginalOptimizerApi.h
--- a/paddle/legacy/math/tests/PerfUtils.h
+++ b/paddle/legacy/math/tests/PerfUtils.h
--- a/paddle/legacy/math/tests/test_Allocator.cpp
+++ b/paddle/legacy/math/tests/test_Allocator.cpp
--- a/paddle/legacy/math/tests/test_CpuGpuVector.cpp
+++ b/paddle/legacy/math/tests/test_CpuGpuVector.cpp
--- a/paddle/legacy/math/tests/test_ExecViaCpu.cpp
+++ b/paddle/legacy/math/tests/test_ExecViaCpu.cpp
--- a/paddle/legacy/math/tests/test_FPException.cpp
+++ b/paddle/legacy/math/tests/test_FPException.cpp
--- a/paddle/legacy/math/tests/test_GpuProfiler.cpp
+++ b/paddle/legacy/math/tests/test_GpuProfiler.cpp
--- a/paddle/legacy/math/tests/test_SIMDFunctions.cpp
+++ b/paddle/legacy/math/tests/test_SIMDFunctions.cpp
--- a/paddle/legacy/math/tests/test_SparseMatrix.cpp
+++ b/paddle/legacy/math/tests/test_SparseMatrix.cpp
--- a/paddle/legacy/math/tests/test_TrainingAlgorithm.cpp
+++ b/paddle/legacy/math/tests/test_TrainingAlgorithm.cpp
--- a/paddle/legacy/math/tests/test_matrixCompare.cpp
+++ b/paddle/legacy/math/tests/test_matrixCompare.cpp
--- a/paddle/legacy/math/tests/test_matrixUtil.h
+++ b/paddle/legacy/math/tests/test_matrixUtil.h
--- a/paddle/legacy/math/tests/test_sparseMatrixCompare.cpp
+++ b/paddle/legacy/math/tests/test_sparseMatrixCompare.cpp
--- a/paddle/legacy/optimizer/serialization.h
+++ b/paddle/legacy/optimizer/serialization.h
--- a/paddle/legacy/optimizer/tensor.h
+++ b/paddle/legacy/optimizer/tensor.h
--- a/paddle/legacy/parameter/Argument.h
+++ b/paddle/legacy/parameter/Argument.h
--- a/paddle/legacy/parameter/FirstOrderOptimizer.cpp
+++ b/paddle/legacy/parameter/FirstOrderOptimizer.cpp
--- a/paddle/legacy/parameter/LearningRateScheduler.cpp
+++ b/paddle/legacy/parameter/LearningRateScheduler.cpp
--- a/paddle/legacy/parameter/LearningRateScheduler.h
+++ b/paddle/legacy/parameter/LearningRateScheduler.h
--- a/paddle/legacy/parameter/Parameter.cpp
+++ b/paddle/legacy/parameter/Parameter.cpp
--- a/paddle/legacy/parameter/Parameter.h
+++ b/paddle/legacy/parameter/Parameter.h
--- a/paddle/legacy/parameter/ParameterOptimizer.cpp
+++ b/paddle/legacy/parameter/ParameterOptimizer.cpp
--- a/paddle/legacy/parameter/ParameterUpdateFunctions.cpp
+++ b/paddle/legacy/parameter/ParameterUpdateFunctions.cpp
--- a/paddle/legacy/parameter/ParameterUpdateFunctions.h
+++ b/paddle/legacy/parameter/ParameterUpdateFunctions.h
--- a/paddle/legacy/parameter/ParameterUpdaterBase.cpp
+++ b/paddle/legacy/parameter/ParameterUpdaterBase.cpp
--- a/paddle/legacy/parameter/ParameterUpdaterHook.cpp
+++ b/paddle/legacy/parameter/ParameterUpdaterHook.cpp
--- a/paddle/legacy/parameter/Regularizer.cpp
+++ b/paddle/legacy/parameter/Regularizer.cpp
--- a/paddle/legacy/parameter/Weight.cpp
+++ b/paddle/legacy/parameter/Weight.cpp
--- a/paddle/legacy/parameter/tests/test_common.cpp
+++ b/paddle/legacy/parameter/tests/test_common.cpp
--- a/paddle/legacy/pserver/BaseClient.cpp
+++ b/paddle/legacy/pserver/BaseClient.cpp
--- a/paddle/legacy/pserver/BaseClient.h
+++ b/paddle/legacy/pserver/BaseClient.h
--- a/paddle/legacy/pserver/LightNetwork.cpp
+++ b/paddle/legacy/pserver/LightNetwork.cpp
--- a/paddle/legacy/pserver/LightNetwork.h
+++ b/paddle/legacy/pserver/LightNetwork.h
--- a/paddle/legacy/pserver/ParameterClient2.cpp
+++ b/paddle/legacy/pserver/ParameterClient2.cpp
--- a/paddle/legacy/pserver/ParameterClient2.h
+++ b/paddle/legacy/pserver/ParameterClient2.h
--- a/paddle/legacy/pserver/ParameterServer2.cpp
+++ b/paddle/legacy/pserver/ParameterServer2.cpp
--- a/paddle/legacy/pserver/ParameterServer2.h
+++ b/paddle/legacy/pserver/ParameterServer2.h
--- a/paddle/legacy/pserver/ParameterServerController.h
+++ b/paddle/legacy/pserver/ParameterServerController.h
--- a/paddle/legacy/pserver/RDMANetwork.h
+++ b/paddle/legacy/pserver/RDMANetwork.h
--- a/paddle/legacy/pserver/SocketChannel.cpp
+++ b/paddle/legacy/pserver/SocketChannel.cpp
--- a/paddle/legacy/pserver/SocketChannel.h
+++ b/paddle/legacy/pserver/SocketChannel.h
--- a/paddle/legacy/pserver/SparseParameterDistribution.cpp
+++ b/paddle/legacy/pserver/SparseParameterDistribution.cpp
--- a/paddle/legacy/pserver/SparseParameterDistribution.h
+++ b/paddle/legacy/pserver/SparseParameterDistribution.h
--- a/paddle/legacy/pserver/test/SocketTest.cpp
+++ b/paddle/legacy/pserver/test/SocketTest.cpp
--- a/paddle/legacy/pserver/test/test_ParameterServer2.cpp
+++ b/paddle/legacy/pserver/test/test_ParameterServer2.cpp
--- a/paddle/legacy/pserver/test/test_ProtoServer.cpp
+++ b/paddle/legacy/pserver/test/test_ProtoServer.cpp
--- a/paddle/trainer/CMakeLists.txt
+++ b/paddle/trainer/CMakeLists.txt
--- a/paddle/trainer/MergeModel.cpp
+++ b/paddle/trainer/MergeModel.cpp
--- a/paddle/trainer/NewRemoteParameterUpdater.cpp
+++ b/paddle/trainer/NewRemoteParameterUpdater.cpp
--- a/paddle/trainer/NewRemoteParameterUpdater.h
+++ b/paddle/trainer/NewRemoteParameterUpdater.h
--- a/paddle/trainer/ParamUtil.cpp
+++ b/paddle/trainer/ParamUtil.cpp
--- a/paddle/trainer/ParamUtil.h
+++ b/paddle/trainer/ParamUtil.h
--- a/paddle/trainer/ParameterUpdater.cpp
+++ b/paddle/trainer/ParameterUpdater.cpp
--- a/paddle/trainer/ParameterUpdater.h
+++ b/paddle/trainer/ParameterUpdater.h
--- a/paddle/trainer/RemoteParameterUpdater.cpp
+++ b/paddle/trainer/RemoteParameterUpdater.cpp
--- a/paddle/trainer/RemoteParameterUpdater.h
+++ b/paddle/trainer/RemoteParameterUpdater.h
--- a/paddle/trainer/Tester.cpp
+++ b/paddle/trainer/Tester.cpp
--- a/paddle/trainer/Tester.h
+++ b/paddle/trainer/Tester.h
--- a/paddle/trainer/TesterConfig.h
+++ b/paddle/trainer/TesterConfig.h
--- a/paddle/trainer/ThreadParameterUpdater.cpp
+++ b/paddle/trainer/ThreadParameterUpdater.cpp
--- a/paddle/trainer/ThreadParameterUpdater.h
+++ b/paddle/trainer/ThreadParameterUpdater.h
--- a/paddle/trainer/Trainer.cpp
+++ b/paddle/trainer/Trainer.cpp
--- a/paddle/trainer/Trainer.h
+++ b/paddle/trainer/Trainer.h
--- a/paddle/trainer/TrainerBenchmark.cpp
+++ b/paddle/trainer/TrainerBenchmark.cpp
--- a/paddle/trainer/TrainerConfigHelper.cpp
+++ b/paddle/trainer/TrainerConfigHelper.cpp
--- a/paddle/trainer/TrainerConfigHelper.h
+++ b/paddle/trainer/TrainerConfigHelper.h
--- a/paddle/trainer/TrainerInternal.cpp
+++ b/paddle/trainer/TrainerInternal.cpp
--- a/paddle/trainer/TrainerInternal.h
+++ b/paddle/trainer/TrainerInternal.h
--- a/paddle/trainer/TrainerInternalConfig.cpp
+++ b/paddle/trainer/TrainerInternalConfig.cpp
--- a/paddle/trainer/TrainerInternalConfig.h
+++ b/paddle/trainer/TrainerInternalConfig.h
--- a/paddle/trainer/TrainerMain.cpp
+++ b/paddle/trainer/TrainerMain.cpp
--- a/paddle/trainer/tests/.gitignore
+++ b/paddle/trainer/tests/.gitignore
--- a/paddle/trainer/tests/CMakeLists.txt
+++ b/paddle/trainer/tests/CMakeLists.txt
--- a/paddle/trainer/tests/__init__.py
+++ b/paddle/trainer/tests/__init__.py
--- a/paddle/trainer/tests/config_parser_test.py
+++ b/paddle/trainer/tests/config_parser_test.py
--- a/paddle/trainer/tests/fake_file_list.list
+++ b/paddle/trainer/tests/fake_file_list.list
--- a/paddle/trainer/tests/picojson.h
+++ b/paddle/trainer/tests/picojson.h
--- a/paddle/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.data
+++ b/paddle/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.data
--- a/paddle/legacy/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.list
+++ b/paddle/legacy/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.list
--- a/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.beam
+++ b/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.beam
--- a/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.nest
+++ b/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.nest
--- a/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.nobeam
+++ b/paddle/trainer/tests/rnn_gen_test_model_dir/r1.test.nobeam
--- a/paddle/trainer/tests/rnn_gen_test_model_dir/t1/transtable
+++ b/paddle/trainer/tests/rnn_gen_test_model_dir/t1/transtable
--- a/paddle/trainer/tests/rnn_gen_test_model_dir/t1/wordvec
+++ b/paddle/trainer/tests/rnn_gen_test_model_dir/t1/wordvec
--- a/paddle/trainer/tests/sample_data.txt
+++ b/paddle/trainer/tests/sample_data.txt
--- a/paddle/legacy/trainer/tests/sample_filelist.txt
+++ b/paddle/legacy/trainer/tests/sample_filelist.txt
--- a/paddle/trainer/tests/sample_trainer_config.conf
+++ b/paddle/trainer/tests/sample_trainer_config.conf
--- a/paddle/trainer/tests/sample_trainer_config_hsigmoid.conf
+++ b/paddle/trainer/tests/sample_trainer_config_hsigmoid.conf
--- a/paddle/trainer/tests/sample_trainer_config_parallel.conf
+++ b/paddle/trainer/tests/sample_trainer_config_parallel.conf
--- a/paddle/trainer/tests/sample_trainer_nest_rnn_gen.conf
+++ b/paddle/trainer/tests/sample_trainer_nest_rnn_gen.conf
--- a/paddle/trainer/tests/sample_trainer_rnn_gen.conf
+++ b/paddle/trainer/tests/sample_trainer_rnn_gen.conf
--- a/paddle/trainer/tests/simple_sparse_neural_network.py
+++ b/paddle/trainer/tests/simple_sparse_neural_network.py
--- a/paddle/trainer/tests/simple_sparse_neural_network_dp.py
+++ b/paddle/trainer/tests/simple_sparse_neural_network_dp.py
--- a/paddle/trainer/tests/testPyDataWrapper.py
+++ b/paddle/trainer/tests/testPyDataWrapper.py
--- a/paddle/trainer/tests/test_Compare.cpp
+++ b/paddle/trainer/tests/test_Compare.cpp
--- a/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
+++ b/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
--- a/paddle/trainer/tests/test_Trainer.cpp
+++ b/paddle/trainer/tests/test_Trainer.cpp
--- a/paddle/trainer/tests/test_TrainerOnePass.cpp
+++ b/paddle/trainer/tests/test_TrainerOnePass.cpp
--- a/paddle/trainer/tests/test_config.conf
+++ b/paddle/trainer/tests/test_config.conf
--- a/paddle/trainer/tests/test_gen_dict.txt
+++ b/paddle/trainer/tests/test_gen_dict.txt
--- a/paddle/trainer/tests/test_recurrent_machine_generation.cpp
+++ b/paddle/trainer/tests/test_recurrent_machine_generation.cpp
--- a/paddle/utils/.gitignore
+++ b/paddle/utils/.gitignore
--- a/paddle/utils/Any.h
+++ b/paddle/utils/Any.h
--- a/paddle/utils/CMakeLists.txt
+++ b/paddle/utils/CMakeLists.txt
--- a/paddle/utils/ClassRegistrar.h
+++ b/paddle/utils/ClassRegistrar.h
--- a/paddle/utils/Common.h
+++ b/paddle/utils/Common.h
--- a/paddle/utils/CpuId.cpp
+++ b/paddle/utils/CpuId.cpp
--- a/paddle/utils/CpuId.h
+++ b/paddle/utils/CpuId.h
--- a/paddle/utils/CustomStackTrace.cpp
+++ b/paddle/utils/CustomStackTrace.cpp
--- a/paddle/utils/CustomStackTrace.h
+++ b/paddle/utils/CustomStackTrace.h
--- a/paddle/utils/DynamicLoader.cpp
+++ b/paddle/utils/DynamicLoader.cpp
--- a/paddle/utils/DynamicLoader.h
+++ b/paddle/utils/DynamicLoader.h
--- a/paddle/utils/Error.h
+++ b/paddle/utils/Error.h
--- a/paddle/utils/Excepts.h
+++ b/paddle/utils/Excepts.h
--- a/paddle/utils/Flags.cpp
+++ b/paddle/utils/Flags.cpp
--- a/paddle/utils/Flags.h
+++ b/paddle/utils/Flags.h
--- a/paddle/utils/GlobalConstants.cpp
+++ b/paddle/utils/GlobalConstants.cpp
--- a/paddle/utils/GlobalConstants.h
+++ b/paddle/utils/GlobalConstants.h
--- a/paddle/utils/Locks.h
+++ b/paddle/utils/Locks.h
--- a/paddle/utils/Logging.cpp
+++ b/paddle/utils/Logging.cpp
--- a/paddle/utils/Logging.h
+++ b/paddle/utils/Logging.h
--- a/paddle/utils/PythonUtil.cpp
+++ b/paddle/utils/PythonUtil.cpp
--- a/paddle/utils/PythonUtil.h
+++ b/paddle/utils/PythonUtil.h
--- a/paddle/utils/Queue.h
+++ b/paddle/utils/Queue.h
--- a/paddle/utils/Stat.cpp
+++ b/paddle/utils/Stat.cpp
--- a/paddle/utils/Stat.h
+++ b/paddle/utils/Stat.h
--- a/paddle/utils/StringUtil.cpp
+++ b/paddle/utils/StringUtil.cpp
--- a/paddle/utils/StringUtil.h
+++ b/paddle/utils/StringUtil.h
--- a/paddle/utils/Thread.h
+++ b/paddle/utils/Thread.h
--- a/paddle/utils/ThreadLocal.cpp
+++ b/paddle/utils/ThreadLocal.cpp
--- a/paddle/utils/ThreadLocal.h
+++ b/paddle/utils/ThreadLocal.h
--- a/paddle/utils/Util.cpp
+++ b/paddle/utils/Util.cpp
--- a/paddle/utils/Util.h
+++ b/paddle/utils/Util.h
--- a/paddle/utils/Version.cpp
+++ b/paddle/utils/Version.cpp
--- a/paddle/utils/Version.h
+++ b/paddle/utils/Version.h
--- a/paddle/utils/arch/linux/Locks.cpp
+++ b/paddle/utils/arch/linux/Locks.cpp
--- a/paddle/utils/arch/osx/Excepts.cpp
+++ b/paddle/utils/arch/osx/Excepts.cpp
--- a/paddle/utils/arch/osx/Locks.cpp
+++ b/paddle/utils/arch/osx/Locks.cpp
--- a/paddle/utils/enable_virtualenv.py
+++ b/paddle/utils/enable_virtualenv.py
--- a/paddle/utils/tests/CMakeLists.txt
+++ b/paddle/utils/tests/CMakeLists.txt
--- a/paddle/utils/tests/test_CustomStackTrace.cpp
+++ b/paddle/utils/tests/test_CustomStackTrace.cpp
--- a/paddle/utils/tests/test_CustomStackTracePrint.cpp
+++ b/paddle/utils/tests/test_CustomStackTracePrint.cpp
--- a/paddle/utils/tests/test_CustomStackTracePrint.sh
+++ b/paddle/utils/tests/test_CustomStackTracePrint.sh
--- a/paddle/utils/tests/test_Error.cpp
+++ b/paddle/utils/tests/test_Error.cpp
--- a/paddle/utils/tests/test_SIMDFlags.cpp
+++ b/paddle/utils/tests/test_SIMDFlags.cpp
--- a/paddle/utils/tests/test_SpinLock.cpp
+++ b/paddle/utils/tests/test_SpinLock.cpp
--- a/paddle/utils/tests/test_StringUtils.cpp
+++ b/paddle/utils/tests/test_StringUtils.cpp
--- a/paddle/utils/tests/test_Thread.cpp
+++ b/paddle/utils/tests/test_Thread.cpp
--- a/paddle/utils/tests/test_ThreadBarrier.cpp
+++ b/paddle/utils/tests/test_ThreadBarrier.cpp
--- a/paddle/scripts/paddle_build.sh
+++ b/paddle/scripts/paddle_build.sh
--- a/paddle/testing/TestMain.cpp
+++ b/paddle/testing/TestMain.cpp
--- a/paddle/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.list
+++ b/paddle/trainer/tests/pydata_provider_wrapper_dir/test_pydata_provider_wrapper.list
--- a/paddle/trainer/tests/sample_filelist.txt
+++ b/paddle/trainer/tests/sample_filelist.txt
--- a/proto/README.md
+++ b/proto/README.md
--- a/python/CMakeLists.txt
+++ b/python/CMakeLists.txt
--- a/python/paddle/fluid/executor.py
+++ b/python/paddle/fluid/executor.py
--- a/python/paddle/fluid/framework.py
+++ b/python/paddle/fluid/framework.py
--- a/python/paddle/fluid/tests/unittests/.gitignore
+++ b/python/paddle/fluid/tests/unittests/.gitignore
--- a/python/paddle/fluid/tests/unittests/test_data_balance.py
+++ b/python/paddle/fluid/tests/unittests/test_data_balance.py
--- a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
--- a/python/paddle/fluid/tests/unittests/test_multi_file_reader.py
+++ b/python/paddle/fluid/tests/unittests/test_multi_file_reader.py
--- a/python/paddle/fluid/tests/unittests/test_multi_pass_reader.py
+++ b/python/paddle/fluid/tests/unittests/test_multi_pass_reader.py
--- a/python/paddle/fluid/tests/unittests/test_recordio_reader.py
+++ b/python/paddle/fluid/tests/unittests/test_recordio_reader.py
--- a/python/paddle/fluid/tests/unittests/test_simple_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_simple_dist_transpiler.py
--- a/python/paddle/fluid/tests/unittests/transpiler_test.py
+++ b/python/paddle/fluid/tests/unittests/transpiler_test.py
--- a/python/paddle/fluid/transpiler/distribute_transpiler.py
+++ b/python/paddle/fluid/transpiler/distribute_transpiler.py
--- a/python/paddle/trainer/config_parser.py
+++ b/python/paddle/trainer/config_parser.py
--- a/python/setup.py.in
+++ b/python/setup.py.in
--- a/tools/codestyle/cpplint_pre_commit.hook
+++ b/tools/codestyle/cpplint_pre_commit.hook