Merge branch 'develop' of https://github.com/baidu/Paddle into cn_doc

2a21d8b3 · dangqingqing · 24cfc5ab · 85f0e184 · 2a21d8b3 · 2a21d8b3
387 changed file
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -7,18 +7,14 @@
    hooks:
    -   id: yapf
 -   repo: https://github.com/pre-commit/pre-commit-hooks
-    sha: 4ef03c4223ad322c7adaa6c6c0efb26b57df3b71
+    sha: 7539d8bd1a00a3c1bfd34cdb606d3a6372e83469
    hooks:
    -   id: check-added-large-files
    -   id: check-merge-conflict
    -   id: check-symlinks
    -   id: detect-private-key
    -   id: end-of-file-fixer
-# TODO(yuyang): trailing whitespace has some bugs on markdown 
+-   repo: https://github.com/PaddlePaddle/clang-format-pre-commit-hook.git
-# files now, please not add it to pre-commit hook now
+    sha: 28c0ea8a67a3e2dbbf4822ef44e85b63a0080a29
-#    -   id: trailing-whitespace
+    hooks:
-#
+    -   id: clang-formater
-# TODO(yuyang): debug-statements not fit for Paddle, because
-# not all of our python code is runnable. Some are used for 
-# documenation
-#    -   id: debug-statements
--- a/README.md
+++ b/README.md
 # PaddlePaddle
-[![Build Status](https://travis-ci.org/PaddlePaddle/Paddle.svg?branch=develop)](https://travis-ci.org/baidu/Paddle)
+[![Build Status](https://travis-ci.org/PaddlePaddle/Paddle.svg?branch=develop)](https://travis-ci.org/PaddlePaddle/Paddle)
 [![Documentation Status](https://img.shields.io/badge/docs-latest-brightgreen.svg?style=flat)](http://www.paddlepaddle.org/)
 [![Documentation Status](https://img.shields.io/badge/中文文档-最新-brightgreen.svg)](http://www.paddlepaddle.org/cn/index.html)
-[![Coverage Status](https://coveralls.io/repos/github/PaddlePaddle/Paddle/badge.svg?branch=develop)](https://coveralls.io/github/baidu/Paddle?branch=develop)
+[![Coverage Status](https://coveralls.io/repos/github/PaddlePaddle/Paddle/badge.svg?branch=develop)](https://coveralls.io/github/PaddlePaddle/Paddle?branch=develop)
-[![Release](https://img.shields.io/github/release/baidu/Paddle.svg?colorB=fedcba)](https://github.com/baidu/Paddle/releases)
+[![Release](https://img.shields.io/github/release/PaddlePaddle/Paddle.svg)](https://github.com/PaddlePaddle/Paddle/releases)
 [![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE)
@@ -17,7 +17,7 @@ developed by Baidu scientists and engineers for the purpose of applying deep
 learning to many products at Baidu.
 Our vision is to enable deep learning for everyone via PaddlePaddle.
-Please refer to our [release announcement](https://github.com/baidu/Paddle/releases) to track the latest feature of PaddlePaddle.
+Please refer to our [release announcement](https://github.com/PaddlePaddle/Paddle/releases) to track the latest feature of PaddlePaddle.
 ## Features
@@ -92,7 +92,7 @@ Both [English Docs](http://paddlepaddle.org/doc/) and [Chinese Docs](http://padd
 ## Ask Questions
-You are welcome to submit questions and bug reports as [Github Issues](https://github.com/baidu/paddle/issues).
+You are welcome to submit questions and bug reports as [Github Issues](https://github.com/PaddlePaddle/Paddle/issues).
 ## Copyright and License
 PaddlePaddle is provided under the [Apache-2.0 license](LICENSE).
--- a/doc/build/build_from_source.md
+++ b/doc/build/build_from_source.md
@@ -6,10 +6,10 @@ Installing from Sources
 * [3. Build on Ubuntu](#ubuntu)
 ## <span id="download">Download and Setup</span> 
-You can download PaddlePaddle from the [github source](https://github.com/gangliao/Paddle).
+You can download PaddlePaddle from the [github source](https://github.com/PaddlePaddle/Paddle).
 ```bash
-git clone https://github.com/baidu/Paddle paddle
+git clone https://github.com/PaddlePaddle/Paddle paddle
 cd paddle
 ```

--- a/doc_cn/build_and_install/cmake/cblas_settings.csv
+++ b/doc_cn/build_and_install/cmake/cblas_settings.csv
-MKL_ROOT,mkl的路径，在${MKL_ROOT}/include下需要包含mkl.h，在${MKL_ROOT}/lib目录下需要包含 mkl_core，mkl_sequential和mkl_intel_lp64三个库
+编译选项,描述,注意
-ATLAS_ROOT,ATLAS库的路径，在${ATLAS_ROOT}/include下需要包含cblas.h，而在${ATLAS_ROOT}/lib下需要包含cblas和atlas两个库
+MKL_ROOT,MKL的路径,${MKL_ROOT}/include下需要包含mkl.h，${MKL_ROOT}/lib目录下需要包含mkl_core，mkl_sequential和mkl_intel_lp64三个库。
-OPENBLAS_ROOT,在${OPENBLAS_ROOT}/include下需要包含cblas.h，而在${OPENBLAS_ROOT}/lib下需要包含openblas库
+ATLAS_ROOT,ATLAS的路径,${ATLAS_ROOT}/include下需要包含cblas.h，${ATLAS_ROOT}/lib下需要包含cblas和atlas两个库。
-REFERENCE_CBLAS_ROOT,在${REFERENCE_CBLAS_ROOT}/include下需要包含cblas.h，在${REFERENCE_CBLAS_ROOT}/lib下需要包含cblas库
+OPENBLAS_ROOT,OpenBLAS的路径,${OPENBLAS_ROOT}/include下需要包含cblas.h，${OPENBLAS_ROOT}/lib下需要包含openblas库。
\ No newline at end of file
+REFERENCE_CBLAS_ROOT,REFERENCE BLAS的路径,${REFERENCE_CBLAS_ROOT}/include下需要包含cblas.h，${REFERENCE_CBLAS_ROOT}/lib下需要包含cblas库。
\ No newline at end of file
--- a/doc_cn/build_and_install/cmake/compile_options.csv
+++ b/doc_cn/build_and_install/cmake/compile_options.csv
 选项,说明,默认值
-WITH_GPU,是否编译GPU支持。,是否寻找到cuda工具链
+WITH_GPU,是否支持GPU。,取决于是否寻找到CUDA工具链
 WITH_DOUBLE,是否使用双精度浮点数。,否
-WITH_DSO,是否使用运行时动态加载cuda动态库，而非静态加载cuda动态库。,是
+WITH_DSO,是否运行时动态加载CUDA动态库，而非静态加载CUDA动态库。,是
-WITH_AVX,是否编译含有AVX指令集的PaddlePaddle二进制,是
+WITH_AVX,是否编译含有AVX指令集的PaddlePaddle二进制文件,是
-WITH_PYTHON,是否内嵌python解释器。可以方便嵌入式工作。,是
+WITH_PYTHON,是否内嵌PYTHON解释器。方便今后的嵌入式移植工作。,是
 WITH_STYLE_CHECK,是否编译时进行代码风格检查,是
-WITH_RDMA,是否开启RDMA支持,否
+WITH_RDMA,是否开启RDMA,否
-WITH_GLOG,是否使用GLOG，如果不使用则会使用一个简化版的日志实现。可以方便嵌入式工作。,取决于是否寻找到GLOG
+WITH_GLOG,是否开启GLOG。如果不开启，则会使用一个简化版的日志，同时方便今后的嵌入式移植工作。,取决于是否寻找到GLOG
-WITH_GFLAGS,是否使用GFLAGS，如果不使用则会使用一个简化版的命令行参数解析。可以方便嵌入式工作。,取决于是否寻找到GFLAGS
+WITH_GFLAGS,是否使用GFLAGS。如果不开启，则会使用一个简化版的命令行参数解析器，同时方便今后的嵌入式移植工作。,取决于是否寻找到GFLAGS
-WITH_TIMER,是否开启计时功能开启计时功能会导致运行略慢，打印的日志变多。但是方便调试和benchmark,否
+WITH_TIMER,是否开启计时功能。如果开启会导致运行略慢，打印的日志变多，但是方便调试和测Benchmark,否
-WITH_TESTING,是否开启单元测试,取决于是否寻找到gtest
+WITH_TESTING,是否开启单元测试,取决于是否寻找到GTEST
-WITH_DOC,是否编译英文文档,否
+WITH_DOC,是否编译中英文文档,否
-WITH_DOC_CN,是否编译中文文档,否
+WITH_SWIG_PY,是否编译PYTHON的SWIG接口，该接口可用于预测和定制化训练,取决于是否寻找到SWIG
-WITH_SWIG_PY,是否编译python的swig接口，python的swig接口可以方便进行预测和定制化训练,取决于是否找到swig
\ No newline at end of file
--- a/doc_cn/build_and_install/cmake/compile_options.rst
+++ b/doc_cn/build_and_install/cmake/compile_options.rst
-设置PaddlePaddle的编译选项
+PaddlePaddle的编译选项
-==========================
+======================
-PaddlePaddle的编译选项可以在调用cmake的时候设置。cmake是一个跨平台的编译脚本，调用
+PaddlePaddle的编译选项，包括生成CPU/GPU二进制文件、链接何种BLAS库等。用户可在调用cmake的时候设置它们，详细的cmake使用方法可以参考 `官方文档 <https://cmake.org/cmake-tutorial>`_ 。
-cmake可以将cmake项目文件，生成各个平台的makefile。详细的cmake使用方法可以参考
-`cmake的官方文档 <https://cmake.org/cmake-tutorial>`_ 。
+Bool型的编译选项
+----------------
-PaddlePaddle的编译选项是可以控制PaddlePaddle生成CPU/GPU版本二进制，链接何种blas等等。所有的
+用户可在cmake的命令行中，通过使用 ``-D`` 命令设置该类编译选项，例如
-编译选项列表如下
+..  code-block:: bash
-PaddlePaddle的编译选项
----------------------
+    cmake .. -DWITH_GPU=OFF
-bool型的编译选项
+..  csv-table:: Bool型的编译选项
-++++++++++++++++
+    :widths: 1, 7, 2
-设置下列编译选项时，可以在cmake的命令行设置。使用 -D命令即可。例如 
+    :file: compile_options.csv
-:code:`cmake -D WITH_GPU=OFF`
+BLAS/CUDA/Cudnn的编译选项
-..  csv-table:: PaddlePaddle的bool型编译选项
+--------------------------
-    :widths: 1, 7, 2
+BLAS
-    :file: compile_options.csv
+++++
-blas相关的编译选项
+PaddlePaddle支持以下任意一种BLAS库：`MKL <https://software.intel.com/en-us/intel-mkl>`_ ，`ATLAS <http://math-atlas.sourceforge.net/>`_ ，`OpenBlAS <http://www.openblas.net/>`_ 和 `REFERENCE BLAS <http://www.netlib.org/blas/>`_ 。
-++++++++++++++++++
+..  csv-table:: BLAS路径相关的编译选项
-PaddlePaddle可以使用 `MKL <https://software.intel.com/en-us/intel-mkl>`_ ，
+    :widths: 1, 2, 7
-`Atlas <http://math-atlas.sourceforge.net/>`_ ,
+    :file: cblas_settings.csv
-`OpenBlas <http://www.openblas.net/>`_ 和 
-`refference Blas <http://www.netlib.org/blas/>`_ ，任意一种cblas实现。
+CUDA/Cudnn
-通过编译时指定路径来实现引用各种blas。
+++++++++++
-cmake编译时会首先在系统路径(/usr/lib\:/usr/local/lib)中寻找这些blas的实现。同时
+PaddlePaddle可以使用cudnn v2之后的任何一个版本来编译运行，但尽量请保持编译和运行使用的cudnn是同一个版本。 我们推荐使用最新版本的cudnn v5.1。
-也会读取相关路径变量来进行搜索。路径变量为\:
+编译选项的设置
++++++++++++++
-..  csv-table:: PaddlePaddle的cblas编译选项
-    :widths: 1, 9
+PaddePaddle通过编译时指定路径来实现引用各种BLAS/CUDA/Cudnn库。cmake编译时，首先在系统路径(/usr/lib\:/usr/local/lib)中搜索这几个库，同时也会读取相关路径变量来进行搜索。 通过使用 ``-D`` 命令可以设置，例如 
-    :header: "编译选项", "描述"
-    :file: cblas_settings.csv
+..  code-block:: bash
-这些变量均可以使用 -D命令指定。例如 :code:`cmake -D MKL_ROOT=/opt/mkl/`。这些变
+    cmake .. -DMKL_ROOT=/opt/mkl/ -DCUDNN_ROOT=/opt/cudnnv5
-量也可以通过调用cmake命令前通过环境变量指定。例如
+注意：这几个编译选项的设置，只在第一次cmake的时候有效。如果之后想要重新设置，推荐清理整个编译目录（``rm -rf``）后，再指定。
-..  code-block:: bash
\ No newline at end of file
-    export MKL_ROOT=/opt/mkl
-    cmake
-需要注意的是，这些变量只在第一次cmake的时候有效。如果在第一次cmake之后想要重新设
-置这些变量，推荐清理( :code:`rm -rf` )掉编译目录后，再指定。
-cuda/cudnn相关的编译选项
-++++++++++++++++++++++++
-PaddlePaddle可以使用 cudnn v2之后的任何一个cudnn版本来编译运行。但需要注意的是编译和
-运行使用的cudnn尽量是同一个版本。推荐使用最新版本的cudnn v5.1。
-在cmake配置时可以使用 :code:`CUDNN_ROOT` 来配置CUDNN的安装路径。使用的命令也是 
-D，例如 :code:`cmake -D CUDNN_ROOT=/opt/cudnnv5` 。
-需要注意的是，这些变量只在第一次cmake的时候有效。如果在第一次cmake之后想要重新设
-置这些变量，推荐清理( :code:`rm -rf` )掉编译目录后，再指定。
--- a/doc_cn/howto/how_to_write_docs/index.rst
+++ b/doc_cn/howto/how_to_write_docs/index.rst
@@ -2,32 +2,19 @@
 如何贡献/修改PaddlePaddle的文档
 ###############################
-PaddlePaddle的文档使用 `cmake`_ 驱动 `sphinx`_ 生成。公有两个文档，:code:`doc` 和 :code:`doc_cn` 。这两者会在 `cmake`_ 中进行编译，生成后的文档会存储在服务器的 :code:`doc` 和 :code:`doc_cn` 两个目录下。
+PaddlePaddle的文档包括英文文档 ``doc`` 和中文文档 ``doc_cn`` 两个部分。文档都是通过 `cmake`_ 驱动 `sphinx`_ 编译生成，生成后的文档分别存储在编译目录的 ``doc`` 和 ``doc_cn`` 两个子目录下。
-下面分几个部分介绍一下PaddlePaddle文档的贡献方法。
-如何书写PaddlePaddle的文档
-==========================
-TBD
 如何构建PaddlePaddle的文档
 ==========================
-构建PaddlePaddle文档，需要使用构建Paddle的全部环境。准备这个环境相对来说比较复杂，所以本文档提供两种方式构建PaddlePaddle的文档，即
+PaddlePaddle的文档构建有直接构建和基于Docker构建两种方式。构建PaddlePaddle文档需要准备的环境相对较复杂，所以我们推荐使用基于Docker来构建PaddlePaddle的文档。
-* 使用Docker构建PaddlePaddle的文档
-* 直接构建PaddlePaddle的文档。
-并且，我们推荐使用Docker来构建PaddlePaddle的文档。
 使用Docker构建PaddlePaddle的文档
 --------------------------------
-使用Docker构建PaddlePaddle的文档，首先要求在系统里安装好Docker工具包。安装Docker请参考 `Docker的官网 <https://docs.docker.com/>`_ 。
+使用Docker构建PaddlePaddle的文档，需要在系统里先安装好Docker工具包。Docker安装请参考 `Docker的官网 <https://docs.docker.com/>`_ 。安装好Docker之后可以使用源码目录下的脚本构建文档，即
-安装好Docker之后可以使用源码目录下的脚本构建文档，即
 ..	code-block:: bash
@@ -35,10 +22,10 @@ TBD
 	cd paddle/scripts/tools/build_docs
 	bash build_docs.sh
-执行完这个脚本后，该目录下会生成两个目录，分别是\:
+编译完成后，该目录下会生成如下两个子目录\:
-* doc 目录，英文文档地址
+* doc 英文文档目录
-* doc_cn 目录，中文文档地址
+* doc_cn 中文文档目录
 打开浏览器访问对应目录下的index.html即可访问本地文档。
@@ -52,6 +39,10 @@ TBD
 TBD
+如何书写PaddlePaddle的文档
+==========================
+TBD
 如何更新www.paddlepaddle.org文档
 ================================

--- a/paddle/api/Arguments.cpp
+++ b/paddle/api/Arguments.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
@@ -112,7 +111,7 @@ void Arguments::setSlotSequenceStartPositions(size_t idx,
 }
 void Arguments::setSlotSubSequenceStartPositions(
-    size_t idx, IVector *vec) throw(RangeError) {
+    size_t idx, IVector* vec) throw(RangeError) {
  auto& a = m->getArg(idx);
  auto& v = m->cast<paddle::IVector>(vec->getSharedPtr());
  a.subSequenceStartPositions = std::make_shared<paddle::ICpuGpuVector>(v);

--- a/paddle/api/ConfigParser.cpp
+++ b/paddle/api/ConfigParser.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
 #include "paddle/trainer/Trainer.h"
@@ -44,8 +43,7 @@ TrainerConfig* TrainerConfig::createFromTrainerConfigFile(
  return retv;
 }
-TrainerConfig* TrainerConfig::createFromProtoString(
+TrainerConfig* TrainerConfig::createFromProtoString(const std::string& str) {
-    const std::string& str) {
  auto retv = new TrainerConfig();
  paddle::TrainerConfig trainerConfigProto;
  auto conf = std::make_shared<paddle::TrainerConfigHelper>(trainerConfigProto);

--- a/paddle/api/GradientMachine.cpp
+++ b/paddle/api/GradientMachine.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
@@ -27,7 +26,8 @@ GradientMachine::GradientMachine() : m(new GradientMachinePrivate()) {}
 GradientMachine::~GradientMachine() { delete m; }
 GradientMachine* GradientMachine::createFromPaddleModelPtr(
-    const void* confPtr, GradientMatchineCreateMode mode,
+    const void* confPtr,
+    GradientMatchineCreateMode mode,
    const std::vector<int>& types) {
  auto& conf = *(const paddle::ModelConfig*)(confPtr);
  std::vector<ParameterType> realTypes;
@@ -44,7 +44,8 @@ GradientMachine* GradientMachine::createFromPaddleModelPtr(
 }
 GradientMachine* GradientMachine::createByConfigProtoStr(
-    const std::string& protoStr, GradientMatchineCreateMode mode,
+    const std::string& protoStr,
+    GradientMatchineCreateMode mode,
    const std::vector<int>& types) {
  paddle::ModelConfig conf;
  conf.ParseFromString(protoStr);
@@ -56,13 +57,15 @@ GradientMachine* GradientMachine::createByConfigProtoStr(
 }
 GradientMachine* GradientMachine::createByModelConfig(
-    ModelConfig* conf, GradientMatchineCreateMode mode,
+    ModelConfig* conf,
+    GradientMatchineCreateMode mode,
    const std::vector<int>& types) {
  auto confPtr = &conf->m->conf->getModelConfig();
  return GradientMachine::createFromPaddleModelPtr(confPtr, mode, types);
 }
-void GradientMachine::forward(const Arguments& inArgs, Arguments* outArgs,
+void GradientMachine::forward(const Arguments& inArgs,
+                              Arguments* outArgs,
                              PassType passType) {
  auto& in =
      m->cast<std::vector<paddle::Argument>>(inArgs.getInternalArgumentsPtr());
@@ -99,7 +102,8 @@ void GradientMachine::backward(const UpdateCallback& callback) {
 }
 void GradientMachine::forwardBackward(const Arguments& inArgs,
-                                      Arguments* outArgs, PassType passType,
+                                      Arguments* outArgs,
+                                      PassType passType,
                                      const UpdateCallback& callback) {
  auto& in =
      m->cast<std::vector<paddle::Argument>>(inArgs.getInternalArgumentsPtr());
@@ -129,7 +133,7 @@ Parameter* GradientMachine::getParameter(size_t i) throw(RangeError) {
 void GradientMachine::randParameters() { m->machine->randParameters(); }
 Matrix* GradientMachine::getLayerOutput(const std::string& layerName) const
-  throw(UnsupportError) {
+    throw(UnsupportError) {
  auto nn = std::dynamic_pointer_cast<paddle::NeuralNetwork>(m->machine);
  if (nn) {
    auto mat = nn->getLayerOutput(layerName);
@@ -140,8 +144,11 @@ Matrix* GradientMachine::getLayerOutput(const std::string& layerName) const
 }
 SequenceGenerator* GradientMachine::asSequenceGenerator(
-    const std::vector<std::string>& dict, size_t begin_id, size_t end_id,
+    const std::vector<std::string>& dict,
-    size_t max_length, size_t beam_size) {
+    size_t begin_id,
+    size_t end_id,
+    size_t max_length,
+    size_t beam_size) {
  SequenceGenerator* r =
      SequenceGenerator::createByGradientMachineSharedPtr(&m->machine);
  r->setDict(dict);

--- a/paddle/api/Internal.h
+++ b/paddle/api/Internal.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #pragma once
 #include "PaddleAPI.h"
@@ -23,7 +22,8 @@ limitations under the License. */
 template <typename T1, typename T2>
 void staticCastVector(std::vector<T2>* dest, const std::vector<T1>& src) {
  dest->resize(src.size());
-  std::transform(src.begin(), src.end(), dest->begin(), [](T1 t){
+  std::transform(src.begin(),
-    return static_cast<T2>(t);
+                 src.end(),
-  });
+                 dest->begin(),
+                 [](T1 t) { return static_cast<T2>(t); });
 }
--- a/paddle/api/Matrix.cpp
+++ b/paddle/api/Matrix.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/math/Matrix.h"
 #include "paddle/math/SparseMatrix.h"
@@ -44,17 +43,21 @@ Matrix* Matrix::createZero(size_t height, size_t width, bool useGpu) {
  return m;
 }
-Matrix* Matrix::createDense(const std::vector<float>& data, size_t height,
+Matrix* Matrix::createDense(const std::vector<float>& data,
-                            size_t width, bool useGpu) {
+                            size_t height,
+                            size_t width,
+                            bool useGpu) {
  auto m = new Matrix();
  m->m->mat = paddle::Matrix::create(height, width, useGpu);
  m->m->mat->copyFrom(data.data(), data.size());
  return m;
 }
-Matrix* Matrix::createDenseFromNumpy(float* data, int dim1, int dim2,
+Matrix* Matrix::createDenseFromNumpy(float* data,
-                                      bool copy, bool useGpu)
+                                     int dim1,
-                                     throw (UnsupportError) {
+                                     int dim2,
+                                     bool copy,
+                                     bool useGpu) throw(UnsupportError) {
  if (useGpu) {
    /// Gpu mode only supports copy=True
    if (!copy) {
@@ -66,7 +69,9 @@ Matrix* Matrix::createDenseFromNumpy(float* data, int dim1, int dim2,
  }
 }
-Matrix* Matrix::createCpuDenseFromNumpy(float* data, int dim1, int dim2,
+Matrix* Matrix::createCpuDenseFromNumpy(float* data,
+                                        int dim1,
+                                        int dim2,
                                        bool copy) {
  auto m = new Matrix();
  if (copy) {
@@ -85,12 +90,20 @@ Matrix* Matrix::createGpuDenseFromNumpy(float* data, int dim1, int dim2) {
  return m;
 }
-Matrix* Matrix::createSparse(size_t height, size_t width, size_t nnz,
+Matrix* Matrix::createSparse(size_t height,
-                             bool isNonVal, bool isTrans, bool useGpu) {
+                             size_t width,
+                             size_t nnz,
+                             bool isNonVal,
+                             bool isTrans,
+                             bool useGpu) {
  auto m = new Matrix();
  m->m->mat = paddle::Matrix::createSparseMatrix(
-      height, width, nnz, isNonVal ? paddle::NO_VALUE : paddle::FLOAT_VALUE,
+      height,
-      isTrans, useGpu);
+      width,
+      nnz,
+      isNonVal ? paddle::NO_VALUE : paddle::FLOAT_VALUE,
+      isTrans,
+      useGpu);
  return m;
 }
@@ -221,7 +234,8 @@ FloatArray Matrix::getData() const {
 }
 void Matrix::sparseCopyFrom(
-    const std::vector<int>& rows, const std::vector<int>& cols,
+    const std::vector<int>& rows,
+    const std::vector<int>& cols,
    const std::vector<float>& vals) throw(UnsupportError) {
  auto cpuSparseMat =
      std::dynamic_pointer_cast<paddle::CpuSparseMatrix>(m->mat);
@@ -240,7 +254,8 @@ void Matrix::sparseCopyFrom(
 void* Matrix::getSharedPtr() const { return &m->mat; }
-void Matrix::toNumpyMatInplace(float** view_data, int* dim1,
+void Matrix::toNumpyMatInplace(float** view_data,
+                               int* dim1,
                               int* dim2) throw(UnsupportError) {
  auto cpuMat = std::dynamic_pointer_cast<paddle::CpuMatrix>(m->mat);
  if (cpuMat) {
@@ -251,7 +266,8 @@ void Matrix::toNumpyMatInplace(float** view_data, int* dim1,
    throw UnsupportError();
  }
 }
-void Matrix::copyToNumpyMat(float** view_m_data, int* dim1,
+void Matrix::copyToNumpyMat(float** view_m_data,
+                            int* dim1,
                            int* dim2) throw(UnsupportError) {
  static_assert(sizeof(paddle::real) == sizeof(float),
                "Currently PaddleAPI only support for single "
@@ -269,8 +285,8 @@ void Matrix::copyToNumpyMat(float** view_m_data, int* dim1,
    } else if (auto gpuMat = dynamic_cast<paddle::GpuMatrix*>(m->mat.get())) {
      auto src = gpuMat->getData();
      auto dest = *view_m_data;
-      hl_memcpy_device2host(dest, src,
+      hl_memcpy_device2host(
-                            sizeof(paddle::real) * (*dim1) * (*dim2));
+          dest, src, sizeof(paddle::real) * (*dim1) * (*dim2));
    } else {
      LOG(WARNING) << "Unexpected Situation";
      throw UnsupportError();
@@ -278,7 +294,8 @@ void Matrix::copyToNumpyMat(float** view_m_data, int* dim1,
  }
 }
-void Matrix::copyFromNumpyMat(float* data, int dim1,
+void Matrix::copyFromNumpyMat(float* data,
+                              int dim1,
                              int dim2) throw(UnsupportError, RangeError) {
  if (isSparse()) {
    throw UnsupportError();

--- a/paddle/api/PaddleAPI.h
+++ b/paddle/api/PaddleAPI.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #pragma once
 #include <stddef.h>
@@ -61,8 +60,8 @@ class RangeError {};
 /// Not support Error, such as access GPU memory directly, etc.
 class UnsupportError : public std::runtime_error {
 public:
-  UnsupportError() : std::runtime_error(" ") {};
+  UnsupportError() : std::runtime_error(" "){};
-  UnsupportError(const std::string& message) : std::runtime_error(message) {};
+  UnsupportError(const std::string& message) : std::runtime_error(message){};
 };
 /// This type will map to python's list of float.
@@ -112,7 +111,8 @@ public:
  /**
   * Create A Matrix with height,width, which is filled by zero.
   */
-  static Matrix* createZero(size_t height, size_t width,
+  static Matrix* createZero(size_t height,
+                            size_t width,
                            bool useGpu = isUsingGpu());
  /**
@@ -124,8 +124,11 @@ public:
   *
   * @note the default sparse type is SPARSE_CSR.
   */
-  static Matrix* createSparse(size_t height, size_t width, size_t nnz,
+  static Matrix* createSparse(size_t height,
-                              bool isNonVal = true, bool trans = false,
+                              size_t width,
+                              size_t nnz,
+                              bool isNonVal = true,
+                              bool trans = false,
                              bool useGpu = isUsingGpu());
  /**
@@ -134,13 +137,17 @@ public:
   * @param data  list of float should be passed in python.
   * @note        the value will be copy into a new matrix.
   */
-  static Matrix* createDense(const std::vector<float>& data, size_t height,
+  static Matrix* createDense(const std::vector<float>& data,
-                             size_t width, bool useGpu = isUsingGpu());
+                             size_t height,
+                             size_t width,
-  static Matrix* createDenseFromNumpy(float* data, int dim1, int dim2,
+                             bool useGpu = isUsingGpu());
-                                      bool copy = true,
-                                      bool useGpu = isUsingGpu())
+  static Matrix* createDenseFromNumpy(
-                                      throw (UnsupportError);
+      float* data,
+      int dim1,
+      int dim2,
+      bool copy = true,
+      bool useGpu = isUsingGpu()) throw(UnsupportError);
  /**
   *  Create Cpu Dense Matrix from numpy matrix, dtype=float32
@@ -151,7 +158,9 @@ public:
   *  @param copy  true if copy into a new matrix, false will create
   *               matrix inplace.
   */
-  static Matrix* createCpuDenseFromNumpy(float* data, int dim1, int dim2,
+  static Matrix* createCpuDenseFromNumpy(float* data,
+                                         int dim1,
+                                         int dim2,
                                         bool copy = false);
  /// Create Gpu Dense Matrix from numpy matrix, dtype=float32
@@ -171,11 +180,13 @@ public:
   * numpy_mat = m.toNumpyMat()
   * @endcode
   */
-  void toNumpyMatInplace(float** view_data, int* dim1,
+  void toNumpyMatInplace(float** view_data,
+                         int* dim1,
                         int* dim2) throw(UnsupportError);
  /// Copy To numpy mat.
-  void copyToNumpyMat(float** view_m_data, int* dim1,
+  void copyToNumpyMat(float** view_m_data,
+                      int* dim1,
                      int* dim2) throw(UnsupportError);
  /// Copy From Numpy Mat
@@ -248,15 +259,18 @@ public:
  static Vector* create(const std::vector<float>& data,
                        bool useGpu = isUsingGpu());
-  static Vector* createVectorFromNumpy(float* data, int dim, bool copy = true,
+  static Vector* createVectorFromNumpy(
-                                       bool useGpu = isUsingGpu())
+      float* data,
-                                       throw (UnsupportError);
+      int dim,
+      bool copy = true,
+      bool useGpu = isUsingGpu()) throw(UnsupportError);
  /**
   * Create Cpu Vector from numpy array, which dtype=float32
   *
   * If copy is false, it will create vector inplace.
   */
-  static Vector* createCpuVectorFromNumpy(float* data, int dim,
+  static Vector* createCpuVectorFromNumpy(float* data,
+                                          int dim,
                                          bool copy = false);
  /// Create Gpu Vector from numpy array, which dtype=float32
@@ -312,16 +326,19 @@ public:
  static IVector* create(const std::vector<int>& data,
                         bool useGpu = isUsingGpu());
-  static IVector* createVectorFromNumpy(int* data, int dim, bool copy = true,
+  static IVector* createVectorFromNumpy(
-                                        bool useGpu = isUsingGpu())
+      int* data,
-                                        throw (UnsupportError);
+      int dim,
+      bool copy = true,
+      bool useGpu = isUsingGpu()) throw(UnsupportError);
  /**
   * Create Cpu IVector from numpy array, which dtype=int32
   *
   * If copy is false, it will create vector inplace
   */
-  static IVector* createCpuVectorFromNumpy(int* data, int dim,
+  static IVector* createCpuVectorFromNumpy(int* data,
+                                           int dim,
                                           bool copy = false);
  /**
   * Create Gpu IVector from numpy array, which dtype=int32
@@ -605,7 +622,8 @@ class ParameterTraverseCallback {
 public:
  ~ParameterTraverseCallback();
-  void apply(const std::vector<Vector*>& vecs, const ParameterConfig& config,
+  void apply(const std::vector<Vector*>& vecs,
+             const ParameterConfig& config,
             size_t sparseId);
 private:
@@ -638,7 +656,8 @@ public:
  void finishBatch();
-  void update(const std::vector<Vector*>& vecs, const ParameterConfig& conf,
+  void update(const std::vector<Vector*>& vecs,
+              const ParameterConfig& conf,
              size_t sparseId = NO_SPARSE_ID);
  std::vector<int> getParameterTypes() const;
@@ -678,7 +697,8 @@ public:
   * model config by TrainerConfig
   */
  static GradientMachine* createByModelConfig(
-      ModelConfig* conf, GradientMatchineCreateMode mode = CREATE_MODE_NORMAL,
+      ModelConfig* conf,
+      GradientMatchineCreateMode mode = CREATE_MODE_NORMAL,
      const std::vector<int>& parameterTypes = defaultParamTypes);
  /**
@@ -701,7 +721,8 @@ public:
  /**
   * Combine forward/backward
   */
-  void forwardBackward(const Arguments& inArgs, Arguments* outArgs,
+  void forwardBackward(const Arguments& inArgs,
+                       Arguments* outArgs,
                       PassType passType,
                       const UpdateCallback& callback = UpdateCallback());
@@ -722,14 +743,17 @@ public:
   */
  SequenceGenerator* asSequenceGenerator(
      const std::vector<std::string>& dict = std::vector<std::string>(),
-      size_t begin_id = 0UL, size_t end_id = 0UL, size_t max_length = 100UL,
+      size_t begin_id = 0UL,
+      size_t end_id = 0UL,
+      size_t max_length = 100UL,
      size_t beam_size = -1UL);
 private:
  GradientMachinePrivate* m;
  static GradientMachine* createFromPaddleModelPtr(
-      const void* confPtr, GradientMatchineCreateMode mode,
+      const void* confPtr,
+      GradientMatchineCreateMode mode,
      const std::vector<int>& types);
  // Not to use c++ 11 init-list, so we use static var as function default arg.
@@ -751,8 +775,8 @@ public:
  /// Create A Trainer By TrainerConfig. using paddle command line.
  static Trainer* createByCommandLine() throw(IOError);
-  static Trainer* create(TrainerConfig* optConfig, GradientMachine* gm)
+  static Trainer* create(TrainerConfig* optConfig,
-      throw(IOError);
+                         GradientMachine* gm) throw(IOError);
  /// Start training
  void startTrain();

--- a/paddle/api/Parameter.cpp
+++ b/paddle/api/Parameter.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/parameter/Parameter.h"

--- a/paddle/api/ParameterOptimizer.cpp
+++ b/paddle/api/ParameterOptimizer.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "PaddleAPIPrivate.h"
 #include "paddle/parameter/ParameterOptimizer.h"
@@ -32,17 +31,21 @@ struct ParameterTraverseCallbackPrivate {
      const paddle::ParameterOptimizer::TraverseCallback& callback)
      : callback(callback) {}
-  void apply(const std::vector<Vector*>& vecs, const ParameterConfig& conf,
+  void apply(const std::vector<Vector*>& vecs,
+             const ParameterConfig& conf,
             size_t sparseId) {
    std::vector<paddle::VectorPtr> real_vecs;
    real_vecs.resize(vecs.size());
-    std::transform(vecs.begin(), vecs.end(), real_vecs.begin(), [](Vector* v) {
+    std::transform(vecs.begin(),
-      if (v) {
+                   vecs.end(),
-        return *(paddle::VectorPtr*)(v->getSharedPtr());
+                   real_vecs.begin(),
-      } else {
+                   [](Vector* v) {
-        return paddle::VectorPtr();
+                     if (v) {
-      }
+                       return *(paddle::VectorPtr*)(v->getSharedPtr());
-    });
+                     } else {
+                       return paddle::VectorPtr();
+                     }
+                   });
    paddle::ParameterConfig& real_conf =
        *(paddle::ParameterConfig*)(const_cast<ParameterConfig&>(conf)
@@ -86,10 +89,12 @@ void ParameterOptimizer::startBatch(size_t numSamplesProcessed) {
 void ParameterOptimizer::finishBatch() { m->optimizer->finishBatch(); }
 void ParameterOptimizer::update(const std::vector<Vector*>& vecs,
-                                const ParameterConfig& conf, size_t sparseId) {
+                                const ParameterConfig& conf,
-  ParameterTraverseCallbackPrivate invoker([&](
+                                size_t sparseId) {
-      const paddle::VectorPtr _vecs[], const paddle::ParameterConfig& config,
+  ParameterTraverseCallbackPrivate invoker(
-      size_t sid = -1UL) { m->optimizer->update(_vecs, config, sid); });
+      [&](const paddle::VectorPtr _vecs[],
+          const paddle::ParameterConfig& config,
+          size_t sid = -1UL) { m->optimizer->update(_vecs, config, sid); });
  invoker.apply(vecs, conf, sparseId);
 }
@@ -116,8 +121,9 @@ void ParameterTraverseCallback::apply(const std::vector<Vector*>& vecs,
 ParameterTraverseCallback* ParameterOptimizer::needSpecialTraversal(
    const ParameterConfig& config) const {
-  auto& param_config = *(paddle::ParameterConfig*)const_cast<ParameterConfig&>(
+  auto& param_config =
-                            config).getRawPtr();
+      *(paddle::ParameterConfig*)const_cast<ParameterConfig&>(config)
+           .getRawPtr();
  auto callback = m->optimizer->needSpecialTraversal(param_config);
  if (callback) {
    auto retCallback = new ParameterTraverseCallback();

--- a/paddle/api/SequenceGenerator.cpp
+++ b/paddle/api/SequenceGenerator.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/gserver/gradientmachines/GradientMachine.h"
 #include "paddle/parameter/Argument.h"
@@ -42,8 +41,10 @@ struct Path {
 // position
 static void findNBest(paddle::GradientMachine* gradMachine,
                      std::vector<paddle::Argument>& inArgs,
-                      std::vector<Path>& finalPaths, size_t bos_id,
+                      std::vector<Path>& finalPaths,
-                      size_t eos_id, size_t max_length) {
+                      size_t bos_id,
+                      size_t eos_id,
+                      size_t max_length) {
  std::vector<Path> paths;
  Path emptyPath;
  paths.push_back(emptyPath);
@@ -166,7 +167,8 @@ public:
    if (id < getSize()) {
      Path& p = (*path_)[id];
      std::ostringstream sout;
-      std::transform(p.ids.begin(), p.ids.end(),
+      std::transform(p.ids.begin(),
+                     p.ids.end(),
                     std::ostream_iterator<std::string>(sout, split ? " " : ""),
                     [&](int id) { return (*dict_)[id]; });
      return sout.str();

--- a/paddle/api/Trainer.cpp
+++ b/paddle/api/Trainer.cpp
@@ -64,12 +64,11 @@ Trainer* Trainer::createByCommandLine() throw(IOError) {
 Trainer::Trainer(TrainerConfig* config, GradientMachine* gm)
    : m(new TrainerPrivate()) {
-  m->init(config->m->conf, /* testing= */false, gm ? gm->m->machine : nullptr);
+  m->init(config->m->conf, /* testing= */ false, gm ? gm->m->machine : nullptr);
 }
-Trainer* Trainer::create(TrainerConfig* config, GradientMachine* gm)
+Trainer* Trainer::create(TrainerConfig* config,
-    throw(IOError)
+                         GradientMachine* gm) throw(IOError) {
-{
  auto retv = new Trainer(config, gm);
  if (retv->m->getConfig().IsInitialized()) {
    return retv;
@@ -134,15 +133,17 @@ void Trainer::finishTestPeriod() { m->finishTestPeriod(); }
 Matrix* Trainer::getLayerOutput(const std::string& layerName) {
  auto nn = std::dynamic_pointer_cast<paddle::NeuralNetwork>(
-          this->m->getGradientMachine());
+      this->m->getGradientMachine());
  CHECK(nn) << "trainerInternal_.getGradientMachine() is not NeuralNetwork";
  auto m = nn->getLayerOutput(layerName);
  return Matrix::createByPaddleMatrixPtr(&m);
 }
-void Trainer::forwardOneBatch(size_t batchSize) { m->forwardOneBatch(batchSize); }
+void Trainer::forwardOneBatch(size_t batchSize) {
+  m->forwardOneBatch(batchSize);
+}
-bool TrainerPrivate::forwardOneBatch(size_t batchSize)  {
+bool TrainerPrivate::forwardOneBatch(size_t batchSize) {
  CHECK(dataProvider_) << "data_provider is not specified";
  paddle::DataBatch dataBatch;
  int num = dataProvider_->getNextBatch(batchSize, &dataBatch);
@@ -156,7 +157,6 @@ bool TrainerPrivate::forwardOneBatch(size_t batchSize)  {
 void TrainerPrivate::forwardOneDataBatch(
    const std::vector<paddle::Argument>& inArgs) {
  std::vector<paddle::Argument>& outArgs = forwardOutput_;
  if (config_->getOptConfig().use_sparse_remote_updater()) {

--- a/paddle/api/Util.cpp
+++ b/paddle/api/Util.cpp
@@ -37,13 +37,15 @@ FloatArray::FloatArray(const float* b, const size_t l)
 IntArray::IntArray(const int* b, const size_t l, bool f)
    : buf(b), length(l), needFree(f) {}
-IntWithFloatArray::IntWithFloatArray(const float* v, const int* i, size_t l,
+IntWithFloatArray::IntWithFloatArray(const float* v,
+                                     const int* i,
+                                     size_t l,
                                     bool f)
    : valBuf(v), idxBuf(i), length(l), needFree(f) {}
-bool isUsingGpu() {return FLAGS_use_gpu;}
+bool isUsingGpu() { return FLAGS_use_gpu; }
-void setUseGpu(bool useGpu) {FLAGS_use_gpu = useGpu;}
+void setUseGpu(bool useGpu) { FLAGS_use_gpu = useGpu; }
 bool isGpuVersion() {
 #ifdef PADDLE_ONLY_CPU

--- a/paddle/api/Vector.cpp
+++ b/paddle/api/Vector.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "PaddleAPI.h"
 #include "paddle/math/Vector.h"
@@ -39,8 +38,10 @@ IVector* IVector::create(const std::vector<int>& data, bool useGpu) {
  return v;
 }
-IVector* IVector::createVectorFromNumpy(int* data, int dim, bool copy,
+IVector* IVector::createVectorFromNumpy(int* data,
-                                        bool useGpu) throw (UnsupportError){
+                                        int dim,
+                                        bool copy,
+                                        bool useGpu) throw(UnsupportError) {
  if (useGpu) {
    /// if use gpu only copy=true is supported
    if (!copy) {
@@ -137,8 +138,8 @@ void IVector::copyToNumpyArray(int** view_m_data, int* dim1) {
  if (auto cpuVec = dynamic_cast<paddle::CpuIVector*>(m->vec.get())) {
    std::memcpy(*view_m_data, cpuVec->getData(), sizeof(int) * (*dim1));
  } else if (auto gpuVec = dynamic_cast<paddle::GpuIVector*>(m->vec.get())) {
-    hl_memcpy_device2host(*view_m_data, gpuVec->getData(),
+    hl_memcpy_device2host(
-                          sizeof(int) * (*dim1));
+        *view_m_data, gpuVec->getData(), sizeof(int) * (*dim1));
  } else {
    LOG(INFO) << "Unexpected situation";
  }
@@ -201,8 +202,10 @@ Vector* Vector::createByPaddleVectorPtr(void* ptr) {
  }
 }
-Vector* Vector::createVectorFromNumpy(float* data, int dim, bool copy,
+Vector* Vector::createVectorFromNumpy(float* data,
-                                      bool useGpu) throw (UnsupportError){
+                                      int dim,
+                                      bool copy,
+                                      bool useGpu) throw(UnsupportError) {
  if (useGpu) {
    /// if use gpu only copy=True is supported
    if (!copy) {
@@ -251,8 +254,8 @@ void Vector::copyToNumpyArray(float** view_m_data, int* dim1) {
  if (auto cpuVec = dynamic_cast<paddle::CpuVector*>(m->vec.get())) {
    std::memcpy(*view_m_data, cpuVec->getData(), sizeof(float) * (*dim1));
  } else if (auto gpuVec = dynamic_cast<paddle::CpuVector*>(m->vec.get())) {
-    hl_memcpy_device2host(*view_m_data, gpuVec->getData(),
+    hl_memcpy_device2host(
-                          sizeof(float) * (*dim1));
+        *view_m_data, gpuVec->getData(), sizeof(float) * (*dim1));
  } else {
    LOG(INFO) << "Unexpected situation";
  }

--- a/paddle/cuda/include/hl_activation_functions.h
+++ b/paddle/cuda/include/hl_activation_functions.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_ACTIVATION_FUNCTIONS_H_
 #define HL_ACTIVATION_FUNCTIONS_H_
@@ -21,11 +20,8 @@ limitations under the License. */
 /**
 * Active functions: sigmoid, relu, tanh and linear.
 */
-#define HPPL_ACTIVE_FUNCTION  {hppl::sigmoid,   \
+#define HPPL_ACTIVE_FUNCTION \
-                               hppl::relu,      \
+  { hppl::sigmoid, hppl::relu, hppl::tanh, hppl::linear }
-                               hppl::tanh,      \
-                               hppl::linear     \
-                              }
 namespace hppl {
@@ -42,18 +38,18 @@ public:
 #ifdef __NVCC__
 namespace gpu {
-static __device__ Active<real>::forward  forward[]  = HPPL_ACTIVE_FUNCTION;
+static __device__ Active<real>::forward forward[] = HPPL_ACTIVE_FUNCTION;
 static __device__ Active<real>::backward backward[] = HPPL_ACTIVE_FUNCTION;
 }
 #else
 namespace cpu {
-static Active<real>::forward  forward[] = HPPL_ACTIVE_FUNCTION;
+static Active<real>::forward forward[] = HPPL_ACTIVE_FUNCTION;
 static Active<real>::backward backward[] = HPPL_ACTIVE_FUNCTION;
 }
 #ifdef __AVX__
 namespace avx {
-static Active<__m256>::forward  forward[] = HPPL_ACTIVE_FUNCTION;
+static Active<__m256>::forward forward[] = HPPL_ACTIVE_FUNCTION;
 static Active<__m256>::backward backward[] = HPPL_ACTIVE_FUNCTION;
 }
 #endif

--- a/paddle/cuda/include/hl_aggregate.h
+++ b/paddle/cuda/include/hl_aggregate.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_AGGREGATE_H_
 #define HL_AGGREGATE_H_

--- a/paddle/cuda/include/hl_avx_functions.h
+++ b/paddle/cuda/include/hl_avx_functions.h
@@ -12,22 +12,21 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_AVX_FUNCTIONS_H_
 #define HL_AVX_FUNCTIONS_H_
 #include <immintrin.h>
 namespace hppl {
-  __m256 relu(const __m256 a);
+__m256 relu(const __m256 a);
-  __m256 sigmoid(const __m256 a);
+__m256 sigmoid(const __m256 a);
-  __m256 tanh(const __m256 a);
+__m256 tanh(const __m256 a);
-  __m256 linear(const __m256 a);
+__m256 linear(const __m256 a);
-  __m256 relu(const __m256 a, const __m256 b);
+__m256 relu(const __m256 a, const __m256 b);
-  __m256 sigmoid(const __m256 a, const __m256 b);
+__m256 sigmoid(const __m256 a, const __m256 b);
-  __m256 tanh(const __m256 a, const __m256 b);
+__m256 tanh(const __m256 a, const __m256 b);
-  __m256 linear(const __m256 a, const __m256 b);
+__m256 linear(const __m256 a, const __m256 b);
 }  // namespace hppl
 #endif  // HL_AVX_FUNCTIONS_H_
--- a/paddle/cuda/include/hl_base.h
+++ b/paddle/cuda/include/hl_base.h
@@ -12,8 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_BASE_H_
 #define HL_BASE_H_
@@ -33,36 +31,36 @@ limitations under the License. */
 *          HPPL_STREAM_DEFAULT is HPPL default stream.
 */
 typedef enum {
-    HPPL_STREAM_DEFAULT = 0,    /* Thread Default Stream*/
+  HPPL_STREAM_DEFAULT = 0, /* Thread Default Stream*/
-    HPPL_STREAM_1 = 1,
+  HPPL_STREAM_1 = 1,
-    HPPL_STREAM_2 = 2,
+  HPPL_STREAM_2 = 2,
-    HPPL_STREAM_3 = 3,
+  HPPL_STREAM_3 = 3,
-    HPPL_STREAM_4 = 4,
+  HPPL_STREAM_4 = 4,
-    HPPL_THREAD_STREAM_1 = 5,
+  HPPL_THREAD_STREAM_1 = 5,
-    HPPL_THREAD_STREAM_2 = 6,
+  HPPL_THREAD_STREAM_2 = 6,
-    HPPL_THREAD_STREAM_3 = 7,
+  HPPL_THREAD_STREAM_3 = 7,
-    HPPL_THREAD_STREAM_4 = 8,
+  HPPL_THREAD_STREAM_4 = 8,
-    HPPL_STREAM_END
+  HPPL_STREAM_END
 } hl_stream_t;
 /**
 * @brief HPPL activation mode.
 */
 typedef enum {
-    HL_ACTIVATION_SIGMOID   = 0,
+  HL_ACTIVATION_SIGMOID = 0,
-    HL_ACTIVATION_RELU      = 1,
+  HL_ACTIVATION_RELU = 1,
-    HL_ACTIVATION_TANH      = 2,
+  HL_ACTIVATION_TANH = 2,
-    HL_ACTIVATION_LINEAR    = 3,
+  HL_ACTIVATION_LINEAR = 3,
-    HL_ACTIVATION_END
+  HL_ACTIVATION_END
 } hl_activation_mode_t;
 /**
 * @brief Transpose type.
 */
 typedef enum {
-    HPPL_OP_N = 0, /* transpose */
+  HPPL_OP_N = 0, /* transpose */
-    HPPL_OP_T = 1, /* non transpose */
+  HPPL_OP_T = 1, /* non transpose */
-    HPPL_OP_END
+  HPPL_OP_END
 } hl_trans_op_t;
 /**
@@ -148,23 +146,21 @@ typedef struct {
 * @brief  Sparse matrix value type.
 */
 typedef enum {
-    HL_NO_VALUE = 0,                       /* matrix values only 0 or 1 */
+  HL_NO_VALUE = 0, /* matrix values only 0 or 1 */
-    HL_FLOAT_VALUE = 1,
+  HL_FLOAT_VALUE = 1,
-    HL_VALUE_END
+  HL_VALUE_END
 } hl_matrix_value_t;
 /**
 * @brief  HPPL matrix format.
 */
 typedef enum {
-    HL_SPARSE_CSR = 0,
+  HL_SPARSE_CSR = 0,
-    HL_SPARSE_CSC = 1,
+  HL_SPARSE_CSC = 1,
-    HL_SPARSE_END
+  HL_SPARSE_END
 } hl_matrix_format_t;
+typedef struct _hl_matrix_s *hl_matrix_s;
-typedef struct _hl_matrix_s * hl_matrix_s;
 /**
 * @brief   HPPL sparse matrix.
@@ -177,12 +173,12 @@ typedef struct _hl_matrix_s * hl_matrix_s;
 * @param  nnz        nonzero values of sparse matrix.
 */
 typedef struct {
-    hl_matrix_s             matrix;
+  hl_matrix_s matrix;
-    hl_matrix_format_t      format;
+  hl_matrix_format_t format;
-    hl_matrix_value_t       type;
+  hl_matrix_value_t type;
-    int                     rows;
+  int rows;
-    int                     cols;
+  int cols;
-    size_t                  nnz;
+  size_t nnz;
 } _hl_sparse_matrix_s, *hl_sparse_matrix_s;
 #ifndef PADDLE_TYPE_DOUBLE
@@ -195,7 +191,7 @@ typedef struct {
 *
 * HL_FLOAT_MIN: 1.17549435e-38F
 */
-#define HL_FLOAT_MAX        3.40282347e+38F
+#define HL_FLOAT_MAX 3.40282347e+38F
 /**
 * if real == double
 *
@@ -203,20 +199,18 @@ typedef struct {
 *
 * HL_FLOAT_MIN: 2.2250738585072014e-308
 */
-#define HL_FLOAT_MIN        1.17549435e-38F
+#define HL_FLOAT_MIN 1.17549435e-38F
 #else
-#define HL_FLOAT_MAX        1.7976931348623157e+308
+#define HL_FLOAT_MAX 1.7976931348623157e+308
-#define HL_FLOAT_MIN        2.2250738585072014e-308
+#define HL_FLOAT_MIN 2.2250738585072014e-308
 #endif
 /**
 * The maximum input value for exp, used to avoid overflow problem.
 *
 * Currently only used for tanh function.
 */
-#define EXP_MAX_INPUT       40.0
+#define EXP_MAX_INPUT 40.0
 /**
 * @brief DIVUP(x, y) is similar to ceil(x / y).
@@ -224,7 +218,7 @@ typedef struct {
 *        the size of blockDim.
 */
 #ifndef DIVUP
-#define DIVUP(x, y) (((x) + (y) - 1) / (y))
+#define DIVUP(x, y) (((x) + (y)-1) / (y))
 #endif
 #ifdef __NVCC__
@@ -233,7 +227,7 @@ typedef struct {
 #include "hl_cuda.h"
 #include "cuda_runtime.h"
-extern  __thread bool g_sync_flag;
+extern __thread bool g_sync_flag;
 extern __thread cudaStream_t default_stream;
 #define STREAM_DEFAULT default_stream
@@ -241,16 +235,15 @@ extern __thread cudaStream_t default_stream;
 * @brief   Check cuda kernel execution.
 * @param   msg   error string
 */
-#define CHECK_SYNC(msg)                                   \
+#define CHECK_SYNC(msg)                                               \
-  if (true == g_sync_flag) {                              \
+  if (true == g_sync_flag) {                                          \
-    hl_stream_synchronize(HPPL_STREAM_DEFAULT);           \
+    hl_stream_synchronize(HPPL_STREAM_DEFAULT);                       \
-    cudaError_t err                                       \
+    cudaError_t err = (cudaError_t)hl_get_device_last_error();        \
-      = (cudaError_t)hl_get_device_last_error();          \
+    CHECK_EQ(cudaSuccess, err)                                        \
-    CHECK_EQ(cudaSuccess, err) << "[" << msg << "] "      \
+        << "[" << msg << "] "                                         \
-      << "CUDA error: "                                   \
+        << "CUDA error: " << hl_get_device_error_string((size_t)err); \
-      << hl_get_device_error_string((size_t)err);         \
  }
-#endif  /* __NVCC__ */
+#endif /* __NVCC__ */
-#endif  /* HL_BASE_H_ */
+#endif /* HL_BASE_H_ */
--- a/paddle/cuda/include/hl_batch_transpose.h
+++ b/paddle/cuda/include/hl_batch_transpose.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_BATCH_TRANSPOSE_H_
 #define HL_BATCH_TRANSPOSE_H_
@@ -31,10 +30,7 @@ limitations under the License. */
 *          order. Each batch has height * width data, which are
 *          arranged in height-first (or row-first) manner.
 */
-extern void batchTranspose(const real* input,
+extern void batchTranspose(
-                           real* output,
+    const real* input, real* output, int width, int height, int batchSize);
-                           int width,
-                           int height,
-                           int batchSize);
 #endif  // HL_BATCH_TRANSPOSE_H_
--- a/paddle/cuda/include/hl_cnn.h
+++ b/paddle/cuda/include/hl_cnn.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CNN_H_
 #define HL_CNN_H_
@@ -37,15 +36,21 @@ limitations under the License. */
 * @param[in]   alpha
 * @param[in]   beta
 */
-extern void hl_shrink_col2feature(
+extern void hl_shrink_col2feature(const real* dataCol,
-    const real * dataCol, size_t channels,
+                                  size_t channels,
-    size_t height, size_t width,
+                                  size_t height,
-    size_t blockH, size_t blockW,
+                                  size_t width,
-    size_t strideH, size_t strideW,
+                                  size_t blockH,
-    size_t paddingH, size_t paddingW,
+                                  size_t blockW,
-    size_t outputH, size_t outputW,
+                                  size_t strideH,
-    real* dataIm,
+                                  size_t strideW,
-    real alpha = 1.0f, real beta = 0.0f);
+                                  size_t paddingH,
+                                  size_t paddingW,
+                                  size_t outputH,
+                                  size_t outputW,
+                                  real* dataIm,
+                                  real alpha = 1.0f,
+                                  real beta = 0.0f);
 /**
 * @brief   Expand feature to column.
@@ -65,14 +70,19 @@ extern void hl_shrink_col2feature(
 * @param[out]  dataCol     expand data.
 *
 */
-extern void hl_expand_feature2col(
+extern void hl_expand_feature2col(const real* dataIm,
-    const real* dataIm, size_t channels,
+                                  size_t channels,
-    size_t height, size_t width,
+                                  size_t height,
-    size_t blockH, size_t blockW,
+                                  size_t width,
-    size_t strideH, size_t strideW,
+                                  size_t blockH,
-    size_t paddingH, size_t paddingW,
+                                  size_t blockW,
-    size_t outputH, size_t outputW,
+                                  size_t strideH,
-    real* dataCol);
+                                  size_t strideW,
+                                  size_t paddingH,
+                                  size_t paddingW,
+                                  size_t outputH,
+                                  size_t outputW,
+                                  real* dataCol);
 /**
 * @brief   Maximum pool forward.
@@ -94,15 +104,21 @@ extern void hl_expand_feature2col(
 * @param[in]   tgtStride   stride between output data samples.
 *
 */
-extern void hl_maxpool_forward(
+extern void hl_maxpool_forward(const int frameCnt,
-    const int frameCnt, const real* inputData,
+                               const real* inputData,
-    const int channels,
+                               const int channels,
-    const int height, const int width,
+                               const int height,
-    const int pooledH, const int pooledW,
+                               const int width,
-    const int sizeX, const int sizeY,
+                               const int pooledH,
-    const int strideH, const int strideW,
+                               const int pooledW,
-    const int paddingH, const int paddingW,
+                               const int sizeX,
-    real* tgtData, const int tgtStride);
+                               const int sizeY,
+                               const int strideH,
+                               const int strideW,
+                               const int paddingH,
+                               const int paddingW,
+                               real* tgtData,
+                               const int tgtStride);
 /**
 * @brief   Maximum pool backward.
@@ -125,20 +141,28 @@ extern void hl_maxpool_forward(
 * @param[in]   paddingH    padding height.
 * @param[in]   paddingW    padding width.
 * @param[out]  targetGrad  output grad.
- * @param[in]   outStride   stride between output data samples. 
+ * @param[in]   outStride   stride between output data samples.
 *
 */
-extern void hl_maxpool_backward(
+extern void hl_maxpool_backward(const int frameCnt,
-    const int frameCnt, const real* inputData,
+                                const real* inputData,
-    const real* outData, const real* outGrad,
+                                const real* outData,
-    const int channels, const int height,
+                                const real* outGrad,
-    const int width,
+                                const int channels,
-    const int pooledH, const int pooledW,
+                                const int height,
-    const int sizeX, const int sizeY,
+                                const int width,
-    const int strideH, const int strideW,
+                                const int pooledH,
-    const int paddingH, const int paddingW,
+                                const int pooledW,
-    real scaleA, real scaleB,
+                                const int sizeX,
-    real* targetGrad, const int outStride);
+                                const int sizeY,
+                                const int strideH,
+                                const int strideW,
+                                const int paddingH,
+                                const int paddingW,
+                                real scaleA,
+                                real scaleB,
+                                real* targetGrad,
+                                const int outStride);
 /**
 * @brief   Averge pool forward.
@@ -160,15 +184,21 @@ extern void hl_maxpool_backward(
 * @param[in]   tgtStride   stride between output data samples.
 *
 */
-extern void hl_avgpool_forward(
+extern void hl_avgpool_forward(const int frameCnt,
-    const int frameCnt, const real* inputData,
+                               const real* inputData,
-    const int channels,
+                               const int channels,
-    const int height, const int width,
+                               const int height,
-    const int pooledH, const int pooledW,
+                               const int width,
-    const int sizeX, const int sizeY,
+                               const int pooledH,
-    const int strideH, const int strideW,
+                               const int pooledW,
-    const int paddingH, const int paddingW,
+                               const int sizeX,
-    real* tgtData, const int tgtStride);
+                               const int sizeY,
+                               const int strideH,
+                               const int strideW,
+                               const int paddingH,
+                               const int paddingW,
+                               real* tgtData,
+                               const int tgtStride);
 /**
 * @brief   Maximum pool backward.
@@ -189,19 +219,26 @@ extern void hl_avgpool_forward(
 * @param[in]   scaleA      scale.
 * @param[in]   scaleB      scale.
 * @param[out]  backGrad    output grad.
- * @param[in]   outStride   stride between output data samples. 
+ * @param[in]   outStride   stride between output data samples.
 *
 */
-extern void hl_avgpool_backward(
+extern void hl_avgpool_backward(const int frameCnt,
-    const int frameCnt, const real* outGrad,
+                                const real* outGrad,
-    const int channels, const int height,
+                                const int channels,
-    const int width,
+                                const int height,
-    const int pooledH, const int pooledW,
+                                const int width,
-    const int sizeX, const int sizeY,
+                                const int pooledH,
-    const int strideH, const int strideW,
+                                const int pooledW,
-    int paddingH, int paddingW,
+                                const int sizeX,
-    real scaleA, real scaleB,
+                                const int sizeY,
-    real* backGrad, const int outStride);
+                                const int strideH,
+                                const int strideW,
+                                int paddingH,
+                                int paddingW,
+                                real scaleA,
+                                real scaleB,
+                                real* backGrad,
+                                const int outStride);
 /**
 * @brief   Cross-map-respose normalize forward.
@@ -218,10 +255,16 @@ extern void hl_avgpool_backward(
 * @param[in]   beta        scale.
 *
 */
-extern void hl_CMRNorm_forward(
+extern void hl_CMRNorm_forward(size_t frameCnt,
-    size_t frameCnt, const real* in, real* scale, real* out,
+                               const real* in,
-    size_t channels, size_t height, size_t width, size_t sizeX,
+                               real* scale,
-    real alpha, real beta);
+                               real* out,
+                               size_t channels,
+                               size_t height,
+                               size_t width,
+                               size_t sizeX,
+                               real alpha,
+                               real beta);
 /**
 * @brief   Cross-map-respose normalize backward.
@@ -240,11 +283,18 @@ extern void hl_CMRNorm_forward(
 * @param[in]   beta        scale.
 *
 */
-extern void hl_CMRNorm_backward(
+extern void hl_CMRNorm_backward(size_t frameCnt,
-    size_t frameCnt, const real* inV, const real* scale,
+                                const real* inV,
-    const real* outV, const real* outDiff, real *inDiff,
+                                const real* scale,
-    size_t channels, size_t height, size_t width, size_t sizeX,
+                                const real* outV,
-    real alpha, real beta);
+                                const real* outDiff,
+                                real* inDiff,
+                                size_t channels,
+                                size_t height,
+                                size_t width,
+                                size_t sizeX,
+                                real alpha,
+                                real beta);
 /**
 * @brief   Bilinear interpolation forward.
@@ -278,24 +328,24 @@ extern void hl_bilinear_forward(const real* inData,
                                const real ratioH,
                                const real ratioW);
- /**
+/**
- * @brief   Bilinear interpolation backward.
+* @brief   Bilinear interpolation backward.
- *
+*
- * @param[out]  inGrad      input gradient.
+* @param[out]  inGrad      input gradient.
- * @param[in]   inImgH      input image height.
+* @param[in]   inImgH      input image height.
- * @param[in]   inImgW      input image width.
+* @param[in]   inImgW      input image width.
- * @param[in]   inputH      input batchSize.
+* @param[in]   inputH      input batchSize.
- * @param[in]   inputW      input image data dim.
+* @param[in]   inputW      input image data dim.
- * @param[in]   outGrad     output gradient.
+* @param[in]   outGrad     output gradient.
- * @param[in]   outImgH     output image height.
+* @param[in]   outImgH     output image height.
- * @param[in]   outImgW     output image width.
+* @param[in]   outImgW     output image width.
- * @param[in]   outputH     output batchSize.
+* @param[in]   outputH     output batchSize.
- * @param[in]   outputW     output image data dim.
+* @param[in]   outputW     output image data dim.
- * @param[in]   numChannels number of channels.
+* @param[in]   numChannels number of channels.
- * @param[in]   ratioH      inImgH / outImgH.
+* @param[in]   ratioH      inImgH / outImgH.
- * @param[in]   ratioW      inImgW / outImgW.
+* @param[in]   ratioW      inImgW / outImgW.
- *
+*
- */                               
+*/
 extern void hl_bilinear_backward(real* inGrad,
                                 const size_t inImgH,
                                 const size_t inImgW,
@@ -321,9 +371,13 @@ extern void hl_bilinear_backward(real* inGrad,
 * @param[in]   featLen     feature length = image height * image width.
 * @param[in]   groups      number of groups.
 */
-extern void hl_maxout_forward(
+extern void hl_maxout_forward(const real* inData,
-    const real* inData, real* outData, int* idData,
+                              real* outData,
-    size_t batchSize, size_t size, size_t featLen, size_t groups);
+                              int* idData,
+                              size_t batchSize,
+                              size_t size,
+                              size_t featLen,
+                              size_t groups);
 /**
 * @brief   MaxOut backward.
@@ -336,8 +390,12 @@ extern void hl_maxout_forward(
 * @param[in]   featLen     feature length = image height * image width.
 * @param[in]   groups      number of groups.
 */
-extern void hl_maxout_backward(
+extern void hl_maxout_backward(real* inGrad,
-    real* inGrad, const real* outGrad, const int* idData,
+                               const real* outGrad,
-    size_t batchSize, size_t size, size_t featLen, size_t groups);
+                               const int* idData,
+                               size_t batchSize,
+                               size_t size,
+                               size_t featLen,
+                               size_t groups);
 #endif /* HL_CNN_H_ */
--- a/paddle/cuda/include/hl_cuda.h
+++ b/paddle/cuda/include/hl_cuda.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_H_
 #define HL_CUDA_H_
@@ -22,8 +21,7 @@ limitations under the License. */
 /**
 * @brief   HPPL event.
 */
-typedef struct _hl_event_st *  hl_event_t;
+typedef struct _hl_event_st *hl_event_t;
 /**
 * @brief return cuda runtime api version.
@@ -42,7 +40,7 @@ extern void hl_start();
 *                      if device is NULL, will start all GPU.
 * @param[in]   number  number of devices.
 */
-extern void hl_specify_devices_start(int* device, int number);
+extern void hl_specify_devices_start(int *device, int number);
 /**
 * @brief   Queries if a device may directly access a peer device's memory.
@@ -126,7 +124,7 @@ extern int hl_get_device();
 *
 * @return      dest_d   pointer to device memory.
 */
-extern void* hl_malloc_device(size_t size);
+extern void *hl_malloc_device(size_t size);
 /**
 * @brief   Free device memory.
@@ -143,7 +141,7 @@ extern void hl_free_mem_device(void *dest_d);
 *
 * @return      dest_h   pointer to host memory.
 */
-extern void* hl_malloc_host(size_t size);
+extern void *hl_malloc_host(size_t size);
 /**
 * @brief   Free host page-lock memory.
@@ -228,9 +226,9 @@ extern void hl_srand(unsigned int seed);
 * @param[in]   stream  stream id.
 */
 extern void hl_memcpy_async(void *dst,
-                           void *src,
+                            void *src,
-                           size_t size,
+                            size_t size,
-                           hl_stream_t stream);
+                            hl_stream_t stream);
 /**
 * @brief   Waits for stream tasks to complete.
@@ -261,8 +259,7 @@ extern void hl_destroy_event(hl_event_t event);
 *
 * @return      time   Time between start and end in ms.
 */
-extern float hl_event_elapsed_time(hl_event_t start,
+extern float hl_event_elapsed_time(hl_event_t start, hl_event_t end);
-                                   hl_event_t end);
 /**
 * @brief   Records an event.
@@ -300,7 +297,7 @@ extern void hl_set_device_flags_block();
 /**
 * @brief   Returns the last error string from a cuda runtime call.
 */
-extern const char* hl_get_device_error_string();
+extern const char *hl_get_device_error_string();
 /**
 * @brief     Returns the last error string from a cuda runtime call.
@@ -309,7 +306,7 @@ extern const char* hl_get_device_error_string();
 *
 * @see       hl_get_device_last_error()
 */
-extern const char* hl_get_device_error_string(size_t err);
+extern const char *hl_get_device_error_string(size_t err);
 /**
 * @brief   Returns the last error number.

--- a/paddle/cuda/include/hl_cuda_cublas.h
+++ b/paddle/cuda/include/hl_cuda_cublas.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_CUBLAS_H_
 #define HL_CUDA_CUBLAS_H_
@@ -29,12 +28,8 @@ limitations under the License. */
 * @param[in]   ldc     the first dimension of C_d.
 *
 */
-extern void hl_matrix_transpose(real *A_d,
+extern void hl_matrix_transpose(
-                                real *C_d,
+    real *A_d, real *C_d, int dimM, int dimN, int lda, int ldc);
-                                int dimM,
-                                int dimN,
-                                int lda,
-                                int ldc);
 /*
 * @brief Matrix transpose, while lda = dimN, ldc = dimM.
@@ -45,10 +40,7 @@ extern void hl_matrix_transpose(real *A_d,
 * @param[in]   dimN    matrix width.
 *
 */
-extern void hl_matrix_transpose(real *A_d,
+extern void hl_matrix_transpose(real *A_d, real *C_d, int dimM, int dimN);
-                                real *C_d,
-                                int dimM,
-                                int dimN);
 /*
 * @brief Matrix inverse
@@ -60,11 +52,7 @@ extern void hl_matrix_transpose(real *A_d,
 * @param[in]   ldc    the first dimension of C_d
 *
 */
-extern void hl_matrix_inverse(real *A_d,
+extern void hl_matrix_inverse(real *A_d, real *C_d, int dimN, int lda, int ldc);
-                              real *C_d,
-                              int dimN,
-                              int lda,
-                              int ldc);
 /**
 * @brief   C_d = alpha*(op(A_d) * op(B_d)) + beta*C_d
@@ -84,12 +72,19 @@ extern void hl_matrix_inverse(real *A_d,
 * @param[in]   ldc     the first dimension of C_d.
 *
 */
-extern void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
+extern void hl_matrix_mul(real *A_d,
-                          real *B_d, hl_trans_op_t transb,
+                          hl_trans_op_t transa,
+                          real *B_d,
+                          hl_trans_op_t transb,
                          real *C_d,
-                          int dimM, int dimN, int dimK,
+                          int dimM,
-                          real alpha, real beta,
+                          int dimN,
-                          int lda, int ldb, int ldc);
+                          int dimK,
+                          real alpha,
+                          real beta,
+                          int lda,
+                          int ldb,
+                          int ldc);
 /**
 * @brief   C_d = alpha*(op(A_d) * op(B_d)) + beta*C_d
@@ -106,11 +101,16 @@ extern void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
 * @param[in]   beta    scalar used for multiplication.
 *
 */
-extern void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
+extern void hl_matrix_mul(real *A_d,
-                          real *B_d, hl_trans_op_t transb,
+                          hl_trans_op_t transa,
+                          real *B_d,
+                          hl_trans_op_t transb,
                          real *C_d,
-                          int dimM, int dimN, int dimK,
+                          int dimM,
-                          real alpha, real beta);
+                          int dimN,
+                          int dimK,
+                          real alpha,
+                          real beta);
 /**
 * @brief   This function performs the matrix-vector multiplication.
@@ -132,11 +132,17 @@ extern void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
 *
 */
-extern void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
+extern void hl_matrix_mul_vector(real *A_d,
-                                 real *B_d, real *C_d,
+                                 hl_trans_op_t trans,
-                                 int dimM, int dimN,
+                                 real *B_d,
-                                 real alpha, real beta,
+                                 real *C_d,
-                                 int lda, int incb, int incc);
+                                 int dimM,
+                                 int dimN,
+                                 real alpha,
+                                 real beta,
+                                 int lda,
+                                 int incb,
+                                 int incc);
 /**
 * @brief   This function performs the matrix-vector multiplication.
@@ -154,9 +160,13 @@ extern void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
 * @param[in]     beta   scalar used for multiplication.
 *
 */
-extern void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
+extern void hl_matrix_mul_vector(real *A_d,
-                                 real *B_d, real *C_d,
+                                 hl_trans_op_t trans,
-                                 int dimM, int dimN,
+                                 real *B_d,
-                                 real alpha, real beta);
+                                 real *C_d,
+                                 int dimM,
+                                 int dimN,
+                                 real alpha,
+                                 real beta);
 #endif /* HL_CUDA_CUBLAS_H_ */
--- a/paddle/cuda/include/hl_cuda_cudnn.h
+++ b/paddle/cuda/include/hl_cuda_cudnn.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_CUDNN_H_
 #define HL_CUDA_CUDNN_H_
@@ -22,7 +21,7 @@ limitations under the License. */
 *  hppl pooling mode
 */
 typedef enum {
-  HL_POOLING_MAX     = 0,
+  HL_POOLING_MAX = 0,
  // average includes padded values
  HL_POOLING_AVERAGE = 1,
  // average does not include padded values
@@ -324,17 +323,16 @@ extern void hl_convolution_forward_add_bias(hl_tensor_descriptor bias,
 * @param[in]   sizeInBytes         gpu workspace size (bytes).
 * @param[in]   convBwdFilterAlgo   backward filter algorithm.
 */
-extern void hl_convolution_backward_filter(
+extern void hl_convolution_backward_filter(hl_tensor_descriptor input,
-        hl_tensor_descriptor input,
+                                           real* input_data,
-        real* input_data,
+                                           hl_tensor_descriptor output,
-        hl_tensor_descriptor output,
+                                           real* output_grad_data,
-        real* output_grad_data,
+                                           hl_filter_descriptor filter,
-        hl_filter_descriptor filter,
+                                           real* filter_grad_data,
-        real* filter_grad_data,
+                                           hl_convolution_descriptor conv,
-        hl_convolution_descriptor conv,
+                                           void* gpuWorkSpace,
-        void* gpuWorkSpace,
+                                           size_t sizeInBytes,
-        size_t sizeInBytes,
+                                           int convBwdFilterAlgo);
-        int  convBwdFilterAlgo);
 /**
 * @brief   convolution backward data(calculate input image grad data).
@@ -350,17 +348,16 @@ extern void hl_convolution_backward_filter(
 * @param[in]   sizeInBytes         gpu workspace size (bytes).
 * @param[in]   convBwdDataAlgo     backward data algorithm.
 */
-extern void hl_convolution_backward_data(
+extern void hl_convolution_backward_data(hl_tensor_descriptor input,
-        hl_tensor_descriptor input,
+                                         real* input_data_grad,
-        real* input_data_grad,
+                                         hl_tensor_descriptor output,
-        hl_tensor_descriptor output,
+                                         real* output_grad_data,
-        real* output_grad_data,
+                                         hl_filter_descriptor filter,
-        hl_filter_descriptor filter,
+                                         real* filter_data,
-        real* filter_data,
+                                         hl_convolution_descriptor conv,
-        hl_convolution_descriptor conv,
+                                         void* gpuWorkSpace,
-        void* gpuWorkSpace,
+                                         size_t sizeInBytes,
-        size_t sizeInBytes,
+                                         int convBwdDataAlgo);
-        int convBwdDataAlgo);
 /**
 * @brief   convolution backward bias(calculate bias grad data).
@@ -383,8 +380,8 @@ extern void hl_convolution_backward_bias(hl_tensor_descriptor bias,
 * @param[in]   height              matrix height.
 * @param[in]   width               matrix width.
 */
-extern void hl_softmax_forward(real *input,
+extern void hl_softmax_forward(real* input,
-                               real *output,
+                               real* output,
                               int height,
                               int width);
@@ -396,8 +393,8 @@ extern void hl_softmax_forward(real *input,
 * @param[in]   height              matrix height.
 * @param[in]   width               matrix width.
 */
-extern void hl_softmax_backward(real *output_value,
+extern void hl_softmax_backward(real* output_value,
-                                real *output_grad,
+                                real* output_grad,
                                int height,
                                int width);
@@ -426,18 +423,18 @@ extern void hl_softmax_backward(real *output_value,
 *
 */
 extern void hl_batch_norm_forward_training(hl_tensor_descriptor inputDesc,
-                                           real *input,
+                                           real* input,
                                           hl_tensor_descriptor outputDesc,
-                                           real *output,
+                                           real* output,
                                           hl_tensor_descriptor bnParamDesc,
-                                           real *scale,
+                                           real* scale,
-                                           real *bias,
+                                           real* bias,
                                           double factor,
-                                           real *runningMean,
+                                           real* runningMean,
-                                           real *runningInvVar,
+                                           real* runningInvVar,
                                           double epsilon,
-                                           real *savedMean,
+                                           real* savedMean,
-                                           real *savedVar);
+                                           real* savedVar);
 /**
 * @brief   cudnn batch norm forward.
@@ -463,14 +460,14 @@ extern void hl_batch_norm_forward_training(hl_tensor_descriptor inputDesc,
 *
 */
 extern void hl_batch_norm_forward_inference(hl_tensor_descriptor inputDesc,
-                                            real *input,
+                                            real* input,
                                            hl_tensor_descriptor outputDesc,
-                                            real *output,
+                                            real* output,
                                            hl_tensor_descriptor bnParamDesc,
-                                            real *scale,
+                                            real* scale,
-                                            real *bias,
+                                            real* bias,
-                                            real *estimatedMean,
+                                            real* estimatedMean,
-                                            real *estimatedVar,
+                                            real* estimatedVar,
                                            double epsilon);
 /**
@@ -483,7 +480,8 @@ extern void hl_batch_norm_forward_inference(hl_tensor_descriptor inputDesc,
 * @param[in]   inGradDesc      input tensor descriptor desc.
 * @param[in]   inGrad          input data.
 * @param[in]   dBnParamDesc    tensor descriptor desc.
- *                              bnScale, bnBias, running mean/var, save_mean/var.
+ *                              bnScale, bnBias, running mean/var,
+ * save_mean/var.
 * @param[in]   scale           batch normalization scale parameter (in original
 *                              paper scale is referred to as gamma).
 * @param[in]   scaleGrad       batch normalization scale parameter (in original
@@ -497,17 +495,17 @@ extern void hl_batch_norm_forward_inference(hl_tensor_descriptor inputDesc,
 *
 */
 extern void hl_batch_norm_backward(hl_tensor_descriptor inputDesc,
-                                   real *input,
+                                   real* input,
                                   hl_tensor_descriptor outGradDesc,
-                                   real *outGrad,
+                                   real* outGrad,
                                   hl_tensor_descriptor inGradDesc,
-                                   real *inGrad,
+                                   real* inGrad,
                                   hl_tensor_descriptor dBnParamDesc,
-                                   real *scale,
+                                   real* scale,
-                                   real *scaleGrad,
+                                   real* scaleGrad,
-                                   real *biasGrad,
+                                   real* biasGrad,
                                   double epsilon,
-                                   real *savedMean,
+                                   real* savedMean,
-                                   real *savedInvVar);
+                                   real* savedInvVar);
 #endif  // HL_CUDA_CUDNN_H_
--- a/paddle/cuda/include/hl_dso_loader.h
+++ b/paddle/cuda/include/hl_dso_loader.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_DSO_LOADER_H_
 #define HL_DSO_LOADER_H_

--- a/paddle/cuda/include/hl_functions.h
+++ b/paddle/cuda/include/hl_functions.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_FUNCTIONS_H_
 #define HL_FUNCTIONS_H_
@@ -21,30 +20,30 @@ limitations under the License. */
 /**
 * sigmoid threshold maximum
 */
-#define     SIGMOID_THRESHOLD_MIN   -40.0
+#define SIGMOID_THRESHOLD_MIN -40.0
 /**
 * sigmoid threshold minimum
 */
-#define     SIGMOID_THRESHOLD_MAX   13.0
+#define SIGMOID_THRESHOLD_MAX 13.0
 #ifndef __NVCC__
 namespace hppl {
-  /*
+/*
-   * forward activation
+ * forward activation
-   */
+ */
-  real relu(const real a);
+real relu(const real a);
-  real sigmoid(const real a);
+real sigmoid(const real a);
-  real tanh(const real a);
+real tanh(const real a);
-  real linear(const real a);
+real linear(const real a);
-  /*
+/*
-   * backward activation
+ * backward activation
-   */
+ */
-  real relu(const real a, const real b);
+real relu(const real a, const real b);
-  real sigmoid(const real a, const real b);
+real sigmoid(const real a, const real b);
-  real tanh(const real a, const real b);
+real tanh(const real a, const real b);
-  real linear(const real a, const real b);
+real linear(const real a, const real b);
 }  // namespace hppl
 #ifdef __AVX__

--- a/paddle/cuda/include/hl_gpu.h
+++ b/paddle/cuda/include/hl_gpu.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_GPU_H_
 #define HL_GPU_H_

--- a/paddle/cuda/include/hl_lstm.h
+++ b/paddle/cuda/include/hl_lstm.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_LSTM_H_
 #define HL_LSTM_H_

--- a/paddle/cuda/include/hl_matrix.h
+++ b/paddle/cuda/include/hl_matrix.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_MATRIX_H_
 #define HL_MATRIX_H_
@@ -30,13 +29,8 @@ limitations under the License. */
 * @param[in]   beta    scalar used for addition.
 *
 */
-extern void hl_matrix_add(real* A_d,
+extern void hl_matrix_add(
-                          real* B_d,
+    real* A_d, real* B_d, real* C_d, int dimM, int dimN, real alpha, real beta);
-                          real* C_d,
-                          int dimM,
-                          int dimN,
-                          real alpha,
-                          real beta);
 /**
 * @brief   Matrix Softmax.
 *
@@ -46,7 +40,7 @@ extern void hl_matrix_add(real* A_d,
 * @param[in]   dimN    matrix width.
 *
 */
-extern void hl_matrix_softmax(real *A_d, real *C_d, int dimM, int dimN);
+extern void hl_matrix_softmax(real* A_d, real* C_d, int dimM, int dimN);
 /**
 * @brief   Matrix softmax derivative.
@@ -58,11 +52,8 @@ extern void hl_matrix_softmax(real *A_d, real *C_d, int dimM, int dimN);
 * @param[in]   dimN         matrix width.
 *
 */
-extern void hl_matrix_softmax_derivative(real* grad_d,
+extern void hl_matrix_softmax_derivative(
-                                         real* output_d,
+    real* grad_d, real* output_d, real* sftmaxSum_d, int dimM, int dimN);
-                                         real* sftmaxSum_d,
-                                         int dimM,
-                                         int dimN);
 /**
 * @brief   Sequence softmax.
@@ -73,8 +64,8 @@ extern void hl_matrix_softmax_derivative(real* grad_d,
 * @param[in]   numSequence sequence number.
 *
 */
-extern void hl_sequence_softmax_forward(real *A_d,
+extern void hl_sequence_softmax_forward(real* A_d,
-                                        real *C_d,
+                                        real* C_d,
                                        const int* index,
                                        int numSequence);
@@ -88,11 +79,8 @@ extern void hl_sequence_softmax_forward(real *A_d,
 * @param[in]   dimN    matrix width.
 *
 */
-extern void hl_matrix_classification_error(real* A_d,
+extern void hl_matrix_classification_error(
-                                           int* B_d,
+    real* A_d, int* B_d, real* C_d, int dimM, int dimN);
-                                           real* C_d,
-                                           int dimM,
-                                           int dimN);
 /**
 * @brief   Matrix cross entropy.
@@ -104,11 +92,8 @@ extern void hl_matrix_classification_error(real* A_d,
 * @param[in]   dimN    matrix width.
 *
 */
-extern void hl_matrix_cross_entropy(real* A_d,
+extern void hl_matrix_cross_entropy(
-                                    real* C_d,
+    real* A_d, real* C_d, int* label_d, int dimM, int dimN);
-                                    int* label_d,
-                                    int dimM,
-                                    int dimN);
 /**
 * @brief   Matrix cross entropy back propagation.
@@ -120,11 +105,8 @@ extern void hl_matrix_cross_entropy(real* A_d,
 * @param[in]   dimN        matrix width.
 *
 */
-extern void hl_matrix_cross_entropy_bp(real* grad_d,
+extern void hl_matrix_cross_entropy_bp(
-                                       real* output_d,
+    real* grad_d, real* output_d, int* label_d, int dimM, int dimN);
-                                       int* label_d,
-                                       int dimM,
-                                       int dimN);
 /**
 * @brief  Matrix multi-binary label cross entropy
@@ -135,11 +117,8 @@ extern void hl_matrix_cross_entropy_bp(real* grad_d,
 * @param[in]   dimM      matrix height.
 * @param[in]   dimN      matrix width.
 */
-extern void hl_matrix_multi_binary_cross_entropy(real* output,
+extern void hl_matrix_multi_binary_cross_entropy(
-                                                 real* entropy,
+    real* output, real* entropy, hl_sparse_matrix_s mat, int dimM, int dimN);
-                                                 hl_sparse_matrix_s mat,
-                                                 int dimM,
-                                                 int dimN);
 /**
 * @brief  Matrix multi-binary label cross entropy backprop
@@ -150,11 +129,8 @@ extern void hl_matrix_multi_binary_cross_entropy(real* output,
 * @param[in]   dimM      matrix height.
 * @param[in]   dimN      matrix width.
 */
-extern void hl_matrix_multi_binary_cross_entropy_bp(real* output,
+extern void hl_matrix_multi_binary_cross_entropy_bp(
-                                                    real* grad,
+    real* output, real* grad, hl_sparse_matrix_s mat, int dimM, int dimN);
-                                                    hl_sparse_matrix_s mat,
-                                                    int dimM,
-                                                    int dimN);
 /**
 * @brief  Matrix zero memory.
@@ -176,12 +152,8 @@ extern void hl_matrix_zero_mem(real* data, int num);
 * @param[in]  partial_sum
 */
-extern void hl_param_relu_forward(real* output,
+extern void hl_param_relu_forward(
-                                  real* input,
+    real* output, real* input, real* w, int width, int height, int partial_sum);
-                                  real* w,
-                                  int width,
-                                  int height,
-                                  int partial_sum);
 /**
 * @brief parameter relu backward w
 *

--- a/paddle/cuda/include/hl_sequence.h
+++ b/paddle/cuda/include/hl_sequence.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_SEQUENCE_H_
 #define HL_SEQUENCE_H_
@@ -32,7 +31,7 @@ limitations under the License. */
 extern void hl_max_sequence_forward(real* input,
                                    const int* sequence,
                                    real* output,
-                                    int *index,
+                                    int* index,
                                    int numSequences,
                                    int dim);
@@ -46,11 +45,8 @@ extern void hl_max_sequence_forward(real* input,
 * @param[in]   dim             input dimension.
 *
 */
-extern void hl_max_sequence_backward(real* outputGrad,
+extern void hl_max_sequence_backward(
-                                     int *index,
+    real* outputGrad, int* index, real* inputGrad, int numSequences, int dim);
-                                     real* inputGrad,
-                                     int numSequences,
-                                     int dim);
 /**
 * @brief   Context projection forward.
@@ -63,7 +59,8 @@ extern void hl_max_sequence_backward(real* outputGrad,
 * @param[in]   inputDim        input sequence dimension.
 * @param[in]   contextLength   context length.
 * @param[in]   contextStart    context start.
- * @param[in]   beginPad        number of extra timesteps added at the beginning.
+ * @param[in]   beginPad        number of extra timesteps added at the
+ * beginning.
 * @param[in]   isPadding       trainable padding.
 *
 */
@@ -109,7 +106,8 @@ extern void hl_context_projection_backward_data(real* outputGrad,
 * @param[in]   totalPad        number of extra timesteps.
 * @param[in]   contextLength   context length.
 * @param[in]   contextStart    context start.
- * @param[in]   beginPad        number of extra timesteps added at the beginning.
+ * @param[in]   beginPad        number of extra timesteps added at the
+ * beginning.
 *
 */
 extern void hl_context_projection_backward_weight(real* outputGrad,
@@ -141,9 +139,9 @@ extern void hl_context_projection_backward_weight(real* outputGrad,
 * @param[in]       seq2batch   copy direction.
 *
 */
-extern void hl_sequence2batch_copy(real *batch,
+extern void hl_sequence2batch_copy(real* batch,
-                                   real *sequence,
+                                   real* sequence,
-                                   const int *batchIndex,
+                                   const int* batchIndex,
                                   int seqWidth,
                                   int batchCount,
                                   bool seq2batch);
@@ -167,9 +165,9 @@ extern void hl_sequence2batch_copy(real *batch,
 * @param[in]       seq2batch   copy direction.
 *
 */
-extern void hl_sequence2batch_add(real *batch,
+extern void hl_sequence2batch_add(real* batch,
-                                  real *sequence,
+                                  real* sequence,
-                                  int *batchIndex,
+                                  int* batchIndex,
                                  int seqWidth,
                                  int batchCount,
                                  bool seq2batch);

--- a/paddle/cuda/include/hl_sparse.h
+++ b/paddle/cuda/include/hl_sparse.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_SPARSE_H_
 #define HL_SPARSE_H_
@@ -31,7 +30,7 @@ limitations under the License. */
 */
 extern void hl_malloc_sparse_matrix(hl_sparse_matrix_s *A_d,
                                    hl_matrix_format_t format,
-                                    hl_matrix_value_t  value_type,
+                                    hl_matrix_value_t value_type,
                                    int dimM,
                                    int dimN,
                                    int nnz);
@@ -60,10 +59,10 @@ extern void hl_free_sparse_matrix(hl_sparse_matrix_s A_d);
 *
 */
 extern void hl_construct_sparse_matrix(hl_sparse_matrix_s *A_d,
-                                       void * dest_d,
+                                       void *dest_d,
                                       size_t size,
                                       hl_matrix_format_t format,
-                                       hl_matrix_value_t  value_type,
+                                       hl_matrix_value_t value_type,
                                       int dimM,
                                       int dimN,
                                       int nnz);
@@ -94,11 +93,11 @@ extern void hl_construct_sparse_matrix(hl_sparse_matrix_s *A_d,
 *
 */
 extern void hl_construct_sparse_matrix(hl_sparse_matrix_s *A_d,
-                                       real* value_d,
+                                       real *value_d,
-                                       int* rows_d,
+                                       int *rows_d,
-                                       int* cols_d,
+                                       int *cols_d,
                                       hl_matrix_format_t format,
-                                       hl_matrix_value_t  value_type,
+                                       hl_matrix_value_t value_type,
                                       int dimM,
                                       int dimN,
                                       int nnz);
@@ -259,10 +258,14 @@ extern void hl_matrix_csr_mul_dense(hl_sparse_matrix_s A_d,
 */
 extern void hl_matrix_csc_mul_dense(hl_sparse_matrix_s A_d,
                                    hl_trans_op_t transa,
-                                    real *B_d, hl_trans_op_t transb,
+                                    real *B_d,
+                                    hl_trans_op_t transb,
                                    real *C_d,
-                                    int dimM, int dimN, int dimK,
+                                    int dimM,
-                                    real alpha, real beta);
+                                    int dimN,
+                                    int dimK,
+                                    real alpha,
+                                    real beta);
 /**
 * @brief   C_d = alpha*(op(A_d) * op(B_d)) + beta*C_d.
@@ -311,11 +314,16 @@ extern void hl_matrix_dense_mul_csc(real *A_d,
 * @note    transb is not support HPPL_OP_T.
 *
 */
-extern void hl_sparse_matrix_mul(real* A_d, hl_trans_op_t transa,
+extern void hl_sparse_matrix_mul(real *A_d,
-                                 real *B_d, hl_trans_op_t transb,
+                                 hl_trans_op_t transa,
+                                 real *B_d,
+                                 hl_trans_op_t transb,
                                 hl_sparse_matrix_s C_d,
-                                 int dimM, int dimN, int dimK,
+                                 int dimM,
-                                 real alpha, real beta);
+                                 int dimN,
+                                 int dimK,
+                                 real alpha,
+                                 real beta);
 /**
 * @brief   C_d = alpha*(op(A_d) * op(B_d)) + beta*C_d
@@ -336,12 +344,16 @@ extern void hl_sparse_matrix_mul(real* A_d, hl_trans_op_t transa,
 * @note    transa is not support HPPL_OP_T.
 *
 */
-extern void hl_matrix_dense_mul_csr(real *A_d, hl_trans_op_t transa,
+extern void hl_matrix_dense_mul_csr(real *A_d,
+                                    hl_trans_op_t transa,
                                    hl_sparse_matrix_s B_d,
                                    hl_trans_op_t transb,
                                    real *C_d,
-                                    int dimM, int dimN, int dimK,
+                                    int dimM,
-                                    real alpha, real beta);
+                                    int dimN,
+                                    int dimK,
+                                    real alpha,
+                                    real beta);
 /**
 * @brief   Memcpy csc_matrix to host.
@@ -412,7 +424,6 @@ extern void hl_memcpy_from_csr_matrix(real *csr_val,
                                      hl_sparse_matrix_s csr_matrix,
                                      hl_stream_t stream);
 /**
 * @brief   A_d[j] += B_d[i,j] for i in range(height)
 *
@@ -423,19 +434,13 @@ extern void hl_memcpy_from_csr_matrix(real *csr_val,
 * @param[in]       scale  scale of B_d
 *
 */
-extern void hl_sparse_matrix_column_sum(real* A_d,
+extern void hl_sparse_matrix_column_sum(
-                                        hl_sparse_matrix_s B_d,
+    real *A_d, hl_sparse_matrix_s B_d, int dimM, int dimN, real scale);
-                                        int dimM,
-                                        int dimN,
-                                        real scale);
 /**
 * @brief implementation of csr sparse matrix in hl_sparse_matirx_column_sum
 */
-extern void hl_matrix_csr_column_sum(real* A_d,
+extern void hl_matrix_csr_column_sum(
-                                     hl_sparse_matrix_s B_d,
+    real *A_d, hl_sparse_matrix_s B_d, int dimM, int dimN, real scale);
-                                     int dimM,
-                                     int dimN,
-                                     real scale);
 /**
 * @brief   A_d[i,j] += B_d[j]
@@ -446,13 +451,13 @@ extern void hl_matrix_csr_column_sum(real* A_d,
 *
 */
 extern void hl_sparse_matrix_add_bias(hl_sparse_matrix_s A_d,
-                                      real* B_d,
+                                      real *B_d,
                                      real scale);
 /**
 * @brief implementation of csr sparse matrix in hl_sparse_matrix_add_bias
 */
 extern void hl_matrix_csr_add_bias(hl_sparse_matrix_s A_d,
-                                   real* B_d,
+                                   real *B_d,
                                   real scale);
 /**
@@ -470,7 +475,7 @@ extern void hl_matrix_csr_add_bias(hl_sparse_matrix_s A_d,
 *
 */
 extern void hl_sparse_matrix_add_dense(hl_sparse_matrix_s A_d,
-                                       real* B_d,
+                                       real *B_d,
                                       int dimM,
                                       int dimN,
                                       real alpha,
@@ -479,7 +484,7 @@ extern void hl_sparse_matrix_add_dense(hl_sparse_matrix_s A_d,
 * @brief implementation of csr sparse matrix in hl_sparse_matrix_add_dense
 */
 extern void hl_matrix_csr_add_dense(hl_sparse_matrix_s A_d,
-                                    real* B_d,
+                                    real *B_d,
                                    int dimM,
                                    int dimN,
                                    real alpha,
@@ -493,7 +498,7 @@ extern void hl_matrix_csr_add_dense(hl_sparse_matrix_s A_d,
 * @return   return rows pointer, which is gpu address
 *
 */
-extern int* hl_sparse_matrix_get_rows(hl_sparse_matrix_s sMat);
+extern int *hl_sparse_matrix_get_rows(hl_sparse_matrix_s sMat);
 /**
 * @brief get cols pionter of GpuSparseMatrix
@@ -503,7 +508,7 @@ extern int* hl_sparse_matrix_get_rows(hl_sparse_matrix_s sMat);
 * @return   return cols pointer, which is gpu address
 *
 */
-extern int* hl_sparse_matrix_get_cols(hl_sparse_matrix_s sMat);
+extern int *hl_sparse_matrix_get_cols(hl_sparse_matrix_s sMat);
 /**
 * @brief get value pionter of GpuSparseMatrix
@@ -513,7 +518,6 @@ extern int* hl_sparse_matrix_get_cols(hl_sparse_matrix_s sMat);
 * @return   return value pointer, which is gpu address
 *
 */
-extern real* hl_sparse_matrix_get_value(hl_sparse_matrix_s sMat);
+extern real *hl_sparse_matrix_get_value(hl_sparse_matrix_s sMat);
 #endif /* HL_SPARSE_H_ */
--- a/paddle/cuda/include/hl_table_apply.h
+++ b/paddle/cuda/include/hl_table_apply.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_TABLE_APPLY_H_
 #define HL_TABLE_APPLY_H_
@@ -31,8 +30,10 @@ limitations under the License. */
 * @param[in]   dim             width of table.
 *
 */
-extern void hl_matrix_select_rows(real* output, int ldo,
+extern void hl_matrix_select_rows(real* output,
-                                  real* table, int ldt,
+                                  int ldo,
+                                  real* table,
+                                  int ldt,
                                  int* ids,
                                  int numSamples,
                                  int tableSize,
@@ -53,8 +54,10 @@ extern void hl_matrix_select_rows(real* output, int ldo,
 * @param[in]   dim             width of table.
 *
 */
-extern void hl_matrix_add_to_rows(real* table, int ldt,
+extern void hl_matrix_add_to_rows(real* table,
-                                  real* input, int ldi,
+                                  int ldt,
+                                  real* input,
+                                  int ldi,
                                  int* ids,
                                  int numSamples,
                                  int tableSize,
@@ -72,8 +75,7 @@ extern void hl_matrix_add_to_rows(real* table, int ldt,
 *
 */
 template <class T>
-extern void hl_vector_select_from(T* dst, int sized,
+extern void hl_vector_select_from(
-                                  const T* src, int sizes,
+    T* dst, int sized, const T* src, int sizes, const int* ids, int sizei);
-                                  const int* ids, int sizei);
-#endif  /* HL_TABLE_APPLY_H_ */
+#endif /* HL_TABLE_APPLY_H_ */
--- a/paddle/cuda/include/hl_time.h
+++ b/paddle/cuda/include/hl_time.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_TIME_H_
 #define HL_TIME_H_

--- a/paddle/cuda/include/hl_top_k.h
+++ b/paddle/cuda/include/hl_top_k.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_TOP_K_H_
 #define HL_TOP_K_H_
@@ -31,9 +30,11 @@ limitations under the License. */
 * @param[in]   numSamples     height of input value.
 *
 */
-extern void hl_matrix_top_k(real* topVal, int ldv,
+extern void hl_matrix_top_k(real* topVal,
-                            int * topIds,
+                            int ldv,
-                            real* src, int lds,
+                            int* topIds,
+                            real* src,
+                            int lds,
                            int dim,
                            int beamSize,
                            int numSamples);
@@ -50,8 +51,9 @@ extern void hl_matrix_top_k(real* topVal, int ldv,
 *
 * @note    Only support HL_SPARSE_CSR format.
 */
-extern void hl_sparse_matrix_top_k(real* topVal, int ldv,
+extern void hl_sparse_matrix_top_k(real* topVal,
-                                   int * topIds,
+                                   int ldv,
+                                   int* topIds,
                                   hl_sparse_matrix_s src,
                                   int beamSize,
                                   int numSamples);

--- a/paddle/cuda/include/stub/hl_aggregate_stub.h
+++ b/paddle/cuda/include/stub/hl_aggregate_stub.h
@@ -12,29 +12,22 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_AGGREGATE_STUB_H_
 #define HL_AGGREGATE_STUB_H_
 #include "hl_aggregate.h"
-inline void hl_matrix_row_sum(real *A_d, real *C_d,
+inline void hl_matrix_row_sum(real *A_d, real *C_d, int dimM, int dimN) {}
-                              int dimM, int dimN) {}
-inline void hl_matrix_row_max(real *A_d, real *C_d,
+inline void hl_matrix_row_max(real *A_d, real *C_d, int dimM, int dimN) {}
-                              int dimM, int dimN) {}
-inline void hl_matrix_row_min(real *A_d, real *C_d,
+inline void hl_matrix_row_min(real *A_d, real *C_d, int dimM, int dimN) {}
-                              int dimM, int dimN) {}
-inline void hl_matrix_column_sum(real *A_d, real *C_d,
+inline void hl_matrix_column_sum(real *A_d, real *C_d, int dimM, int dimN) {}
-                                 int dimM, int dimN) {}
-inline void hl_matrix_column_max(real *A_d, real *C_d,
+inline void hl_matrix_column_max(real *A_d, real *C_d, int dimM, int dimN) {}
-                                 int dimM, int dimN) {}
-inline void hl_matrix_column_min(real *A_d, real *C_d,
+inline void hl_matrix_column_min(real *A_d, real *C_d, int dimM, int dimN) {}
-                                 int dimM, int dimN) {}
 inline void hl_vector_sum(real *A_d, real *C_h, int dimM) {}

--- a/paddle/cuda/include/stub/hl_cnn_stub.h
+++ b/paddle/cuda/include/stub/hl_cnn_stub.h
@@ -12,84 +12,134 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CNN_STUB_H_
 #define HL_CNN_STUB_H_
 #include "hl_cnn.h"
-inline void hl_shrink_col2feature(
+inline void hl_shrink_col2feature(const real* dataCol,
-    const real * dataCol, size_t channels,
+                                  size_t channels,
-    size_t height, size_t width,
+                                  size_t height,
-    size_t blockH, size_t blockW,
+                                  size_t width,
-    size_t strideH, size_t strideW,
+                                  size_t blockH,
-    size_t paddingH, size_t paddingW,
+                                  size_t blockW,
-    size_t outputH, size_t outputW,
+                                  size_t strideH,
-    real* dataIm,
+                                  size_t strideW,
-    real alpha, real beta) {}
+                                  size_t paddingH,
+                                  size_t paddingW,
-inline void hl_expand_feature2col(
+                                  size_t outputH,
-    const real* dataIm, size_t channels,
+                                  size_t outputW,
-    size_t height, size_t width,
+                                  real* dataIm,
-    size_t blockH, size_t blockW,
+                                  real alpha,
-    size_t strideH, size_t strideW,
+                                  real beta) {}
-    size_t paddingH, size_t paddingW,
-    size_t outputH, size_t outputW,
+inline void hl_expand_feature2col(const real* dataIm,
-    real* dataCol) {}
+                                  size_t channels,
+                                  size_t height,
-inline void hl_maxpool_forward(
+                                  size_t width,
-    const int frameCnt, const real* inputData,
+                                  size_t blockH,
-    const int channels,
+                                  size_t blockW,
-    const int height, const int width,
+                                  size_t strideH,
-    const int pooledH, const int pooledW,
+                                  size_t strideW,
-    const int sizeX, const int sizeY,
+                                  size_t paddingH,
-    const int strideH, const int strideW,
+                                  size_t paddingW,
-    const int paddingH, const int paddingW,
+                                  size_t outputH,
-    real* tgtData, const int tgtStride) {}
+                                  size_t outputW,
+                                  real* dataCol) {}
-inline void hl_maxpool_backward(
-    const int frameCnt, const real* inputData,
+inline void hl_maxpool_forward(const int frameCnt,
-    const real* outData, const real* outGrad,
+                               const real* inputData,
-    const int channels, const int height,
+                               const int channels,
-    const int width,
+                               const int height,
-    const int pooledH, const int pooledW,
+                               const int width,
-    const int sizeX, const int sizeY,
+                               const int pooledH,
-    const int strideH, const int strideW,
+                               const int pooledW,
-    const int paddingH, const int paddingW,
+                               const int sizeX,
-    real scaleA, real scaleB,
+                               const int sizeY,
-    real* targetGrad, const int outStride) {}
+                               const int strideH,
+                               const int strideW,
-inline void hl_avgpool_forward(
+                               const int paddingH,
-    const int frameCnt, const real* inputData,
+                               const int paddingW,
-    const int channels,
+                               real* tgtData,
-    const int height, const int width,
+                               const int tgtStride) {}
-    const int pooledH, const int pooledW,
-    const int sizeX, const int sizeY,
+inline void hl_maxpool_backward(const int frameCnt,
-    const int strideH, const int strideW,
+                                const real* inputData,
-    const int paddingH, const int paddingW,
+                                const real* outData,
-    real* tgtData, const int tgtStride) {}
+                                const real* outGrad,
+                                const int channels,
-inline void hl_avgpool_backward(
+                                const int height,
-    const int frameCnt, const real* outGrad,
+                                const int width,
-    const int channels, const int height,
+                                const int pooledH,
-    const int width,
+                                const int pooledW,
-    const int pooledH, const int pooledW,
+                                const int sizeX,
-    const int sizeX, const int sizeY,
+                                const int sizeY,
-    const int strideH, const int strideW,
+                                const int strideH,
-    int paddingH, int paddingW,
+                                const int strideW,
-    real scaleA, real scaleB,
+                                const int paddingH,
-    real* backGrad, const int outStride) {}
+                                const int paddingW,
+                                real scaleA,
-inline void hl_CMRNorm_forward(
+                                real scaleB,
-    size_t frameCnt, const real* in, real* scale, real* out,
+                                real* targetGrad,
-    size_t channels, size_t height, size_t width, size_t sizeX,
+                                const int outStride) {}
-    real alpha, real beta) {}
+inline void hl_avgpool_forward(const int frameCnt,
-inline void hl_CMRNorm_backward(
+                               const real* inputData,
-    size_t frameCnt, const real* inV, const real* scale,
+                               const int channels,
-    const real* outV, const real* outDiff, real *inDiff,
+                               const int height,
-    size_t channels, size_t height, size_t width, size_t sizeX,
+                               const int width,
-    real alpha, real beta) {}
+                               const int pooledH,
+                               const int pooledW,
+                               const int sizeX,
+                               const int sizeY,
+                               const int strideH,
+                               const int strideW,
+                               const int paddingH,
+                               const int paddingW,
+                               real* tgtData,
+                               const int tgtStride) {}
+inline void hl_avgpool_backward(const int frameCnt,
+                                const real* outGrad,
+                                const int channels,
+                                const int height,
+                                const int width,
+                                const int pooledH,
+                                const int pooledW,
+                                const int sizeX,
+                                const int sizeY,
+                                const int strideH,
+                                const int strideW,
+                                int paddingH,
+                                int paddingW,
+                                real scaleA,
+                                real scaleB,
+                                real* backGrad,
+                                const int outStride) {}
+inline void hl_CMRNorm_forward(size_t frameCnt,
+                               const real* in,
+                               real* scale,
+                               real* out,
+                               size_t channels,
+                               size_t height,
+                               size_t width,
+                               size_t sizeX,
+                               real alpha,
+                               real beta) {}
+inline void hl_CMRNorm_backward(size_t frameCnt,
+                                const real* inV,
+                                const real* scale,
+                                const real* outV,
+                                const real* outDiff,
+                                real* inDiff,
+                                size_t channels,
+                                size_t height,
+                                size_t width,
+                                size_t sizeX,
+                                real alpha,
+                                real beta) {}
 inline void hl_bilinear_forward(const real* inData,
                                const size_t inImgH,
@@ -106,25 +156,33 @@ inline void hl_bilinear_forward(const real* inData,
                                const real ratioW) {}
 inline void hl_bilinear_backward(real* inGrad,
-                                const size_t inImgH,
+                                 const size_t inImgH,
-                                const size_t inImgW,
+                                 const size_t inImgW,
-                                const size_t inputH,
+                                 const size_t inputH,
-                                const size_t inputW,
+                                 const size_t inputW,
-                                const real* outGrad,
+                                 const real* outGrad,
-                                const size_t outImgH,
+                                 const size_t outImgH,
-                                const size_t outImgW,
+                                 const size_t outImgW,
-                                const size_t outputH,
+                                 const size_t outputH,
-                                const size_t outputW,
+                                 const size_t outputW,
-                                const size_t numChannels,
+                                 const size_t numChannels,
-                                const real ratioH,
+                                 const real ratioH,
-                                const real ratioW) {}
+                                 const real ratioW) {}
-inline void hl_maxout_forward(
+inline void hl_maxout_forward(const real* inData,
-    const real* inData, real* outData, int* idData,
+                              real* outData,
-    size_t batchSize, size_t size, size_t featLen, size_t group) {}
+                              int* idData,
+                              size_t batchSize,
-inline void hl_maxout_backward(
+                              size_t size,
-    real* inGrad, const real* outGrad, const int* idData,
+                              size_t featLen,
-    size_t batchSize, size_t size, size_t featLen, size_t group) {}
+                              size_t group) {}
+inline void hl_maxout_backward(real* inGrad,
+                               const real* outGrad,
+                               const int* idData,
+                               size_t batchSize,
+                               size_t size,
+                               size_t featLen,
+                               size_t group) {}
 #endif  // HL_CNN_STUB_H_
--- a/paddle/cuda/include/stub/hl_cuda_cublas_stub.h
+++ b/paddle/cuda/include/stub/hl_cuda_cublas_stub.h
@@ -12,41 +12,42 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_CUBLAS_STUB_H_
 #define HL_CUDA_CUBLAS_STUB_H_
 #include "hl_cuda_cublas.h"
-inline void hl_matrix_transpose(real *A_d,
+inline void hl_matrix_transpose(
-                                real *C_d,
+    real *A_d, real *C_d, int dimM, int dimN, int lda, int ldc) {}
-                                int dimM,
-                                int dimN,
+inline void hl_matrix_transpose(real *A_d, real *C_d, int dimM, int dimN) {}
-                                int lda,
-                                int ldc) {}
-inline void hl_matrix_transpose(real *A_d,
-                                real *C_d,
-                                int dimM,
-                                int dimN) {}
-inline void hl_matrix_inverse(real *A_d,
-                              real *C_d,
-                              int dimN,
-                              int lda,
-                              int ldc) {}
-inline void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
-                          real *B_d, hl_trans_op_t transb,
-                          real *C_d,
-                          int dimM, int dimN, int dimK,
-                          real alpha, real beta,
-                          int lda, int ldb, int ldc) {}
-inline void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
+inline void hl_matrix_inverse(
-                          real *B_d, hl_trans_op_t transb,
+    real *A_d, real *C_d, int dimN, int lda, int ldc) {}
+inline void hl_matrix_mul(real *A_d,
+                          hl_trans_op_t transa,
+                          real *B_d,
+                          hl_trans_op_t transb,
+                          real *C_d,
+                          int dimM,
+                          int dimN,
+                          int dimK,
+                          real alpha,
+                          real beta,
+                          int lda,
+                          int ldb,
+                          int ldc) {}
+inline void hl_matrix_mul(real *A_d,
+                          hl_trans_op_t transa,
+                          real *B_d,
+                          hl_trans_op_t transb,
                          real *C_d,
-                          int dimM, int dimN, int dimK,
+                          int dimM,
-                          real alpha, real beta) {}
+                          int dimN,
+                          int dimK,
+                          real alpha,
+                          real beta) {}
 #endif  // HL_CUDA_CUBLAS_STUB_H_
--- a/paddle/cuda/include/stub/hl_cuda_cudnn_stub.h
+++ b/paddle/cuda/include/stub/hl_cuda_cudnn_stub.h
@@ -12,15 +12,12 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_CUDNN_STUB_H_
 #define HL_CUDA_CUDNN_STUB_H_
 #include "hl_cuda_cudnn.h"
-inline int hl_get_cudnn_lib_version() {
+inline int hl_get_cudnn_lib_version() { return 0; }
-  return 0;
-}
 inline void hl_create_tensor_descriptor(hl_tensor_descriptor* image_desc) {}
@@ -68,41 +65,41 @@ inline void hl_pooling_backward(hl_tensor_descriptor input,
                                hl_pooling_descriptor pooling) {}
 inline void hl_create_filter_descriptor(hl_filter_descriptor* filter,
-                                       int input_feature_maps,
+                                        int input_feature_maps,
-                                       int output_feature_maps,
+                                        int output_feature_maps,
-                                       int height,
+                                        int height,
-                                       int width) {}
+                                        int width) {}
 inline void hl_destroy_filter_descriptor(hl_filter_descriptor filter) {}
 inline void hl_create_convolution_descriptor(hl_convolution_descriptor* conv,
-        hl_tensor_descriptor image,
+                                             hl_tensor_descriptor image,
-        hl_filter_descriptor filter,
+                                             hl_filter_descriptor filter,
-        int padding_height,
+                                             int padding_height,
-        int padding_width,
+                                             int padding_width,
-        int stride_height,
+                                             int stride_height,
-        int stride_width) {}
+                                             int stride_width) {}
 inline void hl_reset_convolution_descriptor(hl_convolution_descriptor conv,
-        hl_tensor_descriptor image,
+                                            hl_tensor_descriptor image,
-        hl_filter_descriptor filter,
+                                            hl_filter_descriptor filter,
-        int padding_height,
+                                            int padding_height,
-        int padding_width,
+                                            int padding_width,
-        int stride_height,
+                                            int stride_height,
-        int stride_width) {}
+                                            int stride_width) {}
 inline void hl_destroy_convolution_descriptor(hl_convolution_descriptor conv) {}
 inline void hl_conv_workspace(hl_tensor_descriptor input,
-                       hl_tensor_descriptor output,
+                              hl_tensor_descriptor output,
-                       hl_filter_descriptor filter,
+                              hl_filter_descriptor filter,
-                       hl_convolution_descriptor conv,
+                              hl_convolution_descriptor conv,
-                       int* convFwdAlgo,
+                              int* convFwdAlgo,
-                       size_t* fwdLimitBytes,
+                              size_t* fwdLimitBytes,
-                       int* convBwdDataAlgo,
+                              int* convBwdDataAlgo,
-                       size_t* bwdDataLimitBytes,
+                              size_t* bwdDataLimitBytes,
-                       int* convBwdFilterAlgo,
+                              int* convBwdFilterAlgo,
-                       size_t* bwdFilterLimitBytes) {}
+                              size_t* bwdFilterLimitBytes) {}
 inline void hl_convolution_forward(hl_tensor_descriptor input,
                                   real* input_data,
@@ -116,86 +113,84 @@ inline void hl_convolution_forward(hl_tensor_descriptor input,
                                   int convFwdAlgo) {}
 inline void hl_convolution_forward_add_bias(hl_tensor_descriptor bias,
-        real* bias_data,
+                                            real* bias_data,
-        hl_tensor_descriptor output,
+                                            hl_tensor_descriptor output,
-        real* output_data) {}
+                                            real* output_data) {}
-inline void hl_convolution_backward_filter(
+inline void hl_convolution_backward_filter(hl_tensor_descriptor input,
-        hl_tensor_descriptor input,
+                                           real* input_data,
-        real* input_data,
+                                           hl_tensor_descriptor output,
-        hl_tensor_descriptor output,
+                                           real* output_grad_data,
-        real* output_grad_data,
+                                           hl_filter_descriptor filter,
-        hl_filter_descriptor filter,
+                                           real* filter_grad_data,
-        real* filter_grad_data,
+                                           hl_convolution_descriptor conv,
-        hl_convolution_descriptor conv,
+                                           void* gpuWorkSpace,
-        void* gpuWorkSpace,
+                                           size_t sizeInBytes,
-        size_t sizeInBytes,
+                                           int convBwdFilterAlgo) {}
-        int convBwdFilterAlgo) {}
+inline void hl_convolution_backward_data(hl_tensor_descriptor input,
-inline void hl_convolution_backward_data(
+                                         real* input_data_grad,
-        hl_tensor_descriptor input,
+                                         hl_tensor_descriptor output,
-        real* input_data_grad,
+                                         real* output_grad_data,
-        hl_tensor_descriptor output,
+                                         hl_filter_descriptor filter,
-        real* output_grad_data,
+                                         real* filter_data,
-        hl_filter_descriptor filter,
+                                         hl_convolution_descriptor conv,
-        real* filter_data,
+                                         void* gpuWorkSpace,
-        hl_convolution_descriptor conv,
+                                         size_t sizeInBytes,
-        void* gpuWorkSpace,
+                                         int convBwdDataAlgo) {}
-        size_t sizeInBytes,
-        int convBwdDataAlgo) {}
 inline void hl_convolution_backward_bias(hl_tensor_descriptor bias,
-                                        real* bias_grad_data,
+                                         real* bias_grad_data,
-                                        hl_tensor_descriptor output,
+                                         hl_tensor_descriptor output,
-                                        real* output_grad_data) {}
+                                         real* output_grad_data) {}
-inline void hl_softmax_forward(real *input,
+inline void hl_softmax_forward(real* input,
-                              real *output,
+                               real* output,
-                              int height,
-                              int width) {}
-inline void hl_softmax_backward(real *output_value,
-                               real *output_grad,
                               int height,
                               int width) {}
+inline void hl_softmax_backward(real* output_value,
+                                real* output_grad,
+                                int height,
+                                int width) {}
 inline void hl_batch_norm_forward_training(hl_tensor_descriptor inputDesc,
-                                           real *input,
+                                           real* input,
                                           hl_tensor_descriptor outputDesc,
-                                           real *output,
+                                           real* output,
                                           hl_tensor_descriptor bnParamDesc,
-                                           real *scale,
+                                           real* scale,
-                                           real *bias,
+                                           real* bias,
                                           double factor,
-                                           real *runningMean,
+                                           real* runningMean,
-                                           real *runningInvVar,
+                                           real* runningInvVar,
                                           double epsilon,
-                                           real *savedMean,
+                                           real* savedMean,
-                                           real *savedVar) {}
+                                           real* savedVar) {}
 inline void hl_batch_norm_forward_inference(hl_tensor_descriptor inputDesc,
-                                            real *input,
+                                            real* input,
                                            hl_tensor_descriptor outputDesc,
-                                            real *output,
+                                            real* output,
                                            hl_tensor_descriptor bnParamDesc,
-                                            real *scale,
+                                            real* scale,
-                                            real *bias,
+                                            real* bias,
-                                            real *estimatedMean,
+                                            real* estimatedMean,
-                                            real *estimatedVar,
+                                            real* estimatedVar,
                                            double epsilon) {}
 inline void hl_batch_norm_backward(hl_tensor_descriptor inputDesc,
-                                   real *input,
+                                   real* input,
                                   hl_tensor_descriptor outGradDesc,
-                                   real *outGrad,
+                                   real* outGrad,
                                   hl_tensor_descriptor inGradDesc,
-                                   real *inGrad,
+                                   real* inGrad,
                                   hl_tensor_descriptor dBnParamDesc,
-                                   real *scale,
+                                   real* scale,
-                                   real *scaleGrad,
+                                   real* scaleGrad,
-                                   real *biasGrad,
+                                   real* biasGrad,
                                   double epsilon,
-                                   real *savedMean,
+                                   real* savedMean,
-                                   real *savedInvVar) {}
+                                   real* savedInvVar) {}
 #endif  // HL_CUDA_CUDNN_STUB_H_
--- a/paddle/cuda/include/stub/hl_cuda_stub.h
+++ b/paddle/cuda/include/stub/hl_cuda_stub.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_CUDA_STUB_H_
 #define HL_CUDA_STUB_H_
@@ -24,29 +23,25 @@ inline void hl_specify_devices_start(int *device, int number) {}
 inline void hl_init(int device) {}
-inline int hl_get_cuda_lib_version(int device) {
+inline int hl_get_cuda_lib_version(int device) { return 0; }
-  return 0;
-}
 inline void hl_fini() {}
 inline void hl_set_sync_flag(bool flag) {}
-inline bool hl_get_sync_flag() {
+inline bool hl_get_sync_flag() { return false; }
-  return false;
-}
-inline int hl_get_device_count() { return 0;  }
+inline int hl_get_device_count() { return 0; }
 inline void hl_set_device(int device) {}
-inline int hl_get_device() { return 0;  }
+inline int hl_get_device() { return 0; }
-inline void* hl_malloc_device(size_t size) { return NULL; }
+inline void *hl_malloc_device(size_t size) { return NULL; }
 inline void hl_free_mem_device(void *dest_d) {}
-inline void* hl_malloc_host(size_t size) { return NULL;  }
+inline void *hl_malloc_host(size_t size) { return NULL; }
 inline void hl_free_mem_host(void *dest_h) {}
@@ -64,7 +59,9 @@ inline void hl_rand(real *dest_d, size_t num) {}
 inline void hl_srand(unsigned int seed) {}
-inline void hl_memcpy_async(void *dst, void *src, size_t size,
+inline void hl_memcpy_async(void *dst,
+                            void *src,
+                            size_t size,
                            hl_stream_t stream) {}
 inline void hl_stream_synchronize(hl_stream_t stream) {}
@@ -83,11 +80,11 @@ inline void hl_stream_wait_event(hl_stream_t stream, hl_event_t event) {}
 inline void hl_event_synchronize(hl_event_t event) {}
-inline int hl_get_device_last_error() { return 0;  }
+inline int hl_get_device_last_error() { return 0; }
-inline const char* hl_get_device_error_string() { return NULL; }
+inline const char *hl_get_device_error_string() { return NULL; }
-inline const char* hl_get_device_error_string(size_t err) { return NULL; }
+inline const char *hl_get_device_error_string(size_t err) { return NULL; }
 inline bool hl_cuda_event_is_ready(hl_event_t event) { return true; }

--- a/paddle/cuda/include/stub/hl_lstm_stub.h
+++ b/paddle/cuda/include/stub/hl_lstm_stub.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_LSTM_STUB_H_
 #define HL_LSTM_STUB_H_

--- a/paddle/cuda/include/stub/hl_matrix_stub.h
+++ b/paddle/cuda/include/stub/hl_matrix_stub.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_MATRIX_STUB_H_
 #define HL_MATRIX_STUB_H_
@@ -26,48 +25,30 @@ inline void hl_matrix_add(real* A_d,
                          real alpha,
                          real beta) {}
-inline void hl_matrix_softmax(real *A_d, real *C_d, int dimM, int dimN) {}
+inline void hl_matrix_softmax(real* A_d, real* C_d, int dimM, int dimN) {}
-inline void hl_sequence_softmax_forward(real *A_d,
+inline void hl_sequence_softmax_forward(real* A_d,
-                                        real *C_d,
+                                        real* C_d,
                                        const int* index,
                                        int numSequence) {}
-inline void hl_matrix_softmax_derivative(real* grad_d,
+inline void hl_matrix_softmax_derivative(
-                                         real* output_d,
+    real* grad_d, real* output_d, real* sftmaxSum_d, int dimM, int dimN) {}
-                                         real* sftmaxSum_d,
-                                         int dimM,
+inline void hl_matrix_classification_error(
-                                         int dimN) {}
+    real* A_d, int* B_d, real* C_d, int dimM, int dimN) {}
-inline void hl_matrix_classification_error(real* A_d,
+inline void hl_matrix_cross_entropy(
-                                           int* B_d,
+    real* A_d, real* C_d, int* label_d, int dimM, int dimN) {}
-                                           real* C_d,
-                                           int dimM,
+inline void hl_matrix_cross_entropy_bp(
-                                           int dimN) {}
+    real* grad_d, real* output_d, int* label_d, int dimM, int dimN) {}
-inline void hl_matrix_cross_entropy(real* A_d,
+inline void hl_matrix_multi_binary_cross_entropy(
-                                    real* C_d,
+    real* output, real* entropy, hl_sparse_matrix_s mat, int dimM, int dimN) {}
-                                    int* label_d,
-                                    int dimM,
+inline void hl_matrix_multi_binary_cross_entropy_bp(
-                                    int dimN) {}
+    real* output, real* grad, hl_sparse_matrix_s mat, int dimM, int dimN) {}
-inline void hl_matrix_cross_entropy_bp(real* grad_d,
-                                       real* output_d,
-                                       int* label_d,
-                                       int dimM,
-                                       int dimN) {}
-inline void hl_matrix_multi_binary_cross_entropy(real* output,
-                                                 real* entropy,
-                                                 hl_sparse_matrix_s mat,
-                                                 int dimM,
-                                                 int dimN) {}
-inline void hl_matrix_multi_binary_cross_entropy_bp(real* output,
-                                                    real* grad,
-                                                    hl_sparse_matrix_s mat,
-                                                    int dimM,
-                                                    int dimN) {}
 inline void hl_matrix_zero_mem(real* data, int num) {}
@@ -101,7 +82,6 @@ inline void hl_cossim(real* output,
                      int input2_height,
                      real scale) {}
 inline void hl_cossim_derivative(real* grad,
                                 real* output,
                                 real* prevOutX,

--- a/paddle/cuda/include/stub/hl_sequence_stub.h
+++ b/paddle/cuda/include/stub/hl_sequence_stub.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_SEQUENCE_STUB_H_
 #define HL_SEQUENCE_STUB_H_
@@ -21,15 +20,12 @@ limitations under the License. */
 inline void hl_max_sequence_forward(real* input,
                                    const int* sequence,
                                    real* output,
-                                    int *index,
+                                    int* index,
                                    int numSequences,
                                    int dim) {}
-inline void hl_max_sequence_backward(real* outputGrad,
+inline void hl_max_sequence_backward(
-                                     int *index,
+    real* outputGrad, int* index, real* inputGrad, int numSequences, int dim) {}
-                                     real* inputGrad,
-                                     int numSequences,
-                                     int dim) {}
 inline void hl_context_projection_forward(real* input,
                                          const int* sequence,
@@ -60,16 +56,16 @@ inline void hl_context_projection_backward_weight(real* outputGrad,
                                                  int contextStart,
                                                  int beginPad) {}
-inline void hl_sequence2batch_copy(real *batch,
+inline void hl_sequence2batch_copy(real* batch,
-                                   real *sequence,
+                                   real* sequence,
-                                   const int *batchIndex,
+                                   const int* batchIndex,
                                   int seqWidth,
                                   int batchCount,
                                   bool seq2batch) {}
-inline void hl_sequence2batch_add(real *batch,
+inline void hl_sequence2batch_add(real* batch,
-                                  real *sequence,
+                                  real* sequence,
-                                  int *batchIndex,
+                                  int* batchIndex,
                                  int seqWidth,
                                  int batchCount,
                                  bool seq2batch) {}

--- a/paddle/cuda/include/stub/hl_sparse_stub.h
+++ b/paddle/cuda/include/stub/hl_sparse_stub.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #ifndef HL_SPARSE_STUB_H_
 #define HL_SPARSE_STUB_H_
@@ -20,7 +19,7 @@ limitations under the License. */
 inline void hl_malloc_sparse_matrix(hl_sparse_matrix_s *A_d,
                                    hl_matrix_format_t format,
-                                    hl_matrix_value_t  value_type,
+                                    hl_matrix_value_t value_type,
                                    int dimM,
                                    int dimN,
                                    int nnz) {}
@@ -28,20 +27,20 @@ inline void hl_malloc_sparse_matrix(hl_sparse_matrix_s *A_d,
 inline void hl_free_sparse_matrix(hl_sparse_matrix_s A_d) {}
 inline void hl_construct_sparse_matrix(hl_sparse_matrix_s *A_d,
-                                       void * dest_d,
+                                       void *dest_d,
                                       size_t size,
                                       hl_matrix_format_t format,
-                                       hl_matrix_value_t  value_type,
+                                       hl_matrix_value_t value_type,
                                       int dimM,
                                       int dimN,
                                       int nnz) {}
 inline void hl_construct_sparse_matrix(hl_sparse_matrix_s *A_d,
-                                       real* value_d,
+                                       real *value_d,
-                                       int* rows_d,
+                                       int *rows_d,
-                                       int* cols_d,
+                                       int *cols_d,
                                       hl_matrix_format_t format,
-                                       hl_matrix_value_t  value_type,
+                                       hl_matrix_value_t value_type,
                                       int dimM,
                                       int dimN,
                                       int nnz) {}
@@ -87,10 +86,14 @@ inline void hl_matrix_csr_mul_dense(hl_sparse_matrix_s A_d,
 inline void hl_matrix_csc_mul_dense(hl_sparse_matrix_s A_d,
                                    hl_trans_op_t transa,
-                                    real *B_d, hl_trans_op_t transb,
+                                    real *B_d,
+                                    hl_trans_op_t transb,
                                    real *C_d,
-                                    int dimM, int dimN, int dimK,
+                                    int dimM,
-                                    real alpha, real beta) {}
+                                    int dimN,
+                                    int dimK,
+                                    real alpha,
+                                    real beta) {}
 inline void hl_matrix_dense_mul_csc(real *A_d,
                                    hl_trans_op_t transa,
@@ -103,18 +106,27 @@ inline void hl_matrix_dense_mul_csc(real *A_d,
                                    real alpha,
                                    real beta) {}
-inline void hl_sparse_matrix_mul(real* A_d, hl_trans_op_t transa,
+inline void hl_sparse_matrix_mul(real *A_d,
-                                 real *B_d, hl_trans_op_t transb,
+                                 hl_trans_op_t transa,
+                                 real *B_d,
+                                 hl_trans_op_t transb,
                                 hl_sparse_matrix_s C_d,
-                                 int dimM, int dimN, int dimK,
+                                 int dimM,
-                                 real alpha, real beta) {}
+                                 int dimN,
+                                 int dimK,
+                                 real alpha,
+                                 real beta) {}
-inline void hl_matrix_dense_mul_csr(real *A_d, hl_trans_op_t transa,
+inline void hl_matrix_dense_mul_csr(real *A_d,
+                                    hl_trans_op_t transa,
                                    hl_sparse_matrix_s B_d,
                                    hl_trans_op_t transb,
                                    real *C_d,
-                                    int dimM, int dimN, int dimK,
+                                    int dimM,
-                                    real alpha, real beta) {}
+                                    int dimN,
+                                    int dimK,
+                                    real alpha,
+                                    real beta) {}
 inline void hl_memcpy_from_csc_matrix(real *csc_val,
                                      size_t val_size,
@@ -134,49 +146,39 @@ inline void hl_memcpy_from_csr_matrix(real *csr_val,
                                      hl_sparse_matrix_s csr_matrix,
                                      hl_stream_t stream) {}
-inline void hl_sparse_matrix_column_sum(real* A_d,
+inline void hl_sparse_matrix_column_sum(
-                                        hl_sparse_matrix_s B_d,
+    real *A_d, hl_sparse_matrix_s B_d, int dimM, int dimN, real scale) {}
-                                        int dimM,
-                                        int dimN,
-                                        real scale) {}
-inline void hl_matrix_csr_column_sum(real* A_d,
+inline void hl_matrix_csr_column_sum(
-                                     hl_sparse_matrix_s B_d,
+    real *A_d, hl_sparse_matrix_s B_d, int dimM, int dimN, real scale) {}
-                                     int dimM,
-                                     int dimN,
-                                     real scale) {}
 inline void hl_sparse_matrix_add_bias(hl_sparse_matrix_s A_d,
-                                      real* B_d,
+                                      real *B_d,
                                      real scale) {}
 inline void hl_matrix_csr_add_bias(hl_sparse_matrix_s A_d,
-                                   real* B_d,
+                                   real *B_d,
                                   real scale) {}
 inline void hl_sparse_matrix_add_dense(hl_sparse_matrix_s A_d,
-                                       real* B_d,
+                                       real *B_d,
                                       int dimM,
                                       int dimN,
                                       real alpha,
                                       real beta) {}
 inline void hl_matrix_csr_add_dense(hl_sparse_matrix_s A_d,
-                                    real* B_d,
+                                    real *B_d,
                                    int dimM,
                                    int dimN,
                                    real alpha,
                                    real beta) {}
-inline int* hl_sparse_matrix_get_rows(hl_sparse_matrix_s sMat) {
+inline int *hl_sparse_matrix_get_rows(hl_sparse_matrix_s sMat) { return NULL; }
-  return NULL;
-}
-inline int* hl_sparse_matrix_get_cols(hl_sparse_matrix_s sMat) {
+inline int *hl_sparse_matrix_get_cols(hl_sparse_matrix_s sMat) { return NULL; }
-  return NULL;
-}
-inline real* hl_sparse_matrix_get_value(hl_sparse_matrix_s sMat) {
+inline real *hl_sparse_matrix_get_value(hl_sparse_matrix_s sMat) {
  return NULL;
 }

--- a/paddle/cuda/src/avx_mathfun.h
+++ b/paddle/cuda/src/avx_mathfun.h
--- a/paddle/cuda/src/hl_avx_functions.cc
+++ b/paddle/cuda/src/hl_avx_functions.cc
@@ -12,62 +12,58 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include <immintrin.h>
 #include "hl_functions.h"
 namespace hppl {
-  extern __m256 exp(__m256 a);
+extern __m256 exp(__m256 a);
-  __m256 relu(const __m256 a) {
+__m256 relu(const __m256 a) {
-    __m256 tmp = _mm256_set1_ps(0.0f);
+  __m256 tmp = _mm256_set1_ps(0.0f);
-    return _mm256_max_ps(a, tmp);
+  return _mm256_max_ps(a, tmp);
-  }
+}
-  __m256 sigmoid(const __m256 a) {
+__m256 sigmoid(const __m256 a) {
-    __m256 max = _mm256_set1_ps(SIGMOID_THRESHOLD_MAX);
+  __m256 max = _mm256_set1_ps(SIGMOID_THRESHOLD_MAX);
-    __m256 min = _mm256_set1_ps(SIGMOID_THRESHOLD_MIN);
+  __m256 min = _mm256_set1_ps(SIGMOID_THRESHOLD_MIN);
-    __m256 tmp = _mm256_max_ps(a, min);
+  __m256 tmp = _mm256_max_ps(a, min);
-    tmp = _mm256_min_ps(tmp, max);
+  tmp = _mm256_min_ps(tmp, max);
-    tmp = _mm256_sub_ps(_mm256_set1_ps(0.0f), tmp);
+  tmp = _mm256_sub_ps(_mm256_set1_ps(0.0f), tmp);
-    tmp = exp(tmp);
+  tmp = exp(tmp);
-    tmp = _mm256_add_ps(_mm256_set1_ps(1.0f), tmp);
+  tmp = _mm256_add_ps(_mm256_set1_ps(1.0f), tmp);
-    tmp = _mm256_div_ps(_mm256_set1_ps(1.0f), tmp);
+  tmp = _mm256_div_ps(_mm256_set1_ps(1.0f), tmp);
-    return tmp;
+  return tmp;
-  }
+}
-  __m256 tanh(const __m256 a) {
+__m256 tanh(const __m256 a) {
-    __m256 max = _mm256_set1_ps(EXP_MAX_INPUT);
+  __m256 max = _mm256_set1_ps(EXP_MAX_INPUT);
-    __m256 tmp = _mm256_mul_ps(_mm256_set1_ps(-2.0f), a);
+  __m256 tmp = _mm256_mul_ps(_mm256_set1_ps(-2.0f), a);
-    tmp = _mm256_min_ps(tmp, max);
+  tmp = _mm256_min_ps(tmp, max);
-    tmp = exp(tmp);
+  tmp = exp(tmp);
-    return _mm256_sub_ps(
+  return _mm256_sub_ps(_mm256_div_ps(_mm256_set1_ps(2.0f),
-        _mm256_div_ps(_mm256_set1_ps(2.0f),
+                                     _mm256_add_ps(_mm256_set1_ps(1.0f), tmp)),
-        _mm256_add_ps(_mm256_set1_ps(1.0f), tmp)), _mm256_set1_ps(1.0f));
+                       _mm256_set1_ps(1.0f));
-  }
+}
-  __m256 linear(const __m256 a) {
+__m256 linear(const __m256 a) { return a; }
-    return a;
-  }
-  __m256 relu(const __m256 a, const __m256 b) {
+__m256 relu(const __m256 a, const __m256 b) {
-    return _mm256_mul_ps(a,
+  return _mm256_mul_ps(
+      a,
      _mm256_and_ps(_mm256_cmp_ps(b, _mm256_set1_ps(0.0f), _CMP_GT_OS),
-      _mm256_set1_ps(1.0f)));
+                    _mm256_set1_ps(1.0f)));
-  }
+}
-  __m256 sigmoid(const __m256 a, const __m256 b) {
+__m256 sigmoid(const __m256 a, const __m256 b) {
-    return _mm256_mul_ps(_mm256_mul_ps(a, b),
+  return _mm256_mul_ps(_mm256_mul_ps(a, b),
-        _mm256_sub_ps(_mm256_set1_ps(1.0f), b));
+                       _mm256_sub_ps(_mm256_set1_ps(1.0f), b));
-  }
+}
-  __m256 tanh(const __m256 a, const __m256 b) {
+__m256 tanh(const __m256 a, const __m256 b) {
-    return _mm256_mul_ps(a,
+  return _mm256_mul_ps(
-      _mm256_sub_ps(_mm256_set1_ps(1.0f), _mm256_mul_ps(b, b)));
+      a, _mm256_sub_ps(_mm256_set1_ps(1.0f), _mm256_mul_ps(b, b)));
-  }
+}
-  __m256 linear(const __m256 a, const __m256 b) {
+__m256 linear(const __m256 a, const __m256 b) { return a; }
-    return a;
-  }
 }  // namespace hppl
--- a/paddle/cuda/src/hl_cpu_functions.cc
+++ b/paddle/cuda/src/hl_cpu_functions.cc
@@ -12,46 +12,33 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include <math.h>
 #include "hl_functions.h"
 namespace hppl {
-  real relu(const real a) {
+real relu(const real a) { return a > 0.0f ? a : 0.0f; }
-    return a > 0.0f ? a : 0.0f;
-  }
+real sigmoid(const real a) {
+  const real min = SIGMOID_THRESHOLD_MIN;
-  real sigmoid(const real a) {
+  const real max = SIGMOID_THRESHOLD_MAX;
-    const real min = SIGMOID_THRESHOLD_MIN;
+  real tmp = (a < min) ? min : ((a > max) ? max : a);
-    const real max = SIGMOID_THRESHOLD_MAX;
+  return 1.0 / (1.0 + exp(-tmp));
-    real tmp = (a < min) ? min : ((a > max) ? max : a);
+}
-    return 1.0 / (1.0 + exp(-tmp));
-  }
+real tanh(const real a) {
+  real tmp = -2.0 * a;
-  real tanh(const real a) {
+  tmp = (tmp > EXP_MAX_INPUT) ? EXP_MAX_INPUT : tmp;
-    real tmp = -2.0 * a;
+  return (2.0 / (1.0 + exp(tmp))) - 1.0;
-    tmp = (tmp > EXP_MAX_INPUT) ? EXP_MAX_INPUT : tmp;
+}
-    return (2.0 / (1.0 + exp(tmp))) - 1.0;
-  }
+real linear(const real a) { return a; }
-  real linear(const real a) {
+real relu(const real a, const real b) { return a * (b > 0.0f ? 1.0f : 0.0f); }
-    return a;
-  }
+real sigmoid(const real a, const real b) { return a * b * (1 - b); }
-  real relu(const real a, const real b) {
+real tanh(const real a, const real b) { return a * (1.0f - b * b); }
-    return a * (b > 0.0f ? 1.0f : 0.0f);
-  }
+real linear(const real a, const real b) { return a; }
-  real sigmoid(const real a, const real b) {
-    return a * b * (1 - b);
-  }
-  real tanh(const real a, const real b) {
-    return a * (1.0f - b * b);
-  }
-  real linear(const real a, const real b) {
-    return a;
-  }
 }  // namespace hppl
--- a/paddle/cuda/src/hl_cuda_cublas.cc
+++ b/paddle/cuda/src/hl_cuda_cublas.cc
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include <sys/time.h>
 #include <mutex>
 #include "hl_cuda.h"
@@ -24,7 +23,7 @@ limitations under the License. */
 namespace dynload {
 std::once_flag cublas_dso_flag;
-void* cublas_dso_handle = nullptr;
+void *cublas_dso_handle = nullptr;
 /**
 * The following macro definition can generate structs
@@ -34,31 +33,30 @@ void* cublas_dso_handle = nullptr;
 * note: default dynamic linked libs
 */
 #ifdef PADDLE_USE_DSO
-#define DYNAMIC_LOAD_CUBLAS_WRAP(__name)                          \
+#define DYNAMIC_LOAD_CUBLAS_WRAP(__name)                                       \
-   struct DynLoad__##__name {                                     \
+  struct DynLoad__##__name {                                                   \
-    template <typename... Args>                                   \
+    template <typename... Args>                                                \
-    cublasStatus_t operator()(Args... args) {                     \
+    cublasStatus_t operator()(Args... args) {                                  \
-        typedef cublasStatus_t (*cublasFunc)(Args...);            \
+      typedef cublasStatus_t (*cublasFunc)(Args...);                           \
-        std::call_once(cublas_dso_flag, GetCublasDsoHandle,       \
+      std::call_once(cublas_dso_flag, GetCublasDsoHandle, &cublas_dso_handle); \
-                      &cublas_dso_handle);                        \
+      void *p_##__name = dlsym(cublas_dso_handle, #__name);                    \
-        void* p_##__name = dlsym(cublas_dso_handle, #__name);     \
+      return reinterpret_cast<cublasFunc>(p_##__name)(args...);                \
-        return reinterpret_cast<cublasFunc>(p_##__name)(args...); \
+    }                                                                          \
-    }                                                             \
  } __name;  // struct DynLoad__##__name
 #else
-#define DYNAMIC_LOAD_CUBLAS_WRAP(__name)                          \
+#define DYNAMIC_LOAD_CUBLAS_WRAP(__name)      \
-   struct DynLoad__##__name {                                     \
+  struct DynLoad__##__name {                  \
-    template <typename... Args>                                   \
+    template <typename... Args>               \
-    cublasStatus_t operator()(Args... args) {                     \
+    cublasStatus_t operator()(Args... args) { \
-      return __name(args...);                                     \
+      return __name(args...);                 \
-    }                                                             \
+    }                                         \
  } __name;  // struct DynLoad__##__name
 #endif
-#define DYNAMIC_LOAD_CUBLAS_V2_WRAP(__name) \
+#define DYNAMIC_LOAD_CUBLAS_V2_WRAP(__name) DYNAMIC_LOAD_CUBLAS_WRAP(__name)
-  DYNAMIC_LOAD_CUBLAS_WRAP(__name)
 // include all needed cublas functions in HPPL
+// clang-format off
 #define CUBLAS_BLAS_ROUTINE_EACH(__macro) \
  __macro(cublasSgemv)                    \
  __macro(cublasDgemv)                    \
@@ -88,41 +86,41 @@ CUBLAS_BLAS_ROUTINE_EACH(DYNAMIC_LOAD_CUBLAS_V2_WRAP)
 } /* namespace dynload */
+// clang-format on
 #ifndef PADDLE_TYPE_DOUBLE
-#define     CUBLAS_GEAM     dynload::cublasSgeam
+#define CUBLAS_GEAM dynload::cublasSgeam
-#define     CUBLAS_GEMV     dynload::cublasSgemv
+#define CUBLAS_GEMV dynload::cublasSgemv
-#define     CUBLAS_GEMM     dynload::cublasSgemm
+#define CUBLAS_GEMM dynload::cublasSgemm
-#define     CUBLAS_GETRF    dynload::cublasSgetrfBatched
+#define CUBLAS_GETRF dynload::cublasSgetrfBatched
-#define     CUBLAS_GETRI    dynload::cublasSgetriBatched
+#define CUBLAS_GETRI dynload::cublasSgetriBatched
 #else
-#define     CUBLAS_GEAM     dynload::cublasDgeam
+#define CUBLAS_GEAM dynload::cublasDgeam
-#define     CUBLAS_GEMV     dynload::cublasDgemv
+#define CUBLAS_GEMV dynload::cublasDgemv
-#define     CUBLAS_GEMM     dynload::cublasDgemm
+#define CUBLAS_GEMM dynload::cublasDgemm
-#define     CUBLAS_GETRF    dynload::cublasDgetrfBatched
+#define CUBLAS_GETRF dynload::cublasDgetrfBatched
-#define     CUBLAS_GETRI    dynload::cublasDgetriBatched
+#define CUBLAS_GETRI dynload::cublasDgetriBatched
 #endif
-const char* hl_cublas_get_error_string(cublasStatus_t status) {
+const char *hl_cublas_get_error_string(cublasStatus_t status) {
  switch (status) {
-     case CUBLAS_STATUS_NOT_INITIALIZED:
+    case CUBLAS_STATUS_NOT_INITIALIZED:
-        return "[cublas status]: not initialized";
+      return "[cublas status]: not initialized";
-     case CUBLAS_STATUS_ALLOC_FAILED:
+    case CUBLAS_STATUS_ALLOC_FAILED:
-        return "[cublas status]: allocate failed";
+      return "[cublas status]: allocate failed";
-     case CUBLAS_STATUS_INVALID_VALUE:
+    case CUBLAS_STATUS_INVALID_VALUE:
-        return "[cublas status]: invalid value";
+      return "[cublas status]: invalid value";
-     case CUBLAS_STATUS_ARCH_MISMATCH:
+    case CUBLAS_STATUS_ARCH_MISMATCH:
-        return "[cublas status]: arch mismatch";
+      return "[cublas status]: arch mismatch";
-     case CUBLAS_STATUS_MAPPING_ERROR:
+    case CUBLAS_STATUS_MAPPING_ERROR:
-        return "[cublas status]: mapping error";
+      return "[cublas status]: mapping error";
-     case CUBLAS_STATUS_EXECUTION_FAILED:
+    case CUBLAS_STATUS_EXECUTION_FAILED:
-        return "[cublas status]: execution failed";
+      return "[cublas status]: execution failed";
-     case CUBLAS_STATUS_INTERNAL_ERROR:
+    case CUBLAS_STATUS_INTERNAL_ERROR:
-        return "[cublas status]: internal error";
+      return "[cublas status]: internal error";
-     case CUBLAS_STATUS_SUCCESS:
+    case CUBLAS_STATUS_SUCCESS:
-        return "[cublas status]: success";
+      return "[cublas status]: success";
-     default:
+    default:
-        return "[cublas status]: unknown error";
+      return "[cublas status]: unknown error";
  }
 }
@@ -131,27 +129,21 @@ const char* hl_cublas_get_error_string(cublasStatus_t status) {
 * support << operator for more details error info.
 */
 cublasStatus_t g_cublasStat;
-#define CHECK_CUBLAS(cublas_func)                 \
+#define CHECK_CUBLAS(cublas_func)               \
-  g_cublasStat = cublas_func;                     \
+  g_cublasStat = cublas_func;                   \
-  CHECK_EQ(CUBLAS_STATUS_SUCCESS, g_cublasStat)   \
+  CHECK_EQ(CUBLAS_STATUS_SUCCESS, g_cublasStat) \
-      << "Cublas Error: "                         \
+      << "Cublas Error: " << hl_cublas_get_error_string(g_cublasStat) << " "
-      << hl_cublas_get_error_string(g_cublasStat) \
-      << " "
 void hl_cublas_init(cublasHandle_t *cublas_handle, cudaStream_t stream) {
  CHECK_CUBLAS(dynload::cublasCreate(cublas_handle))
-    << "[cublas init] Cublas create handle faild!";
+      << "[cublas init] Cublas create handle faild!";
  CHECK_CUBLAS(dynload::cublasSetStream(*cublas_handle, stream))
-    << "[cublas init] Cublas set stream faild!";
+      << "[cublas init] Cublas set stream faild!";
 }
-void hl_matrix_transpose(real *A_d,
+void hl_matrix_transpose(
-                         real *C_d,
+    real *A_d, real *C_d, int dimM, int dimN, int lda, int ldc) {
-                         int dimM,
-                         int dimN,
-                         int lda,
-                         int ldc) {
  real alpha = 1.0;
  real beta = 0.0;
@@ -159,11 +151,18 @@ void hl_matrix_transpose(real *A_d,
  CHECK_NOTNULL(C_d);
  CHECK_CUBLAS(CUBLAS_GEAM(t_resource.handle,
-               CUBLAS_OP_T, CUBLAS_OP_N,
+                           CUBLAS_OP_T,
-               dimM, dimN,
+                           CUBLAS_OP_N,
-               &alpha, A_d, lda,
+                           dimM,
-               &beta, nullptr, dimM,
+                           dimN,
-               C_d, ldc));
+                           &alpha,
+                           A_d,
+                           lda,
+                           &beta,
+                           nullptr,
+                           dimM,
+                           C_d,
+                           ldc));
  CHECK_SYNC("hl_matrix_transpose failed");
 }
@@ -188,13 +187,13 @@ void hl_matrix_inverse(real *A_d, real *C_d, int dimN, int lda, int ldc) {
     small-sized matrices. There may be a better way to reconstruct
     the API for better performance.
   */
-  CHECK_CUBLAS(CUBLAS_GETRF(t_resource.handle,
+  CHECK_CUBLAS(
-      dimN, inout_d, lda, pivot_d, info_d, 1));
+      CUBLAS_GETRF(t_resource.handle, dimN, inout_d, lda, pivot_d, info_d, 1));
  int info_h;
  hl_memcpy(&info_h, info_d, sizeof(int));
  if (info_h != 0) {
-      LOG(FATAL) << "Factorization of matrix failed: matrix may be singular.\n";
+    LOG(FATAL) << "Factorization of matrix failed: matrix may be singular.\n";
  }
  /* Step 2: Compute the inverse of the matrix given its LU decomposition */
@@ -203,12 +202,18 @@ void hl_matrix_inverse(real *A_d, real *C_d, int dimN, int lda, int ldc) {
  hl_memcpy(out_d, out_h, sizeof(real *));
  CHECK_CUBLAS(CUBLAS_GETRI(t_resource.handle,
-      dimN, (const real **)inout_d, lda, pivot_d,
+                            dimN,
-      out_d, ldc, info_d, 1));
+                            (const real **)inout_d,
+                            lda,
+                            pivot_d,
+                            out_d,
+                            ldc,
+                            info_d,
+                            1));
  hl_memcpy(&info_h, info_d, sizeof(int));
  if (info_h != 0) {
-      LOG(FATAL) << "Inversion of matrix failed: matrix may be singular.\n";
+    LOG(FATAL) << "Inversion of matrix failed: matrix may be singular.\n";
  }
  hl_free_mem_device(inout_d);
@@ -218,12 +223,19 @@ void hl_matrix_inverse(real *A_d, real *C_d, int dimN, int lda, int ldc) {
  CHECK_SYNC("hl_matrix_inverse failed");
 }
-void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
+void hl_matrix_mul(real *A_d,
-                   real *B_d, hl_trans_op_t transb,
+                   hl_trans_op_t transa,
+                   real *B_d,
+                   hl_trans_op_t transb,
                   real *C_d,
-                   int dimM, int dimN, int dimK,
+                   int dimM,
-                   real alpha, real beta,
+                   int dimN,
-                   int lda, int ldb, int ldc) {
+                   int dimK,
+                   real alpha,
+                   real beta,
+                   int lda,
+                   int ldb,
+                   int ldc) {
  CHECK_NOTNULL(A_d);
  CHECK_NOTNULL(B_d);
  CHECK_NOTNULL(C_d);
@@ -231,8 +243,8 @@ void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
  if (dimN == 1 && dimM != 1 && dimK != 1 && transb == HPPL_OP_N) {
    int m = (transa == HPPL_OP_N) ? dimM : dimK;
    int n = (transa == HPPL_OP_N) ? dimK : dimM;
-    hl_matrix_mul_vector(A_d, transa, B_d, C_d, m, n,
+    hl_matrix_mul_vector(
-                         alpha, beta, lda, ldb, ldc);
+        A_d, transa, B_d, C_d, m, n, alpha, beta, lda, ldb, ldc);
    return;
  }
@@ -240,8 +252,7 @@ void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
    int m = (transb == HPPL_OP_N) ? dimK : dimN;
    int n = (transb == HPPL_OP_N) ? dimN : dimK;
    hl_trans_op_t trans = (transb == HPPL_OP_N) ? HPPL_OP_T : HPPL_OP_N;
-    hl_matrix_mul_vector(B_d, trans, A_d, C_d, m, n,
+    hl_matrix_mul_vector(B_d, trans, A_d, C_d, m, n, alpha, beta, ldb, 1, 1);
-                         alpha, beta, ldb, 1, 1);
    return;
  }
@@ -250,26 +261,47 @@ void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
    stat = CUBLAS_GEMM(t_resource.handle,
                       CUBLAS_OP_N,
                       CUBLAS_OP_N,
-                       dimN, dimM, dimK,
+                       dimN,
-                       &alpha, B_d, ldb,
+                       dimM,
-                       A_d, lda,
+                       dimK,
-                       &beta, C_d, ldc);
+                       &alpha,
+                       B_d,
+                       ldb,
+                       A_d,
+                       lda,
+                       &beta,
+                       C_d,
+                       ldc);
  } else if ((HPPL_OP_T == transa) && (HPPL_OP_N == transb)) {
    stat = CUBLAS_GEMM(t_resource.handle,
                       CUBLAS_OP_N,
                       CUBLAS_OP_T,
-                       dimN, dimM, dimK,
+                       dimN,
-                       &alpha, B_d, ldb,
+                       dimM,
-                       A_d, lda,
+                       dimK,
-                       &beta, C_d, ldc);
+                       &alpha,
+                       B_d,
+                       ldb,
+                       A_d,
+                       lda,
+                       &beta,
+                       C_d,
+                       ldc);
  } else if ((HPPL_OP_N == transa) && (HPPL_OP_T == transb)) {
    stat = CUBLAS_GEMM(t_resource.handle,
                       CUBLAS_OP_T,
                       CUBLAS_OP_N,
-                       dimN, dimM, dimK,
+                       dimN,
-                       &alpha, B_d, ldb,
+                       dimM,
-                       A_d, lda,
+                       dimK,
-                       &beta, C_d, ldc);
+                       &alpha,
+                       B_d,
+                       ldb,
+                       A_d,
+                       lda,
+                       &beta,
+                       C_d,
+                       ldc);
  } else {
    LOG(FATAL) << "parameter transa error!";
  }
@@ -277,24 +309,46 @@ void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
  CHECK_SYNC("hl_matrix_mul failed");
 }
-void hl_matrix_mul(real *A_d, hl_trans_op_t transa,
+void hl_matrix_mul(real *A_d,
-                   real *B_d, hl_trans_op_t transb,
+                   hl_trans_op_t transa,
+                   real *B_d,
+                   hl_trans_op_t transb,
                   real *C_d,
-                   int dimM, int dimN, int dimK,
+                   int dimM,
-                   real alpha, real beta) {
+                   int dimN,
+                   int dimK,
+                   real alpha,
+                   real beta) {
  int lda = (HPPL_OP_N == transa) ? dimK : dimM;
  int ldb = (HPPL_OP_N == transb) ? dimN : dimK;
  int ldc = dimN;
-  hl_matrix_mul(A_d, transa, B_d, transb, C_d, dimM, dimN,
+  hl_matrix_mul(A_d,
-                dimK, alpha, beta, lda, ldb, ldc);
+                transa,
+                B_d,
+                transb,
+                C_d,
+                dimM,
+                dimN,
+                dimK,
+                alpha,
+                beta,
+                lda,
+                ldb,
+                ldc);
 }
-void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
+void hl_matrix_mul_vector(real *A_d,
-                          real *B_d, real *C_d,
+                          hl_trans_op_t trans,
-                          int dimM, int dimN,
+                          real *B_d,
-                          real alpha, real beta,
+                          real *C_d,
-                          int lda, int incb, int incc) {
+                          int dimM,
+                          int dimN,
+                          real alpha,
+                          real beta,
+                          int lda,
+                          int incb,
+                          int incc) {
  CHECK_NOTNULL(A_d);
  CHECK_NOTNULL(B_d);
  CHECK_NOTNULL(C_d);
@@ -303,21 +357,29 @@ void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
  if (HPPL_OP_N == trans) {
    stat = CUBLAS_GEMV(t_resource.handle,
                       CUBLAS_OP_T,
-                       dimN, dimM,
+                       dimN,
+                       dimM,
                       &alpha,
-                       A_d, lda,
+                       A_d,
-                       B_d, incb,
+                       lda,
+                       B_d,
+                       incb,
                       &beta,
-                       C_d, incc);
+                       C_d,
+                       incc);
  } else if (HPPL_OP_T == trans) {
    stat = CUBLAS_GEMV(t_resource.handle,
                       CUBLAS_OP_N,
-                       dimN, dimM,
+                       dimN,
+                       dimM,
                       &alpha,
-                       A_d, lda,
+                       A_d,
-                       B_d, incb,
+                       lda,
+                       B_d,
+                       incb,
                       &beta,
-                       C_d, incc);
+                       C_d,
+                       incc);
  } else {
    LOG(FATAL) << "parameter transa error!";
  }
@@ -326,10 +388,14 @@ void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
  CHECK_SYNC("hl_matrix_mul_vector");
 }
-void hl_matrix_mul_vector(real *A_d, hl_trans_op_t trans,
+void hl_matrix_mul_vector(real *A_d,
-                          real *B_d, real *C_d,
+                          hl_trans_op_t trans,
-                          int dimM, int dimN,
+                          real *B_d,
-                          real alpha, real beta) {
+                          real *C_d,
-  hl_matrix_mul_vector(A_d, trans, B_d, C_d, dimM, dimN,
+                          int dimM,
-                       alpha, beta, dimN, 1, 1);
+                          int dimN,
+                          real alpha,
+                          real beta) {
+  hl_matrix_mul_vector(
+      A_d, trans, B_d, C_d, dimM, dimN, alpha, beta, dimN, 1, 1);
 }
--- a/paddle/cuda/src/hl_cuda_cudnn.cc
+++ b/paddle/cuda/src/hl_cuda_cudnn.cc
--- a/paddle/cuda/src/hl_cuda_device.cc
+++ b/paddle/cuda/src/hl_cuda_device.cc
--- a/paddle/cuda/src/hl_cudart_wrap.cc
+++ b/paddle/cuda/src/hl_cudart_wrap.cc
--- a/paddle/cuda/src/hl_dso_loader.cc
+++ b/paddle/cuda/src/hl_dso_loader.cc
--- a/paddle/cuda/src/hl_math.cc
+++ b/paddle/cuda/src/hl_math.cc
@@ -12,24 +12,15 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "avx_mathfun.h"
 namespace hppl {
-__m256 exp(__m256 a) {
+__m256 exp(__m256 a) { return exp256_ps(a); }
-  return exp256_ps(a);
-}
-__m256 log(__m256 a) {
+__m256 log(__m256 a) { return log256_ps(a); }
-  return log256_ps(a);
-}
-__m256 sin(__m256 a) {
+__m256 sin(__m256 a) { return sin256_ps(a); }
-  return sin256_ps(a);
-}
-__m256 cos(__m256 a) {
+__m256 cos(__m256 a) { return cos256_ps(a); }
-  return cos256_ps(a);
-}
 }  // namespace hppl
--- a/paddle/cuda/src/hl_time.cc
+++ b/paddle/cuda/src/hl_time.cc
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include <chrono>
 #include <stdlib.h>
 #include <iostream>
@@ -21,8 +20,7 @@ limitations under the License. */
 using std::chrono::high_resolution_clock;
 int64_t getCurrentTimeStick() {
-    high_resolution_clock::time_point tp = high_resolution_clock::now();
+  high_resolution_clock::time_point tp = high_resolution_clock::now();
-    high_resolution_clock::duration dtn = tp.time_since_epoch();
+  high_resolution_clock::duration dtn = tp.time_since_epoch();
-    return dtn.count();
+  return dtn.count();
 }
--- a/paddle/gserver/activations/ActivationFunction.cpp
+++ b/paddle/gserver/activations/ActivationFunction.cpp
--- a/paddle/gserver/activations/ActivationFunction.h
+++ b/paddle/gserver/activations/ActivationFunction.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #pragma once
 #include <string>
 #include <vector>

--- a/paddle/gserver/dataproviders/DataProvider.cpp
+++ b/paddle/gserver/dataproviders/DataProvider.cpp
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #include "DataProvider.h"
 #include "paddle/utils/Util.h"
@@ -57,7 +56,7 @@ void BufferBatch::clone(DataBatch* srcBatch, bool useGpu) {
  }
 }
-DoubleBuffer::DoubleBuffer(DataProvider *dataPool,
+DoubleBuffer::DoubleBuffer(DataProvider* dataPool,
                           bool useGpu,
                           int64_t batchSize) {
  batchSize_ = batchSize;
@@ -155,7 +154,7 @@ void DoubleBuffer::startAsyncLoad() {
 }
 ClassRegistrar<DataProvider, DataConfig, ModelConfig, bool>
-DataProvider::registrar_;
+    DataProvider::registrar_;
 DataProvider* DataProvider::create(const DataConfig& config,
                                   const ModelConfig& modelConfig,
@@ -182,7 +181,8 @@ int64_t DataProvider::getNextBatch(int64_t size, DataBatch* batch) {
  for (int i = 0; i < config_.constant_slots_size(); ++i) {
    MemoryHandlePtr handle =
        constantSlots[i] ? constantSlots[i]->getMemoryHandle() : nullptr;
-    Matrix::resizeOrCreate(constantSlots[i], batchSize,
+    Matrix::resizeOrCreate(constantSlots[i],
+                           batchSize,
                           1,         // = width
                           false,     // = trans
                           useGpu_);  // = useGpu
@@ -216,7 +216,8 @@ void DataProvider::initAsyncLoader() {
 }
 SimpleDataProviderBase::SimpleDataProviderBase(const DataConfig& config,
-                                               bool useGpu, bool withInfo)
+                                               bool useGpu,
+                                               bool withInfo)
    : DataProvider(config, useGpu) {
  /* initialize the size of a sample, and the buffer */
  sampleDim_ = config_.feat_dim() * (2 * config_.context_len() + 1);
@@ -337,7 +338,8 @@ int64_t SimpleDataProviderBase::fillBuffer() {
  sampleNumInBuf_ =
      n + fillBufferImp(hInputDataBuf_->getData() + n * sampleDim_,
                        hInputLabelBuf_->getData() + n,
-                        hInputInfoBuf_->getData() + n, bufferCapacity_ - n);
+                        hInputInfoBuf_->getData() + n,
+                        bufferCapacity_ - n);
  /* for stachastic gradient training */
  if (!skipShuffle_) {
@@ -357,11 +359,14 @@ SimpleDataProvider::SimpleDataProvider(const DataConfig& config, bool useGpu)
 SimpleDataProvider::~SimpleDataProvider() {}
-int64_t SimpleDataProvider::fillBufferImp(real* data, int* label, int* info,
+int64_t SimpleDataProvider::fillBufferImp(real* data,
+                                          int* label,
+                                          int* info,
                                          int64_t size) {
  (void)info;
  int64_t n = std::min<int64_t>(labels_.size() - currentSampleIndex_, size);
-  memcpy(data, &data_[currentSampleIndex_ * sampleDim_],
+  memcpy(data,
+         &data_[currentSampleIndex_ * sampleDim_],
         n * sampleDim_ * sizeof(real));
  memcpy(label, &labels_[currentSampleIndex_], sizeof(int) * n);
  currentSampleIndex_ += n;

--- a/paddle/gserver/dataproviders/DataProvider.h
+++ b/paddle/gserver/dataproviders/DataProvider.h
--- a/paddle/gserver/dataproviders/DataProviderGroup.h
+++ b/paddle/gserver/dataproviders/DataProviderGroup.h
@@ -12,7 +12,6 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License. */
 #pragma once
 #include "DataProvider.h"
@@ -65,8 +64,8 @@ void DataProviderGroup<T>::reset() {
  provider_ = nullptr;
  // shuffle file list
-  std::shuffle(fileList_.begin(), fileList_.end(),
+  std::shuffle(
-      ThreadLocalRandomEngine::get());
+      fileList_.begin(), fileList_.end(), ThreadLocalRandomEngine::get());
  startLoader();
  DataProvider::reset();
@@ -113,8 +112,9 @@ void DataProviderGroup<T>::startLoader() {
    size_t endPos = std::min(fileList_.size(), startPos + loadFileCount);
    std::vector<std::string> fileVec(fileList_.begin() + startPos,
                                     fileList_.begin() + endPos);
-    loader_->addJob([this, fileVec]()
+    loader_->addJob([this, fileVec]() -> ProviderPtrType {
-                        -> ProviderPtrType { return this->loadFile(fileVec); });
+      return this->loadFile(fileVec);
+    });
  }
  loader_->stopAddJob();
 }

--- a/paddle/gserver/dataproviders/MultiDataProvider.cpp
+++ b/paddle/gserver/dataproviders/MultiDataProvider.cpp
--- a/paddle/gserver/dataproviders/MultiDataProvider.h
+++ b/paddle/gserver/dataproviders/MultiDataProvider.h
--- a/paddle/gserver/dataproviders/ProtoDataProvider.cpp
+++ b/paddle/gserver/dataproviders/ProtoDataProvider.cpp
--- a/paddle/gserver/dataproviders/ProtoDataProvider.h
+++ b/paddle/gserver/dataproviders/ProtoDataProvider.h
--- a/paddle/gserver/dataproviders/ProtoReader.h
+++ b/paddle/gserver/dataproviders/ProtoReader.h
--- a/paddle/gserver/dataproviders/PyDataProvider.cpp
+++ b/paddle/gserver/dataproviders/PyDataProvider.cpp
--- a/paddle/gserver/dataproviders/PyDataProvider.h
+++ b/paddle/gserver/dataproviders/PyDataProvider.h
--- a/paddle/gserver/dataproviders/PyDataProvider2.cpp
+++ b/paddle/gserver/dataproviders/PyDataProvider2.cpp
--- a/paddle/gserver/evaluators/CTCErrorEvaluator.cpp
+++ b/paddle/gserver/evaluators/CTCErrorEvaluator.cpp
--- a/paddle/gserver/evaluators/ChunkEvaluator.cpp
+++ b/paddle/gserver/evaluators/ChunkEvaluator.cpp
--- a/paddle/gserver/evaluators/Evaluator.cpp
+++ b/paddle/gserver/evaluators/Evaluator.cpp
--- a/paddle/gserver/evaluators/Evaluator.h
+++ b/paddle/gserver/evaluators/Evaluator.h
--- a/paddle/gserver/gradientmachines/GradientMachine.cpp
+++ b/paddle/gserver/gradientmachines/GradientMachine.cpp
--- a/paddle/gserver/gradientmachines/GradientMachine.h
+++ b/paddle/gserver/gradientmachines/GradientMachine.h
--- a/paddle/gserver/gradientmachines/GradientMachineMode.h
+++ b/paddle/gserver/gradientmachines/GradientMachineMode.h
--- a/paddle/gserver/gradientmachines/MultiGradientMachine.cpp
+++ b/paddle/gserver/gradientmachines/MultiGradientMachine.cpp
--- a/paddle/gserver/gradientmachines/MultiGradientMachine.h
+++ b/paddle/gserver/gradientmachines/MultiGradientMachine.h
--- a/paddle/gserver/gradientmachines/MultiNetwork.cpp
+++ b/paddle/gserver/gradientmachines/MultiNetwork.cpp
--- a/paddle/gserver/gradientmachines/MultiNetwork.h
+++ b/paddle/gserver/gradientmachines/MultiNetwork.h
--- a/paddle/gserver/gradientmachines/NeuralNetwork.cpp
+++ b/paddle/gserver/gradientmachines/NeuralNetwork.cpp
--- a/paddle/gserver/gradientmachines/NeuralNetwork.h
+++ b/paddle/gserver/gradientmachines/NeuralNetwork.h
--- a/paddle/gserver/gradientmachines/ParallelNeuralNetwork.cpp
+++ b/paddle/gserver/gradientmachines/ParallelNeuralNetwork.cpp
--- a/paddle/gserver/gradientmachines/ParallelNeuralNetwork.h
+++ b/paddle/gserver/gradientmachines/ParallelNeuralNetwork.h
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
--- a/paddle/gserver/layers/AddtoLayer.cpp
+++ b/paddle/gserver/layers/AddtoLayer.cpp
--- a/paddle/gserver/layers/AddtoLayer.h
+++ b/paddle/gserver/layers/AddtoLayer.h
--- a/paddle/gserver/layers/AgentLayer.cpp
+++ b/paddle/gserver/layers/AgentLayer.cpp
--- a/paddle/gserver/layers/AgentLayer.h
+++ b/paddle/gserver/layers/AgentLayer.h
--- a/paddle/gserver/layers/AverageLayer.cpp
+++ b/paddle/gserver/layers/AverageLayer.cpp
--- a/paddle/gserver/layers/BatchNormBaseLayer.cpp
+++ b/paddle/gserver/layers/BatchNormBaseLayer.cpp
--- a/paddle/gserver/layers/BatchNormBaseLayer.h
+++ b/paddle/gserver/layers/BatchNormBaseLayer.h
--- a/paddle/gserver/layers/BatchNormalizationLayer.cpp
+++ b/paddle/gserver/layers/BatchNormalizationLayer.cpp
--- a/paddle/gserver/layers/BatchNormalizationLayer.h
+++ b/paddle/gserver/layers/BatchNormalizationLayer.h
--- a/paddle/gserver/layers/BilinearInterpLayer.cpp
+++ b/paddle/gserver/layers/BilinearInterpLayer.cpp
--- a/paddle/gserver/layers/BlockExpandLayer.cpp
+++ b/paddle/gserver/layers/BlockExpandLayer.cpp
--- a/paddle/gserver/layers/BlockExpandLayer.h
+++ b/paddle/gserver/layers/BlockExpandLayer.h
--- a/paddle/gserver/layers/CRFDecodingLayer.cpp
+++ b/paddle/gserver/layers/CRFDecodingLayer.cpp
--- a/paddle/gserver/layers/CRFDecodingLayer.h
+++ b/paddle/gserver/layers/CRFDecodingLayer.h
--- a/paddle/gserver/layers/CRFLayer.cpp
+++ b/paddle/gserver/layers/CRFLayer.cpp
--- a/paddle/gserver/layers/CRFLayer.h
+++ b/paddle/gserver/layers/CRFLayer.h
--- a/paddle/gserver/layers/CTCLayer.cpp
+++ b/paddle/gserver/layers/CTCLayer.cpp
--- a/paddle/gserver/layers/CTCLayer.h
+++ b/paddle/gserver/layers/CTCLayer.h
--- a/paddle/gserver/layers/ConcatenateLayer.cpp
+++ b/paddle/gserver/layers/ConcatenateLayer.cpp
--- a/paddle/gserver/layers/ContextProjection.cpp
+++ b/paddle/gserver/layers/ContextProjection.cpp
--- a/paddle/gserver/layers/ContextProjection.h
+++ b/paddle/gserver/layers/ContextProjection.h
--- a/paddle/gserver/layers/ConvBaseLayer.cpp
+++ b/paddle/gserver/layers/ConvBaseLayer.cpp
--- a/paddle/gserver/layers/ConvBaseLayer.h
+++ b/paddle/gserver/layers/ConvBaseLayer.h
--- a/paddle/gserver/layers/ConvOperator.cpp
+++ b/paddle/gserver/layers/ConvOperator.cpp
--- a/paddle/gserver/layers/ConvProjection.cpp
+++ b/paddle/gserver/layers/ConvProjection.cpp
--- a/paddle/gserver/layers/ConvProjection.h
+++ b/paddle/gserver/layers/ConvProjection.h
--- a/paddle/gserver/layers/ConvShiftLayer.cpp
+++ b/paddle/gserver/layers/ConvShiftLayer.cpp
--- a/paddle/gserver/layers/ConvexCombinationLayer.cpp
+++ b/paddle/gserver/layers/ConvexCombinationLayer.cpp
--- a/paddle/gserver/layers/CosSimLayer.cpp
+++ b/paddle/gserver/layers/CosSimLayer.cpp
--- a/paddle/gserver/layers/CosSimLayer.h
+++ b/paddle/gserver/layers/CosSimLayer.h
--- a/paddle/gserver/layers/CosSimVecMatLayer.cpp
+++ b/paddle/gserver/layers/CosSimVecMatLayer.cpp
--- a/paddle/gserver/layers/CostLayer.cpp
+++ b/paddle/gserver/layers/CostLayer.cpp
--- a/paddle/gserver/layers/CostLayer.h
+++ b/paddle/gserver/layers/CostLayer.h
--- a/paddle/gserver/layers/CudnnBatchNormLayer.cpp
+++ b/paddle/gserver/layers/CudnnBatchNormLayer.cpp
--- a/paddle/gserver/layers/CudnnBatchNormLayer.h
+++ b/paddle/gserver/layers/CudnnBatchNormLayer.h
--- a/paddle/gserver/layers/CudnnConvLayer.cpp
+++ b/paddle/gserver/layers/CudnnConvLayer.cpp
--- a/paddle/gserver/layers/CudnnConvLayer.h
+++ b/paddle/gserver/layers/CudnnConvLayer.h
--- a/paddle/gserver/layers/CudnnPoolLayer.cpp
+++ b/paddle/gserver/layers/CudnnPoolLayer.cpp
--- a/paddle/gserver/layers/CudnnPoolLayer.h
+++ b/paddle/gserver/layers/CudnnPoolLayer.h
--- a/paddle/gserver/layers/DataLayer.cpp
+++ b/paddle/gserver/layers/DataLayer.cpp
--- a/paddle/gserver/layers/DataLayer.h
+++ b/paddle/gserver/layers/DataLayer.h
--- a/paddle/gserver/layers/DataNormLayer.cpp
+++ b/paddle/gserver/layers/DataNormLayer.cpp
--- a/paddle/gserver/layers/DataNormLayer.h
+++ b/paddle/gserver/layers/DataNormLayer.h
--- a/paddle/gserver/layers/DotMulOperator.cpp
+++ b/paddle/gserver/layers/DotMulOperator.cpp
--- a/paddle/gserver/layers/DotMulProjection.cpp
+++ b/paddle/gserver/layers/DotMulProjection.cpp
--- a/paddle/gserver/layers/EosIdCheckLayer.cpp
+++ b/paddle/gserver/layers/EosIdCheckLayer.cpp
--- a/paddle/gserver/layers/ExpandConvBaseLayer.cpp
+++ b/paddle/gserver/layers/ExpandConvBaseLayer.cpp
--- a/paddle/gserver/layers/ExpandConvBaseLayer.h
+++ b/paddle/gserver/layers/ExpandConvBaseLayer.h
--- a/paddle/gserver/layers/ExpandConvLayer.cpp
+++ b/paddle/gserver/layers/ExpandConvLayer.cpp
--- a/paddle/gserver/layers/ExpandConvLayer.h
+++ b/paddle/gserver/layers/ExpandConvLayer.h
--- a/paddle/gserver/layers/ExpandConvTransLayer.cpp
+++ b/paddle/gserver/layers/ExpandConvTransLayer.cpp
--- a/paddle/gserver/layers/ExpandConvTransLayer.h
+++ b/paddle/gserver/layers/ExpandConvTransLayer.h
--- a/paddle/gserver/layers/FeatureMapExpandLayer.cpp
+++ b/paddle/gserver/layers/FeatureMapExpandLayer.cpp
--- a/paddle/gserver/layers/FullMatrixProjection.cpp
+++ b/paddle/gserver/layers/FullMatrixProjection.cpp
--- a/paddle/gserver/layers/FullMatrixProjection.h
+++ b/paddle/gserver/layers/FullMatrixProjection.h
--- a/paddle/gserver/layers/FullyConnectedLayer.cpp
+++ b/paddle/gserver/layers/FullyConnectedLayer.cpp
--- a/paddle/gserver/layers/FullyConnectedLayer.h
+++ b/paddle/gserver/layers/FullyConnectedLayer.h
--- a/paddle/gserver/layers/GatedRecurrentLayer.cpp
+++ b/paddle/gserver/layers/GatedRecurrentLayer.cpp
--- a/paddle/gserver/layers/GatedRecurrentLayer.h
+++ b/paddle/gserver/layers/GatedRecurrentLayer.h
--- a/paddle/gserver/layers/GetOutputLayer.cpp
+++ b/paddle/gserver/layers/GetOutputLayer.cpp
--- a/paddle/gserver/layers/GruCompute.cpp
+++ b/paddle/gserver/layers/GruCompute.cpp
--- a/paddle/gserver/layers/GruCompute.h
+++ b/paddle/gserver/layers/GruCompute.h
--- a/paddle/gserver/layers/GruStepLayer.cpp
+++ b/paddle/gserver/layers/GruStepLayer.cpp
--- a/paddle/gserver/layers/HierarchicalSigmoidLayer.cpp
+++ b/paddle/gserver/layers/HierarchicalSigmoidLayer.cpp
--- a/paddle/gserver/layers/HierarchicalSigmoidLayer.h
+++ b/paddle/gserver/layers/HierarchicalSigmoidLayer.h
--- a/paddle/gserver/layers/IdentityProjection.cpp
+++ b/paddle/gserver/layers/IdentityProjection.cpp
--- a/paddle/gserver/layers/InterpolationLayer.cpp
+++ b/paddle/gserver/layers/InterpolationLayer.cpp
--- a/paddle/gserver/layers/Layer.cpp
+++ b/paddle/gserver/layers/Layer.cpp
--- a/paddle/gserver/layers/Layer.h
+++ b/paddle/gserver/layers/Layer.h
--- a/paddle/gserver/layers/LinearChainCRF.cpp
+++ b/paddle/gserver/layers/LinearChainCRF.cpp
--- a/paddle/gserver/layers/LinearChainCRF.h
+++ b/paddle/gserver/layers/LinearChainCRF.h
--- a/paddle/gserver/layers/LinearChainCTC.cpp
+++ b/paddle/gserver/layers/LinearChainCTC.cpp
--- a/paddle/gserver/layers/LinearChainCTC.h
+++ b/paddle/gserver/layers/LinearChainCTC.h
--- a/paddle/gserver/layers/LstmCompute.cpp
+++ b/paddle/gserver/layers/LstmCompute.cpp
--- a/paddle/gserver/layers/LstmCompute.h
+++ b/paddle/gserver/layers/LstmCompute.h
--- a/paddle/gserver/layers/LstmLayer.cpp
+++ b/paddle/gserver/layers/LstmLayer.cpp
--- a/paddle/gserver/layers/LstmLayer.h
+++ b/paddle/gserver/layers/LstmLayer.h
--- a/paddle/gserver/layers/LstmStepLayer.cpp
+++ b/paddle/gserver/layers/LstmStepLayer.cpp
--- a/paddle/gserver/layers/MDLstmLayer.cpp
+++ b/paddle/gserver/layers/MDLstmLayer.cpp
--- a/paddle/gserver/layers/MaxIdLayer.cpp
+++ b/paddle/gserver/layers/MaxIdLayer.cpp
--- a/paddle/gserver/layers/MaxLayer.cpp
+++ b/paddle/gserver/layers/MaxLayer.cpp
--- a/paddle/gserver/layers/MaxLayer.h
+++ b/paddle/gserver/layers/MaxLayer.h
--- a/paddle/gserver/layers/MixedLayer.cpp
+++ b/paddle/gserver/layers/MixedLayer.cpp
--- a/paddle/gserver/layers/MixedLayer.h
+++ b/paddle/gserver/layers/MixedLayer.h
--- a/paddle/gserver/layers/MultinomialSampler.cpp
+++ b/paddle/gserver/layers/MultinomialSampler.cpp
--- a/paddle/gserver/layers/MultinomialSampler.h
+++ b/paddle/gserver/layers/MultinomialSampler.h
--- a/paddle/gserver/layers/MultiplexLayer.cpp
+++ b/paddle/gserver/layers/MultiplexLayer.cpp
--- a/paddle/gserver/layers/NCELayer.cpp
+++ b/paddle/gserver/layers/NCELayer.cpp
--- a/paddle/gserver/layers/NormLayer.cpp
+++ b/paddle/gserver/layers/NormLayer.cpp
--- a/paddle/gserver/layers/NormLayer.h
+++ b/paddle/gserver/layers/NormLayer.h
--- a/paddle/gserver/layers/NormProjectionLayer.cpp
+++ b/paddle/gserver/layers/NormProjectionLayer.cpp
--- a/paddle/gserver/layers/NormProjectionLayer.h
+++ b/paddle/gserver/layers/NormProjectionLayer.h
--- a/paddle/gserver/layers/Operator.cpp
+++ b/paddle/gserver/layers/Operator.cpp
--- a/paddle/gserver/layers/Operator.h
+++ b/paddle/gserver/layers/Operator.h
--- a/paddle/gserver/layers/OuterProdLayer.cpp
+++ b/paddle/gserver/layers/OuterProdLayer.cpp
--- a/paddle/gserver/layers/ParameterReluLayer.cpp
+++ b/paddle/gserver/layers/ParameterReluLayer.cpp
--- a/paddle/gserver/layers/ParameterReluLayer.h
+++ b/paddle/gserver/layers/ParameterReluLayer.h
--- a/paddle/gserver/layers/PoolLayer.cpp
+++ b/paddle/gserver/layers/PoolLayer.cpp
--- a/paddle/gserver/layers/PoolLayer.h
+++ b/paddle/gserver/layers/PoolLayer.h
--- a/paddle/gserver/layers/PoolProjection.cpp
+++ b/paddle/gserver/layers/PoolProjection.cpp
--- a/paddle/gserver/layers/PoolProjection.h
+++ b/paddle/gserver/layers/PoolProjection.h
--- a/paddle/gserver/layers/PoolProjectionLayer.cpp
+++ b/paddle/gserver/layers/PoolProjectionLayer.cpp
--- a/paddle/gserver/layers/PowerLayer.cpp
+++ b/paddle/gserver/layers/PowerLayer.cpp
--- a/paddle/gserver/layers/PrintLayer.cpp
+++ b/paddle/gserver/layers/PrintLayer.cpp
--- a/paddle/gserver/layers/Projection.cpp
+++ b/paddle/gserver/layers/Projection.cpp
--- a/paddle/gserver/layers/Projection.h
+++ b/paddle/gserver/layers/Projection.h
--- a/paddle/gserver/layers/RecurrentLayer.cpp
+++ b/paddle/gserver/layers/RecurrentLayer.cpp
--- a/paddle/gserver/layers/RecurrentLayerGroup.cpp
+++ b/paddle/gserver/layers/RecurrentLayerGroup.cpp
--- a/paddle/gserver/layers/ResizeLayer.cpp
+++ b/paddle/gserver/layers/ResizeLayer.cpp
--- a/paddle/gserver/layers/ScalingLayer.cpp
+++ b/paddle/gserver/layers/ScalingLayer.cpp
--- a/paddle/gserver/layers/ScalingProjection.cpp
+++ b/paddle/gserver/layers/ScalingProjection.cpp
--- a/paddle/gserver/layers/SelectiveFullyConnectedLayer.cpp
+++ b/paddle/gserver/layers/SelectiveFullyConnectedLayer.cpp
--- a/paddle/gserver/layers/SelectiveFullyConnectedLayer.h
+++ b/paddle/gserver/layers/SelectiveFullyConnectedLayer.h
--- a/paddle/gserver/layers/SequenceConcatLayer.cpp
+++ b/paddle/gserver/layers/SequenceConcatLayer.cpp
--- a/paddle/gserver/layers/SequenceLastInstanceLayer.cpp
+++ b/paddle/gserver/layers/SequenceLastInstanceLayer.cpp
--- a/paddle/gserver/layers/SequencePoolLayer.cpp
+++ b/paddle/gserver/layers/SequencePoolLayer.cpp
--- a/paddle/gserver/layers/SequenceReshapeLayer.cpp
+++ b/paddle/gserver/layers/SequenceReshapeLayer.cpp
--- a/paddle/gserver/layers/SequenceToBatch.cpp
+++ b/paddle/gserver/layers/SequenceToBatch.cpp
--- a/paddle/gserver/layers/SequenceToBatch.h
+++ b/paddle/gserver/layers/SequenceToBatch.h
--- a/paddle/gserver/layers/SlopeInterceptLayer.cpp
+++ b/paddle/gserver/layers/SlopeInterceptLayer.cpp
--- a/paddle/gserver/layers/SpatialPyramidPoolLayer.cpp
+++ b/paddle/gserver/layers/SpatialPyramidPoolLayer.cpp
--- a/paddle/gserver/layers/SpatialPyramidPoolLayer.h
+++ b/paddle/gserver/layers/SpatialPyramidPoolLayer.h
--- a/paddle/gserver/layers/SubSequenceLayer.cpp
+++ b/paddle/gserver/layers/SubSequenceLayer.cpp
--- a/paddle/gserver/layers/SumToOneNormLayer.cpp
+++ b/paddle/gserver/layers/SumToOneNormLayer.cpp
--- a/paddle/gserver/layers/TableProjection.cpp
+++ b/paddle/gserver/layers/TableProjection.cpp
--- a/paddle/gserver/layers/TableProjection.h
+++ b/paddle/gserver/layers/TableProjection.h
--- a/paddle/gserver/layers/TensorLayer.cpp
+++ b/paddle/gserver/layers/TensorLayer.cpp
--- a/paddle/gserver/layers/TensorLayer.h
+++ b/paddle/gserver/layers/TensorLayer.h
--- a/paddle/gserver/layers/TransLayer.cpp
+++ b/paddle/gserver/layers/TransLayer.cpp
--- a/paddle/gserver/layers/TransLayer.h
+++ b/paddle/gserver/layers/TransLayer.h
--- a/paddle/gserver/layers/TransposedFullMatrixProjection.cpp
+++ b/paddle/gserver/layers/TransposedFullMatrixProjection.cpp
--- a/paddle/gserver/layers/ValidationLayer.cpp
+++ b/paddle/gserver/layers/ValidationLayer.cpp
--- a/paddle/gserver/tests/LayerGradUtil.cpp
+++ b/paddle/gserver/tests/LayerGradUtil.cpp
--- a/paddle/gserver/tests/LayerGradUtil.h
+++ b/paddle/gserver/tests/LayerGradUtil.h
--- a/paddle/gserver/tests/TestUtil.cpp
+++ b/paddle/gserver/tests/TestUtil.cpp
--- a/paddle/gserver/tests/TestUtil.h
+++ b/paddle/gserver/tests/TestUtil.h
--- a/paddle/gserver/tests/test_ActivationGrad.cpp
+++ b/paddle/gserver/tests/test_ActivationGrad.cpp
--- a/paddle/gserver/tests/test_ConvTrans.cpp
+++ b/paddle/gserver/tests/test_ConvTrans.cpp
--- a/paddle/gserver/tests/test_Evaluator.cpp
+++ b/paddle/gserver/tests/test_Evaluator.cpp
--- a/paddle/gserver/tests/test_LayerGrad.cpp
+++ b/paddle/gserver/tests/test_LayerGrad.cpp
--- a/paddle/gserver/tests/test_LinearChainCRF.cpp
+++ b/paddle/gserver/tests/test_LinearChainCRF.cpp
--- a/paddle/gserver/tests/test_MultinomialSampler.cpp
+++ b/paddle/gserver/tests/test_MultinomialSampler.cpp
--- a/paddle/gserver/tests/test_NetworkCompare.cpp
+++ b/paddle/gserver/tests/test_NetworkCompare.cpp
--- a/paddle/gserver/tests/test_ProtoDataProvider.cpp
+++ b/paddle/gserver/tests/test_ProtoDataProvider.cpp
--- a/paddle/gserver/tests/test_PyDataProvider.cpp
+++ b/paddle/gserver/tests/test_PyDataProvider.cpp
--- a/paddle/gserver/tests/test_PyDataProvider2.cpp
+++ b/paddle/gserver/tests/test_PyDataProvider2.cpp
--- a/paddle/gserver/tests/test_RecurrentGradientMachine.cpp
+++ b/paddle/gserver/tests/test_RecurrentGradientMachine.cpp
--- a/paddle/gserver/tests/test_RecurrentLayer.cpp
+++ b/paddle/gserver/tests/test_RecurrentLayer.cpp
--- a/paddle/gserver/tests/test_SelectiveFCLayer.cpp
+++ b/paddle/gserver/tests/test_SelectiveFCLayer.cpp
--- a/paddle/math/Allocator.h
+++ b/paddle/math/Allocator.h
--- a/paddle/math/BaseMatrix.h
+++ b/paddle/math/BaseMatrix.h
--- a/paddle/math/CpuSparseMatrix.cpp
+++ b/paddle/math/CpuSparseMatrix.cpp
--- a/paddle/math/CpuSparseMatrix.h
+++ b/paddle/math/CpuSparseMatrix.h
--- a/paddle/math/ExecViaCpu.h
+++ b/paddle/math/ExecViaCpu.h
--- a/paddle/math/MathFunctions.cpp
+++ b/paddle/math/MathFunctions.cpp
--- a/paddle/math/MathFunctions.h
+++ b/paddle/math/MathFunctions.h
--- a/paddle/math/MathUtils.cpp
+++ b/paddle/math/MathUtils.cpp
--- a/paddle/math/MathUtils.h
+++ b/paddle/math/MathUtils.h
--- a/paddle/math/Matrix.cpp
+++ b/paddle/math/Matrix.cpp
--- a/paddle/math/Matrix.h
+++ b/paddle/math/Matrix.h
--- a/paddle/math/MatrixBitCode.cpp
+++ b/paddle/math/MatrixBitCode.cpp
--- a/paddle/math/MemoryHandle.cpp
+++ b/paddle/math/MemoryHandle.cpp
--- a/paddle/math/MemoryHandle.h
+++ b/paddle/math/MemoryHandle.h
--- a/paddle/math/PoolAllocator.cpp
+++ b/paddle/math/PoolAllocator.cpp
--- a/paddle/math/PoolAllocator.h
+++ b/paddle/math/PoolAllocator.h
--- a/paddle/math/SIMDFunctions.cpp
+++ b/paddle/math/SIMDFunctions.cpp
--- a/paddle/math/SIMDFunctions.h
+++ b/paddle/math/SIMDFunctions.h
--- a/paddle/math/SparseMatrix.cpp
+++ b/paddle/math/SparseMatrix.cpp
--- a/paddle/math/SparseMatrix.h
+++ b/paddle/math/SparseMatrix.h
--- a/paddle/math/SparseRowMatrix.cpp
+++ b/paddle/math/SparseRowMatrix.cpp
--- a/paddle/math/SparseRowMatrix.h
+++ b/paddle/math/SparseRowMatrix.h
--- a/paddle/math/Storage.cpp
+++ b/paddle/math/Storage.cpp
--- a/paddle/math/Vector.cpp
+++ b/paddle/math/Vector.cpp
--- a/paddle/math/Vector.h
+++ b/paddle/math/Vector.h
--- a/paddle/math/tests/test_Allocator.cpp
+++ b/paddle/math/tests/test_Allocator.cpp
--- a/paddle/math/tests/test_ExecViaCpu.cpp
+++ b/paddle/math/tests/test_ExecViaCpu.cpp
--- a/paddle/math/tests/test_FPException.cpp
+++ b/paddle/math/tests/test_FPException.cpp
--- a/paddle/math/tests/test_SIMDFunctions.cpp
+++ b/paddle/math/tests/test_SIMDFunctions.cpp
--- a/paddle/math/tests/test_batchTranspose.cpp
+++ b/paddle/math/tests/test_batchTranspose.cpp
--- a/paddle/math/tests/test_matrix.cpp
+++ b/paddle/math/tests/test_matrix.cpp
--- a/paddle/math/tests/test_matrixCompare.cpp
+++ b/paddle/math/tests/test_matrixCompare.cpp
--- a/paddle/math/tests/test_matrixUtil.h
+++ b/paddle/math/tests/test_matrixUtil.h
--- a/paddle/math/tests/test_perturbation.cpp
+++ b/paddle/math/tests/test_perturbation.cpp
--- a/paddle/math/tests/test_sparseMatrixCompare.cpp
+++ b/paddle/math/tests/test_sparseMatrixCompare.cpp
--- a/paddle/parameter/Argument.cpp
+++ b/paddle/parameter/Argument.cpp
--- a/paddle/parameter/Argument.h
+++ b/paddle/parameter/Argument.h
--- a/paddle/parameter/AverageOptimizer.cpp
+++ b/paddle/parameter/AverageOptimizer.cpp
--- a/paddle/parameter/AverageOptimizer.h
+++ b/paddle/parameter/AverageOptimizer.h
--- a/paddle/parameter/FirstOrderOptimizer.cpp
+++ b/paddle/parameter/FirstOrderOptimizer.cpp
--- a/paddle/parameter/FirstOrderOptimizer.h
+++ b/paddle/parameter/FirstOrderOptimizer.h
--- a/paddle/parameter/LearningRateScheduler.cpp
+++ b/paddle/parameter/LearningRateScheduler.cpp
--- a/paddle/parameter/LearningRateScheduler.h
+++ b/paddle/parameter/LearningRateScheduler.h
--- a/paddle/parameter/OptimizerFunctions.cpp
+++ b/paddle/parameter/OptimizerFunctions.cpp
--- a/paddle/parameter/OptimizerFunctions.h
+++ b/paddle/parameter/OptimizerFunctions.h
--- a/paddle/parameter/OptimizerWithRegularizer.cpp
+++ b/paddle/parameter/OptimizerWithRegularizer.cpp
--- a/paddle/parameter/OptimizerWithRegularizer.h
+++ b/paddle/parameter/OptimizerWithRegularizer.h
--- a/paddle/parameter/ParallelParameter.cpp
+++ b/paddle/parameter/ParallelParameter.cpp
--- a/paddle/parameter/ParallelParameter.h
+++ b/paddle/parameter/ParallelParameter.h
--- a/paddle/parameter/Parameter.cpp
+++ b/paddle/parameter/Parameter.cpp
--- a/paddle/parameter/Parameter.h
+++ b/paddle/parameter/Parameter.h
--- a/paddle/parameter/ParameterOptimizer.cpp
+++ b/paddle/parameter/ParameterOptimizer.cpp
--- a/paddle/parameter/ParameterOptimizer.h
+++ b/paddle/parameter/ParameterOptimizer.h
--- a/paddle/parameter/ParameterUpdateFunctions.cpp
+++ b/paddle/parameter/ParameterUpdateFunctions.cpp
--- a/paddle/parameter/ParameterUpdateFunctions.h
+++ b/paddle/parameter/ParameterUpdateFunctions.h
--- a/paddle/parameter/ParameterUpdaterBase.cpp
+++ b/paddle/parameter/ParameterUpdaterBase.cpp
--- a/paddle/parameter/ParameterUpdaterBase.h
+++ b/paddle/parameter/ParameterUpdaterBase.h
--- a/paddle/parameter/ParameterUpdaterHook.cpp
+++ b/paddle/parameter/ParameterUpdaterHook.cpp
--- a/paddle/parameter/ParameterUpdaterHook.h
+++ b/paddle/parameter/ParameterUpdaterHook.h
--- a/paddle/parameter/Regularizer.cpp
+++ b/paddle/parameter/Regularizer.cpp
--- a/paddle/parameter/Regularizer.h
+++ b/paddle/parameter/Regularizer.h
--- a/paddle/parameter/Weight.cpp
+++ b/paddle/parameter/Weight.cpp
--- a/paddle/parameter/tests/test_common.cpp
+++ b/paddle/parameter/tests/test_common.cpp
--- a/paddle/pserver/BaseClient.cpp
+++ b/paddle/pserver/BaseClient.cpp
--- a/paddle/pserver/BaseClient.h
+++ b/paddle/pserver/BaseClient.h
--- a/paddle/pserver/LightNetwork.cpp
+++ b/paddle/pserver/LightNetwork.cpp
--- a/paddle/pserver/LightNetwork.h
+++ b/paddle/pserver/LightNetwork.h
--- a/paddle/pserver/ParameterClient2.cpp
+++ b/paddle/pserver/ParameterClient2.cpp
--- a/paddle/pserver/ParameterClient2.h
+++ b/paddle/pserver/ParameterClient2.h
--- a/paddle/pserver/ParameterServer2.cpp
+++ b/paddle/pserver/ParameterServer2.cpp
--- a/paddle/pserver/ParameterServer2.h
+++ b/paddle/pserver/ParameterServer2.h
--- a/paddle/pserver/ProtoServer.cpp
+++ b/paddle/pserver/ProtoServer.cpp
--- a/paddle/pserver/ProtoServer.h
+++ b/paddle/pserver/ProtoServer.h
--- a/paddle/pserver/RDMANetwork.h
+++ b/paddle/pserver/RDMANetwork.h
--- a/paddle/pserver/SocketChannel.cpp
+++ b/paddle/pserver/SocketChannel.cpp
--- a/paddle/pserver/SocketChannel.h
+++ b/paddle/pserver/SocketChannel.h
--- a/paddle/pserver/SparseParameterDistribution.cpp
+++ b/paddle/pserver/SparseParameterDistribution.cpp
--- a/paddle/pserver/test/SocketTest.cpp
+++ b/paddle/pserver/test/SocketTest.cpp
--- a/paddle/pserver/test/test_ParameterServer2.cpp
+++ b/paddle/pserver/test/test_ParameterServer2.cpp
--- a/paddle/pserver/test/test_ProtoServer.cpp
+++ b/paddle/pserver/test/test_ProtoServer.cpp
--- a/paddle/trainer/ParamUtil.cpp
+++ b/paddle/trainer/ParamUtil.cpp
--- a/paddle/trainer/ParamUtil.h
+++ b/paddle/trainer/ParamUtil.h
--- a/paddle/trainer/ParameterUpdater.cpp
+++ b/paddle/trainer/ParameterUpdater.cpp
--- a/paddle/trainer/ParameterUpdater.h
+++ b/paddle/trainer/ParameterUpdater.h
--- a/paddle/trainer/RemoteParameterUpdater.cpp
+++ b/paddle/trainer/RemoteParameterUpdater.cpp
--- a/paddle/trainer/RemoteParameterUpdater.h
+++ b/paddle/trainer/RemoteParameterUpdater.h
--- a/paddle/trainer/Tester.cpp
+++ b/paddle/trainer/Tester.cpp
--- a/paddle/trainer/Tester.h
+++ b/paddle/trainer/Tester.h
--- a/paddle/trainer/TesterConfig.h
+++ b/paddle/trainer/TesterConfig.h
--- a/paddle/trainer/ThreadParameterUpdater.cpp
+++ b/paddle/trainer/ThreadParameterUpdater.cpp
--- a/paddle/trainer/ThreadParameterUpdater.h
+++ b/paddle/trainer/ThreadParameterUpdater.h
--- a/paddle/trainer/Trainer.cpp
+++ b/paddle/trainer/Trainer.cpp
--- a/paddle/trainer/Trainer.h
+++ b/paddle/trainer/Trainer.h
--- a/paddle/trainer/TrainerConfigHelper.cpp
+++ b/paddle/trainer/TrainerConfigHelper.cpp
--- a/paddle/trainer/TrainerConfigHelper.h
+++ b/paddle/trainer/TrainerConfigHelper.h
--- a/paddle/trainer/TrainerInternal.cpp
+++ b/paddle/trainer/TrainerInternal.cpp
--- a/paddle/trainer/TrainerInternal.h
+++ b/paddle/trainer/TrainerInternal.h
--- a/paddle/trainer/TrainerInternalConfig.cpp
+++ b/paddle/trainer/TrainerInternalConfig.cpp
--- a/paddle/trainer/TrainerInternalConfig.h
+++ b/paddle/trainer/TrainerInternalConfig.h
--- a/paddle/trainer/TrainerMain.cpp
+++ b/paddle/trainer/TrainerMain.cpp
--- a/paddle/trainer/tests/picojson.h
+++ b/paddle/trainer/tests/picojson.h
--- a/paddle/trainer/tests/test_Compare.cpp
+++ b/paddle/trainer/tests/test_Compare.cpp
--- a/paddle/trainer/tests/test_CompareSparse.cpp
+++ b/paddle/trainer/tests/test_CompareSparse.cpp
--- a/paddle/trainer/tests/test_CompareTwoNets.cpp
+++ b/paddle/trainer/tests/test_CompareTwoNets.cpp
--- a/paddle/trainer/tests/test_CompareTwoOpts.cpp
+++ b/paddle/trainer/tests/test_CompareTwoOpts.cpp
--- a/paddle/trainer/tests/test_Prediction.cpp
+++ b/paddle/trainer/tests/test_Prediction.cpp
--- a/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
+++ b/paddle/trainer/tests/test_PyDataProviderWrapper.cpp
--- a/paddle/trainer/tests/test_Trainer.cpp
+++ b/paddle/trainer/tests/test_Trainer.cpp
--- a/paddle/trainer/tests/test_TrainerOnePass.cpp
+++ b/paddle/trainer/tests/test_TrainerOnePass.cpp
--- a/paddle/trainer/tests/test_recurrent_machine_generation.cpp
+++ b/paddle/trainer/tests/test_recurrent_machine_generation.cpp
--- a/paddle/utils/BarrierStat.cpp
+++ b/paddle/utils/BarrierStat.cpp
--- a/paddle/utils/BarrierStat.h
+++ b/paddle/utils/BarrierStat.h
--- a/paddle/utils/ClassRegistrar.h
+++ b/paddle/utils/ClassRegistrar.h
--- a/paddle/utils/CommandLineParser.cpp
+++ b/paddle/utils/CommandLineParser.cpp
--- a/paddle/utils/CommandLineParser.h
+++ b/paddle/utils/CommandLineParser.h
--- a/paddle/utils/CustomStackTrace.cpp
+++ b/paddle/utils/CustomStackTrace.cpp
--- a/paddle/utils/CustomStackTrace.h
+++ b/paddle/utils/CustomStackTrace.h
--- a/paddle/utils/DisableCopy.h
+++ b/paddle/utils/DisableCopy.h
--- a/paddle/utils/Excepts.cpp
+++ b/paddle/utils/Excepts.cpp
--- a/paddle/utils/Flags.cpp
+++ b/paddle/utils/Flags.cpp
--- a/paddle/utils/Flags.h
+++ b/paddle/utils/Flags.h
--- a/paddle/utils/GlobalConstants.cpp
+++ b/paddle/utils/GlobalConstants.cpp
--- a/paddle/utils/GlobalConstants.h
+++ b/paddle/utils/GlobalConstants.h
--- a/paddle/utils/Locks.h
+++ b/paddle/utils/Locks.h
--- a/paddle/utils/Logging.cpp
+++ b/paddle/utils/Logging.cpp
--- a/paddle/utils/Logging.h
+++ b/paddle/utils/Logging.h
--- a/paddle/utils/PythonUtil.cpp
+++ b/paddle/utils/PythonUtil.cpp
--- a/paddle/utils/PythonUtil.h
+++ b/paddle/utils/PythonUtil.h
--- a/paddle/utils/Queue.h
+++ b/paddle/utils/Queue.h
--- a/paddle/utils/Stat.h
+++ b/paddle/utils/Stat.h
--- a/paddle/utils/StringUtil.h
+++ b/paddle/utils/StringUtil.h
--- a/paddle/utils/Thread.h
+++ b/paddle/utils/Thread.h
--- a/paddle/utils/ThreadLocal.cpp
+++ b/paddle/utils/ThreadLocal.cpp
--- a/paddle/utils/ThreadLocal.h
+++ b/paddle/utils/ThreadLocal.h
--- a/paddle/utils/TypeDefs.h
+++ b/paddle/utils/TypeDefs.h
--- a/paddle/utils/Util.cpp
+++ b/paddle/utils/Util.cpp
--- a/paddle/utils/Util.h
+++ b/paddle/utils/Util.h
--- a/paddle/utils/Version.cpp
+++ b/paddle/utils/Version.cpp
--- a/paddle/utils/Version.h
+++ b/paddle/utils/Version.h
--- a/paddle/utils/arch/linux/Locks.cpp
+++ b/paddle/utils/arch/linux/Locks.cpp
--- a/paddle/utils/arch/osx/Locks.cpp
+++ b/paddle/utils/arch/osx/Locks.cpp
--- a/paddle/utils/tests/test_CommandLineParser.cpp
+++ b/paddle/utils/tests/test_CommandLineParser.cpp
--- a/paddle/utils/tests/test_CustomStackTrace.cpp
+++ b/paddle/utils/tests/test_CustomStackTrace.cpp
--- a/paddle/utils/tests/test_CustomStackTracePrint.cpp
+++ b/paddle/utils/tests/test_CustomStackTracePrint.cpp
--- a/paddle/utils/tests/test_Logging.cpp
+++ b/paddle/utils/tests/test_Logging.cpp
--- a/paddle/utils/tests/test_SpinLock.cpp
+++ b/paddle/utils/tests/test_SpinLock.cpp
--- a/paddle/utils/tests/test_StringUtils.cpp
+++ b/paddle/utils/tests/test_StringUtils.cpp
--- a/paddle/utils/tests/test_Thread.cpp
+++ b/paddle/utils/tests/test_Thread.cpp
--- a/paddle/utils/tests/test_ThreadBarrier.cpp
+++ b/paddle/utils/tests/test_ThreadBarrier.cpp
--- a/proto/ModelConfig.proto.m4
+++ b/proto/ModelConfig.proto.m4
--- a/python/paddle/trainer/config_parser.py
+++ b/python/paddle/trainer/config_parser.py