init from wiki

ac44e7b7 · Chunwei · cba5736f · ac44e7b7 · cba5736f · ac44e7b7
1000 changed file
--- a/.gitmodules
+++ b/.gitmodules
-[submodule "third-party/gflags"]
-	path = third-party/gflags
-	url = https://github.com/gflags/gflags.git
-[submodule "third-party/googletest"]
-	path = third-party/googletest
-	url = https://github.com/google/googletest.git
-[submodule "third-party/protobuf-mobile"]
-	path = third-party/protobuf-mobile
-	url = https://github.com/tensor-tang/protobuf.git
-[submodule "third-party/protobuf-host"]
-	path = third-party/protobuf-host
-	url = https://github.com/protocolbuffers/protobuf.git
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License
-cmake_minimum_required(VERSION 3.0)
-set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} "${CMAKE_CURRENT_SOURCE_DIR}/cmake")
-include(lite_utils)
-lite_option(WITH_PADDLE_MOBILE   "Use the paddle-mobile legacy build"    OFF)
-if (WITH_PADDLE_MOBILE)
-    add_subdirectory(mobile)
-    return()
-endif(WITH_PADDLE_MOBILE)
-set(PADDLE_SOURCE_DIR ${CMAKE_CURRENT_SOURCE_DIR})
-set(PADDLE_BINARY_DIR ${CMAKE_CURRENT_BINARY_DIR})
-set(CMAKE_CXX_STANDARD 11)
-include(system)
-include(cross_compiling/preproject)
-project(paddle CXX C)
-message(STATUS "CXX compiler: ${CMAKE_CXX_COMPILER}, version: "
-        "${CMAKE_CXX_COMPILER_ID} ${CMAKE_CXX_COMPILER_VERSION}")
-message(STATUS "C compiler: ${CMAKE_C_COMPILER}, version: "
-        "${CMAKE_C_COMPILER_ID} ${CMAKE_C_COMPILER_VERSION}")
-message(STATUS "AR tools: ${CMAKE_AR}")
-if(NOT LITE_WITH_LIGHT_WEIGHT_FRAMEWORK)
-    find_package(CUDA QUIET)
-endif()
-find_package(Git REQUIRED)
-find_package(Threads REQUIRED)
-include(simd)
-################################ Exposed Configurations #######################################
-lite_option(WITH_DSO         "Compile PaddlePaddle with dynamic linked CUDA" ON)
-lite_option(WITH_AVX         "Compile PaddlePaddle with AVX intrinsics"      ON IF ${AVX_FOUND})
-lite_option(WITH_PYTHON      "Compile PaddlePaddle with python interpreter"  ON)
-lite_option(WITH_TESTING     "Compile PaddlePaddle with unit testing"        OFF)
-lite_option(WITH_MKL         "Compile PaddlePaddle with MKL support."        ON IF ${AVX_FOUND})
-lite_option(WITH_ARM_DOTPROD "Compile PaddlePaddle with ARM dot production"  ON)
-lite_option(WITH_SYSTEM_BLAS   "Use system blas library"           OFF)
-# TODO(Superjomn) Remove WITH_ANAKIN option if not needed latter.
-if(ANDROID OR IOS OR ARMLINUX)
-    set(WITH_GPU OFF CACHE STRING
-            "Disable GPU when cross-compiling for Android and iOS" FORCE)
-    set(WITH_DSO OFF CACHE STRING
-            "Disable DSO when cross-compiling for Android and iOS" FORCE)
-    set(WITH_AVX OFF CACHE STRING
-            "Disable AVX when cross-compiling for Android and iOS" FORCE)
-    set(WITH_PYTHON OFF CACHE STRING
-            "Disable PYTHON when cross-compiling for Android and iOS" FORCE)
-    set(WITH_RDMA OFF CACHE STRING
-            "Disable RDMA when cross-compiling for Android and iOS" FORCE)
-    set(WITH_MKL OFF CACHE STRING
-            "Disable MKL when cross-compiling for Android and iOS" FORCE)
-endif()
-# for lite, both server and mobile framework.
-lite_option(LITE_WITH_JAVA "Enable Java JNI lib in lite mode" OFF)
-lite_option(LITE_WITH_CUDA "Enable CUDA in lite mode" OFF)
-lite_option(LITE_WITH_X86  "Enable X86 in lite mode"  ON)
-lite_option(LITE_WITH_ARM  "Enable ARM in lite mode"  OFF)
-lite_option(LITE_WITH_NPU  "Enable NPU in lite mode"  OFF)
-lite_option(LITE_WITH_OPENMP "Enable OpenMP in lite framework" ON)
-lite_option(LITE_WITH_OPENCL   "Enable OpenCL support in lite" OFF)
-lite_option(LITE_WITH_FPGA   "Enable FPGA support in lite" OFF)
-lite_option(LITE_WITH_LIGHT_WEIGHT_FRAMEWORK  "Enable light-weight framework" OFF)
-lite_option(LITE_WITH_PROFILE  "Enable profile mode in lite framework"  OFF)
-lite_option(LITE_WITH_PRECISION_PROFILE "Enable precision profile in profile mode ON in lite" OFF IF LITE_WITH_PROFILE)
-lite_option(LITE_SHUTDOWN_LOG "Shutdown log system or not." OFF)
-lite_option(LITE_ON_TINY_PUBLISH "Publish tiny predictor lib." OFF)
-lite_option(LITE_ON_MODEL_OPTIMIZE_TOOL "Build the model optimize tool" OFF)
-# publish options
-lite_option(LITE_BUILD_EXTRA "Enable extra algorithm support in Lite, both kernels and operators" OFF)
-set(THIRD_PARTY_PATH "${CMAKE_BINARY_DIR}/third_party" CACHE STRING
-        "A path setting third party libraries download & build directories.")
-# CMAKE_BUILD_TYPE
-if(NOT CMAKE_BUILD_TYPE)
-    set(CMAKE_BUILD_TYPE "RelWithDebInfo" CACHE STRING
-            "Choose the type of build, options are: Debug Release RelWithDebInfo MinSizeRel"
-            FORCE)
-endif()
-# check options
-if (LITE_ON_TINY_PUBLISH)
-    if (NOT (WITH_LITE AND LITE_WITH_LIGHT_WEIGHT_FRAMEWORK AND NOT WITH_TESTING))#LITE_WITH_JAVA AND
-        message(FATAL_ERROR "LITE_ON_TINY_PUBLISH=ON must be used with WITH_LITE=ON LITE_WITH_LIGHT_WEIGHT_FRAMEWORK=ON LITE_WITH_JAVA=ON WITH_TESTING=OFF")
-        return()
-    endif()
-endif()
-include_directories("${PADDLE_SOURCE_DIR}")
-# the generated header files.
-set(LITE_GENERATED_INCLUDE_DIR "${CMAKE_BINARY_DIR}")
-include_directories("${LITE_GENERATED_INCLUDE_DIR}")
-# for mobile
-if (WITH_LITE AND LITE_WITH_LIGHT_WEIGHT_FRAMEWORK)
-    message(STATUS "Building the mobile framework")
-    include(cross_compiling/postproject)
-    include(cross_compiling/npu) # check and prepare NPU DDK
-    # We compile the mobile deployment library when LITE_ON_TINY_PUBLISH=ON
-    # So the following third party dependencies are not needed.
-    if (NOT LITE_ON_TINY_PUBLISH)
-        # include the necessary thirdparty dependencies
-        include(external/gflags)    # download, build, install gflags
-        # LITE_WITH_LIGHT_WEIGHT_FRAMEWORK=ON will disable glog
-        # TODO(sangoly): refine WITH_LITE and LITE_WITH_LIGHT_WEIGHT_FRAMEWORK
-        include(external/gtest)     # download, build, install gtest
-        include(ccache)             # set ccache for compilation
-        include(external/protobuf)  # download, build, install protobuf
-    endif()
-    # for opencl
-    if (LITE_WITH_OPENCL)
-        include(external/opencl-headers)
-        include(external/opencl-clhpp)
-    endif()
-    include(generic)            # simplify cmake module
-    include(configure)          # add paddle env configuration
-    add_subdirectory(lite)
-    return()
-endif()
-#################################  End of mobile compile ##############################
-set(WITH_MKLML ${WITH_MKL})
-if (NOT DEFINED WITH_MKLDNN)
-    if (WITH_MKL AND AVX2_FOUND)
-        set(WITH_MKLDNN ON)
-    else()
-        message(STATUS "Do not have AVX2 intrinsics and disabled MKL-DNN")
-        set(WITH_MKLDNN OFF)
-    endif()
-endif()
-########################################################################################
-include(external/mklml)     # download mklml package
-include(external/xbyak)     # download xbyak package
-include(external/libxsmm)   # download, build, install libxsmm
-include(external/gflags)    # download, build, install gflags
-include(external/glog)      # download, build, install glog
-include(external/gtest)     # download, build, install gtest
-include(external/protobuf)  # download, build, install protobuf
-include(external/openblas)  # download, build, install openblas
-include(external/mkldnn)    # download, build, install mkldnn
-include(external/eigen)     # download eigen3
-include(external/xxhash)    # download install xxhash needed for x86 jit
-include(cudnn)
-include(configure)          # add paddle env configuration
-if(LITE_WITH_CUDA) 
-  include(cuda)
-endif()
-include(generic)            # simplify cmake module
-include(ccache)             # set ccache for compilation
-include(util)               # set unittest and link libs
-include(version)            # set PADDLE_VERSION
-set(CMAKE_CXX_FLAGS_RELWITHDEBINFO "-O3 -g -DNDEBUG")
-set(CMAKE_C_FLAGS_RELWITHDEBINFO "-O3 -g -DNDEBUG")
-add_subdirectory(lite)
--- a/Home.md
+++ b/Home.md
+# Paddle Lite 文档
+## 总体概述
+Paddle-Lite 框架是 PaddleMobile 新一代架构，重点支持移动端推理预测，特点**高性能、多硬件、轻量级** 。支持PaddleFluid/TensorFlow/Caffe/ONNX模型的推理部署，目前已经支持 ARM CPU, Mali GPU, Adreno GPU, Huawei NPU 等多种硬件，正在逐步增加 X86 CPU, Nvidia GPU 等多款硬件，相关硬件性能业内领先。
+## 简介
+- [技术特点](./tech_highlights)
+- [架构设计](./architecture)
+- [Road Map](./roadmap)
+## Benchmark
+- [最新性能](./benchmark)
+- [测试方法](./benchmark_tools)
+## 安装
+- [源码编译](./source_compile)
+## 使用
+- [使用流程](./tutorial)
+- [C++实例](./cpp_demo)
+- [Java实例](./java_demo)
+- [Android/IOS APP demo](https://github.com/PaddlePaddle/Paddle-Lite-Demo)
+- [模型转化方法](./model_optimize_tool)
+## 进阶
+- [通过 X2Paddle 支持 Caffe, TensorFlow 模型](x2paddle)
+- [模型量化](./model_quantization)
+- [支持Op列表](./support_operation_list)
+- [新增Op方法](./add_new_operation)
+- [测试工具](./debug_tools)
+- [调试方法](./debug_tools)
+- [使用华为NPU](./npu)
+- [使用Android GPU](./opencl)
+- [使用FPGA](./fpga)
+## 开发者文档
+- [开发基础须知](./for-developer)
+- [架构详解](./architecture-intro)
+## FAQ
+- 问题或建议可以[发Issue](https://github.com/PaddlePaddle/Paddle-Lite/issues)，为加快问题解决效率，可先检索是否有类似问题，我们也会及时解答！
+- 欢迎加入Paddle-Lite百度官方QQ群：696965088
+## paddle-mobile
+- [paddle-mobile 编译](./mobile)
--- a/README.md
+++ b/README.md
-[中文版](./README_cn.md)
-# Paddle Lite
-<!--[![Build Status](https://travis-ci.org/PaddlePaddle/Paddle-Lite.svg?branch=develop&longCache=true&style=flat-square)](https://travis-ci.org/PaddlePaddle/Paddle-Lite)-->
-[![Documentation Status](https://img.shields.io/badge/中文文档-最新-brightgreen.svg)](https://github.com/PaddlePaddle/Paddle-Lite/wiki)
-[![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE)
-<!-- [![Release](https://img.shields.io/github/release/PaddlePaddle/Paddle-Mobile.svg)](https://github.com/PaddlePaddle/Paddle-Mobile/releases) -->
-Paddle Lite is an updated version of Paddle-Mobile, an open-open source deep learning framework designed to make it easy to perform inference on mobile, embeded, and IoT devices. It is compatible with PaddlePaddle and pre-trained models from other sources.
-For tutorials, please see [PaddleLite Wiki](https://github.com/PaddlePaddle/Paddle-Lite/wiki).
-## Key Features
-### Light Weight
-On mobile devices, execution module can be deployed without third-party libraries, because our excecution module and analysis module are decoupled.
-On ARM V7, only 800KB are taken up, while on ARM V8, 1.3MB are taken up with the 80 operators and 85 kernels in the dynamic libraries provided by Paddle Lite.
-Paddle Lite enables immediate inference without extra optimization.
-### High Performance
-Paddle Lite enables device-optimized kernels, maximizing ARM CPU performance.
-It also supports INT8 quantizations with [PaddleSlim model compression tools](https://github.com/PaddlePaddle/models/tree/v1.5/PaddleSlim), reducing the size of models and increasing the performance of models.
-On Huawei NPU and FPGA, the performance is also boosted.
-The latest benchmark is located at [benchmark](https://github.com/PaddlePaddle/Paddle-Lite/wiki/benchmark)
-### High Compatibility
-Hardware compatibility: Paddle Lite supports a diversity of hardwares — ARM CPU, Mali GPU, Adreno GPU, Huawei NPU and FPGA. In the near future, we will also support AI microchips from Cambricon and Bitmain.
-Model compatibility: The Op of Paddle Lite is fully compatible to that of PaddlePaddle. The accuracy and performance of 18 models (mostly CV models and OCR models) and 85 operators have been validated. In the future, we will also support other models.
-Framework compatibility: In addition to models trained on PaddlePaddle, those trained on Caffe and TensorFlow can also be converted to be used on Paddle Lite, via [X2Paddle](https://github.com/PaddlePaddle/X2Paddle). In the future to come, we will also support models of ONNX format.
-## Architecture
-Paddle Lite is designed to support a wide range of hardwares and devices, and it enables mixed execution of a single model on multiple devices, optimization on various phases, and leight-weighted applications on devices.
-![img](https://github.com/Superjomn/_tmp_images/raw/master/images/paddle-lite-architecture.png)
-As is shown in the figure above, analysis phase includes Machine IR module, and it enables optimizations like Op fusion and redundant computation pruning. Besides, excecution phase only involves Kernal exevution, so it can be deployed on its own to ensure maximized light-weighted deployment.
-## Key Info about the Update
-The earlier Paddle-Mobile was designed to be compatible with PaddlePaddle and multiple hardwares, including ARM CPU, Mali GPU, Adreno GPU, FPGA, ARM-Linux and Apple's GPU Metal. Within Baidu, inc, many product lines have been using Paddle-Mobile. For more details, please see: [mobile/README](https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/mobile/README.md).
-As an update of Paddle-Mobile, Paddle Lite has incorporated many older capabilities into the [new architecture](https://github.com/PaddlePaddle/Paddle-Lite/tree/develop/lite). For the time being, the code of Paddle-mobile will be kept under the directory `mobile/`, before complete transfer to Paddle Lite.
-For demands of Apple's GPU Metal and web front end inference, please see `./metal` and `./web` . These two modules will be further developed and maintained.
-## Special Thanks
-Paddle Lite has referenced the following open-source projects:
- [ARM compute library](http://agroup.baidu.com/paddle-infer/md/article/%28https://github.com/ARM-software/ComputeLibrary%29)
- [Anakin](https://github.com/PaddlePaddle/Anakin). The optimizations under Anakin has been incorporated into Paddle Lite, and so there will not be any future updates of Anakin. As another high-performance inference project under PaddlePaddle, Anakin has been forward-looking and helpful to the making of Paddle Lite. 
-## Feedback and Community Support
- Questions, reports, and suggestions are welcome through Github Issues!
- Forum: Opinions and questions are welcome at our [PaddlePaddle Forum](https://ai.baidu.com/forum/topic/list/168)！
- WeChat Official Account: PaddlePaddle
- QQ Group Chat: 696965088
-<p align="center"><img width="200" height="200"  src="https://user-images.githubusercontent.com/45189361/64117959-1969de80-cdc9-11e9-84f7-e1c2849a004c.jpeg"/>&#8194;&#8194;&#8194;&#8194;&#8194;<img width="200" height="200" margin="500" src="https://user-images.githubusercontent.com/45189361/64117844-cb54db00-cdc8-11e9-8c08-24bbe594608e.jpeg"/></p>
-<p align="center">&#8194; WeChat Official Account&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;QQ Group Chat&#8194;&#8194;&#8194;&#8194;&#8194;</p>
--- a/README_cn.md
+++ b/README_cn.md
-#  Paddle Lite
-<!--[![Build Status](https://travis-ci.org/PaddlePaddle/Paddle-Lite.svg?branch=develop&longCache=true&style=flat-square)](https://travis-ci.org/PaddlePaddle/Paddle-Lite)-->
-[![Documentation Status](https://img.shields.io/badge/中文文档-最新-brightgreen.svg)](https://github.com/PaddlePaddle/Paddle-Lite/wiki)
-[![License](https://img.shields.io/badge/license-Apache%202-blue.svg)](LICENSE)
-<!-- [![Release](https://img.shields.io/github/release/PaddlePaddle/Paddle-Mobile.svg)](https://github.com/PaddlePaddle/Paddle-Mobile/releases) -->
-Paddle Lite为Paddle-Mobile的升级版，定位支持包括手机移动端在内更多场景的轻量化高效预测，支持更广泛的硬件和平台，是一个高性能、轻量级的深度学习预测引擎。在保持和PaddlePaddle无缝对接外，也兼容支持其他训练框架产出的模型。
-完整使用文档位于 [PaddleLite Wiki](https://github.com/PaddlePaddle/Paddle-Lite/wiki) 。
-## 特性
-### 轻量级
-执行阶段和计算优化阶段实现良好解耦拆分，移动端可以直接部署执行阶段，无任何第三方依赖。
-包含完整的80个 Op+85个 Kernel 的动态库，对于ARMV7只有800K，ARMV8下为1.3M，并可以裁剪到更低。
-在应用部署时，载入模型即可直接预测，无需额外分析优化。
-### 高性能
-极致的 ARM CPU 性能优化，针对不同微架构特点实现kernel的定制，最大发挥计算性能，在主流模型上展现出领先的速度优势。
-支持INT8量化计算，结合 [PaddleSlim 模型压缩工具](https://github.com/PaddlePaddle/models/tree/v1.5/PaddleSlim) 中 INT8量化训练功能，可以提供高精度高性能的预测能力。
-在Huawei NPU， FPGA上也具有有很好的性能表现。
-最新 Benchmark 位于 [benchmark](https://github.com/PaddlePaddle/Paddle-Lite/wiki/benchmark)。
-### 通用性
-硬件方面，Paddle Lite 的架构设计为多硬件兼容支持做了良好设计。除了支持ARM CPU、Mali GPU、Adreno GPU，还特别支持了华为 NPU，以及 FPGA 等边缘设备广泛使用的硬件。即将支持支持包括寒武纪、比特大陆等AI芯片，未来会增加对更多硬件的支持。
-模型支持方面，Paddle Lite和PaddlePaddle训练框架的Op对齐，提供更广泛的模型支持能力。目前已严格验证18个模型85个OP的精度和性能，对视觉类模型做到了较为充分的支持，覆盖分类、检测和定位，包含了特色的OCR模型的支持。未来会持续增加更多模型的支持验证。
-框架兼容方面：除了PaddlePaddle外，对其他训练框架也提供兼容支持。当前，支持Caffe 和 TensorFlow 训练出来的模型，通过X2Paddle (https://github.com/PaddlePaddle/X2Paddle) 转换工具实现。接下来将会对ONNX等格式模型提供兼容支持。
-## 架构
-PaddleLite 的架构设计着重考虑了对多硬件和平台的支持，并且强化了多个硬件在一个模型中混合执行的能力，多个层面的性能优化处理，以及对端侧应用的轻量化设计。
-![](https://github.com/Superjomn/_tmp_images/raw/master/images/paddle-lite-architecture.png)
-其中，Analysis Phase 包括了 MIR(Machine IR) 相关模块，能够对原有的模型的计算图针对具体的硬件列表进行算子融合、计算裁剪 在内的多种优化。Execution Phase 只涉及到Kernel 的执行，且可以单独部署，以支持极致的轻量级部署。
-## Paddle-Mobile升级为Paddle Lite的说明
-原Paddle-Mobile作为一个致力于嵌入式平台的PaddlePaddle预测引擎，已支持多种硬件平台，包括ARM CPU、 Mali GPU、Adreno GPU，以及支持苹果设备的GPU Metal实现、ZU5、ZU9等FPGA开发板、树莓派等arm-linux开发板。在百度内已经过广泛业务场景应用验证。对应设计文档可参考: [mobile/README](https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/mobile/README.md)
-Paddle-Mobile 整体升级重构并更名为Paddle Lite后，原paddle-mobile 的底层能力大部分已集成到[新架构 ](https://github.com/PaddlePaddle/Paddle-Lite/tree/develop/lite)下。作为过渡，暂时保留原Paddle-mobile代码。 主体代码位于 `mobile/` 目录中，后续一段时间会继续维护，并完成全部迁移。新功能会统一到[新架构 ](https://github.com/PaddlePaddle/Paddle-Lite/tree/develop/lite)下开发。
-metal, web的模块相对独立，会继续在 `./metal` 和 `./web` 目录下开发和维护。对苹果设备的GPU Metal实现的需求及web前端预测需求，可以直接进入这两个目录。
-## 致谢：
-Paddle Lite 借鉴了以下开源项目：
- [ARM compute library]((https://github.com/ARM-software/ComputeLibrary))
- [Anakin](https://github.com/PaddlePaddle/Anakin) ，Anakin对应底层的一些优化实现已被集成到Paddle Lite。Anakin作为PaddlePaddle组织下的一个高性能预测项目，极具前瞻性，对Paddle Lite有重要贡献。Anakin已和本项目实现整合。之后，Anakin不再升级。
-##  交流与反馈
-* 欢迎您通过Github Issues来提交问题、报告与建议
-* 微信公众号：飞桨PaddlePaddle
-* QQ群: 696965088 
-<p align="center"><img width="200" height="200"  src="https://user-images.githubusercontent.com/45189361/64117959-1969de80-cdc9-11e9-84f7-e1c2849a004c.jpeg"/>&#8194;&#8194;&#8194;&#8194;&#8194;<img width="200" height="200" margin="500" src="https://user-images.githubusercontent.com/45189361/64117844-cb54db00-cdc8-11e9-8c08-24bbe594608e.jpeg"/></p>
-<p align="center">  &#8194;&#8194;&#8194;微信公众号&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;&#8194;官方技术交流QQ群</p>
-* 论坛: 欢迎大家在[PaddlePaddle论坛](https://ai.baidu.com/forum/topic/list/168)分享在使用PaddlePaddle中遇到的问题和经验, 营造良好的论坛氛围
--- a/add_new_operation.md
+++ b/add_new_operation.md
+# 新增op的方法
+以下以添加argmax为例，详细说明新增op的方法步骤。
+## 1. 添加OpParam 结构体以传导 Op 的输入和输出
+- 这里命名为 `ArgmaxParam`
+- 在 `paddlelite/lite/operators/op_params.h` 中添加 `ArgmaxParam` 结构体，代码如下：
+    ```c++
+    struct ArgmaxParam {
+        lite::Tensor* X{};
+        lite::Tensor* Out{};
+        int Axis{0};
+    };
+    ```
+## 2. 添加 Argmax Op 并注册
+- 在paddlelite/lite/operators/目录下新建argmax_op.h文件，主要代码如下：
+    ```c++
+    class ArgmaxOpLite : public OpLite {
+    public:
+        ArgmaxOpLite() {}
+        explicit ArgmaxOpLite(const std::string &op_type) : OpLite(op_type) {}
+        bool CheckShape() const override;
+        bool InferShape() const override;
+        bool AttachImpl(const cpp::OpDesc &opdesc, lite::Scope *scope) override;
+        void AttachKernel(KernelBase *kernel) override { kernel->SetParam(param_); }
+        std::string DebugString() const override { return "argmax"; }
+    private:
+        mutable ArgmaxParam param_;
+    };
+    ```
+    `ArgmaxOpLite` 继承 `OpLite` ，成员变量包括 `ArgmaxParam` 结构体，需要实现的接口包括 `CheckShape()` 、`InferShape()` 、`AttachImp()` 、`AttachKernel()` 和 `DebugString()` 函数。`AttachKernel()` 和 `DebugString() `函数较为简单，此处直接实现；
+- 在 `paddlelite/lite/operators/` 目录下新建argmax_op.cc文件，需要具体实现`CheckShape()`、`InferShape()`和`AttachImp()`函数。`CheckShape()`函数检查输入是否符合要求，`InferShape()`函数基于输入推断得到输出的维度，`AttachImp()`函数绑定Op的输入输出。然后在argmax_op.cc文件中注册argmax，核心代码如下：
+    ```c++
+    bool ArgmaxOpLite::CheckShape() const {
+        CHECK_OR_FALSE(param_.X);
+        CHECK_OR_FALSE(param_.Out);
+        CHECK_OR_FALSE(param_.Axis < (param_.X)->dims().size());
+        return true;
+    }
+    bool ArgmaxOpLite::InferShape() const {
+        auto x_dims = param_.X->dims();
+        int x_rank = x_dims.size();
+        int axis = param_.Axis;
+        if (axis < 0) axis += x_rank;
+    std::vector<int64_t> out_dims;
+        for (int64_t i = 0; i < axis; i++) {
+            out_dims.push_back(x_dims[i]);
+        }
+        for (int64_t i = axis + 1; i < x_rank; i++) {
+            out_dims.push_back(x_dims[i]);
+        }
+    	// Set output dims
+        param_.Out->Resize(lite::DDim(out_dims));
+        return true;
+    }
+    bool ArgmaxOpLite::AttachImpl(const cpp::OpDesc &op_desc, lite::Scope *scope) {
+        auto x = op_desc.Input("X").front();
+        auto out = op_desc.Output("Out").front();
+    param_.X = scope->FindVar(x)->GetMutable<lite::Tensor>();
+        param_.Out = scope->FindVar(out)->GetMutable<lite::Tensor>();
+        param_.Axis = op_desc.GetAttr<int>("Axis");
+    return true;
+    }
+    REGISTER_LITE_OP(argmax, paddle::lite::operators::ArgmaxOpLite);
+    ```
+- 在paddlelite/lite/operators/CMakeLists.txt中添加```lite_cc_library(argmax_op SRCS argmax_op.cc DEPS ${op_DEPS})```，并且在set ops lite 中添加argmax_op；
+- 在paddlelite/lite/api/paddle_use_ops.h中添加```USE_LITE_OP(argmax)```。
+## 3. 添加Argmax Kernel并绑定
+以下以arm端argmax实现为例说明
+- 在paddlelite/lite/kernels/arm/目录下新建argmax_compute.h文件，声明ArgmaxCompute类，并继承KernelLite，主要代码如下：
+    ```c++
+    class ArgmaxCompute : public KernelLite<TARGET(kARM), PRECISION(kFloat)> {
+    public:
+        using param_t = operators::ArgmaxParam;
+        void Run() override;
+        virtual ~ArgmaxCompute() = default;
+    };
+    ```
+- 在paddlelite/lite/kernels/arm/目录下新建argmax_compute.cc文件，主要实现Run函数。`Run()`函数调用paddlelite/lite/arm/math/argmax.h中的`argmax_func()`函数，根据输入计算输出。最后在argmax_compute.cc文件中，我们绑定argmax的输入输出（为tensor的输入参数都需要绑定），代码如下：
+    ```c++
+    void ArgmaxCompute::Run() {
+        auto& param = Param<operators::ArgmaxParam>();
+        lite::Tensor* input = param.X;
+        lite::Tensor* output = param.Out;
+        int axis = param.Axis;
+        lite::arm::math::argmax_func(input, axis, output);
+        return;
+    }
+    REGISTER_LITE_KERNEL(
+        argmax, kARM, kFloat, kNCHW, paddle::lite::kernels::arm::ArgmaxCompute, def)
+        .BindInput("X", {LiteType::GetTensorTy(TARGET(kARM))})
+        .BindOutput("Out", {LiteType::GetTensorTy(TARGET(kARM))})
+        .Finalize();
+    ```
+- 在paddlelite/lite/kernels/arm/CMakeLists.txt中添加
+    ```cmake
+    lite_cc_library(argmax_compute_arm SRCS argmax_compute.cc DEPS ${lite_kernel_deps} math_arm)
+    ```
+    CMakeLists.txt中set arm_kernels需要添加argmax_compute_arm;
+- 在paddlelite/lite/api/paddle_use_kernels.h中添加```USE_LITE_KERNEL(argmax, kARM, kFloat, kNCHW, def)```。
+## 4. 添加Argmax实现
+- 在paddlelite/lite/arm/math/目录下新建argmax.h文件，声明`argmax_func()`函数，代码如下：
+    ```c++
+    void argmax_func(const lite::Tensor* input, const int axis, lite::Tensor* output);
+    ```
+- 在paddlelite/lite/arm/math/目录下新建argmax.cc文件，具体实现`argmax_func()`函数，代码如下：
+    ```c++
+    void argmax_func(const lite::Tensor *input,
+                    const int axis,
+                    lite::Tensor *output) {
+    auto input_ddim = input->dims();
+    auto output_ddim = output->dims();
+    const int size = input_ddim[axis];
+    const int in_channel = input_ddim.count(axis, input_ddim.size());
+    const int out_channel = output_ddim.count(axis, output_ddim.size());
+    const int in_stride = input_ddim.count(axis + 1, input_ddim.size());
+    const int out_stride = input_ddim.count(0, axis);
+    for (int n = 0; n < out_stride; n++) {
+        for (int k = 0; k < in_stride; k++) {
+        const float *in_ptr = input->data<float>() + n * in_channel + k;
+        std::vector<std::pair<float, int>> vec;
+        vec.resize(size);
+        for (int i = 0; i < size; i++) {
+            vec[i] = std::make_pair(in_ptr[i * in_stride], i);
+        }
+        // sort
+        std::partial_sort(vec.begin(),
+                            vec.begin() + 1,
+                            vec.end(),
+                            std::greater<std::pair<float, int>>());
+        // out
+        float *out_ptr = output->mutable_data<float>() + n * out_channel + k;
+        *out_ptr = vec[0].second;
+        }
+    }
+    }
+    ```
+- 在paddlelite/lite/arm/math/CMakeFile.txt中的```math_arm library```中添加argmax.cc，在paddlelite/lite/arm/math/funcs.h中添加```#include "lite/arm/math/argmax.h"```
+## 5. 添加Argmax单测
+- 在paddlelite/lite/tests/kernels目录下新建argmax_compute_test.cc文件，声明并实现ArgmaxComputeTester类；
+- ArgmaxComputeTester类中主要包括PrepareOpDesc、PrepareData和RunBaseline函数。PrepareOpDesc函数设定单测op的类型和输入输出参数，PrepareData函数对输入tensor进行初始化，RunBaseline是基于输入计算得到输出，用于和框架计算的输出进行对比；
+- 使用gtest添加单测，代码如下：
+    ```c++
+    TEST(Argmax, precision) {
+        #ifdef LITE_WITH_ARM
+        LOG(INFO) << "test argmax arm";
+        Place place(TARGET(kARM));
+        for (int axis : {0, 1, 2, 3}) {
+            for (int n : {1, 3}) {
+            for (int c : {3, 6}) {
+                for (int h : {9, 18}) {
+                for (int w : {9, 18}) {
+                    std::unique_ptr<arena::TestCase> tester(
+                        new ArgmaxComputeTester(place, "def", axis, n, c, h, w));
+                    arena::Arena arena(std::move(tester), place, 2e-5);
+                    arena.TestPrecision();
+                }
+                }
+            }
+            }
+        }
+        #endif
+    }
+    ```
+- 在paddlelite/lite/tests/kernels/CMakeLists.txt中添加
+    ```cmake
+    lite_cc_test(test_kernel_argmax_compute SRCS argmax_compute_test.cc DEPS arena_framework ${x86_kernels} ${arm_kernels} ${lite_ops} ${host_kernels})
+    ```
+# 6. 编译运行
+- 在paddlelite目录中，执行```./lite/tools/ci_build.sh build_test_arm```，该脚本会创建手机模拟器，并编译运行所有单测（花费时间较久）。如果运行无误，则表明添加argmax成功。
--- a/architecture-intro.md
+++ b/architecture-intro.md
+# Paddle-Lite 开发者文档
+这篇文档会从开发者角度详细介绍开发 Paddle-Lite 需要的相关信息。
+## 设计及思考
+近年来，各种深度学习预估硬件称出不穷，从手机APP到车载设备，再到音箱，均需要部署深度学习预测，且有如下共性需求：
+1. 高性能
+2. 硬件支持和扩展容易
+3. 轻量级部署
+Paddle-Lite 的架构方面便是定向参考如上需求设计实现的，具体地
+- 高性能方面
+  - 通过 MIR(Machine IR) 实现精细复杂的计算图的分析和优化
+  - 执行期 Kernel 的简单设计，几乎没有额外调度开销
+  - 适当的硬件层抽象，框架支持各个硬件后端中做特定的调度实现
+- 轻量级部署方面
+  - 拆分分析和执行两个阶段，执行阶段轻量级实现，可以单独部署
+  - 轻量级 Op 和 Kernel 设计
+- 硬件支持和扩展方面
+  - 通过 MIR 支撑带硬件和执行信息的宏观分析优化
+  - TypeSystem 抽象带硬件的不同计算模式的表示，实现整个计算图的强类型推导，以及执行状态机的静态分析
+Paddle-Lite 的架构尝试从强类型推导的角度建模支持多硬件，多种计算模式（不同量化精度、不同的 data layout等）的混合计算，从而实现宏观上的各异硬件和计算模式的混合。
+框架部分已经经过 FPGA，GPU，NPU 等异构硬件的打磨，各项能力也在完善中。
+## 重要模块介绍
+### OpLite
+[OpLite](https://github.com/PaddlePaddle/Paddle-Lite/blob/v2.0.0-beta1-prerel/lite/core/op_lite.h#L52) 是 Paddle-Lite 中的 Operator，用户扩展单个硬件时，最多的就是扩展 Op 和 Kernel。
+重要方法如下：
+```c++
+class OpLite : public Registry {
+ public:
+  // Check the shape.
+  virtual bool CheckShape() const { return true; }
+  // Inference the outputs' shape.
+  virtual bool InferShape() const { return true; }
+  // Link the external execution environ to internal context.
+  bool AttachImpl(const cpp::OpDesc &opdesc, lite::Scope *scope);
+};
+```
+其中，分析期执行
+- `AttachImpl`
+执行期执行
+- `CheckShape`
+- `InferShape`
+扩展须知：
+1. `CheckShape` 只在第一个 batch 执行，所以耗时不敏感
+2. `InferShape` 需要在每个 batch 执行，应该严格耗时
+   1. 可以通过添加 member variable 的方式，对其中一部分信息增加 cache，比如
+   ```c++
+   class XXOp : public OpLite {
+       void InferShape() {
+           int batch_size = param().input.shape[0];
+           if (!shape_cache_.empty()) {
+               shape_cache_[0] = batch_size;
+               param().output->Resize(shape_cache_);
+           }
+       }
+    private:
+       shape_t shape_cache_;
+   }
+   ```
+### OpParam
+[OpParam](https://github.com/PaddlePaddle/Paddle-Lite/blob/v2.0.0-beta1-prerel/lite/operators/op_params.h) 用于存储执行期 Kernel 需要的各项参数。 所有字段可以直接存储（比如指针或者 `int`），以避免执行中获取参数的延迟。
+因为没有需求，OpParam 暂时没有设置基类。
+实际例子：
+```c++
+// For Softmax op
+struct SoftmaxParam {
+  lite::Tensor* x{};
+  lite::Tensor* output{};
+  int axis{-1};
+};
+```
+OpLite 的 `AttachImpl` 方法就用于构建 `OpParam` ，复制传递给 `Kernel` 用于执行。
+OpParam  是执行期的重要模块，需要严格保证性能，相应的扩展要求：
+1. 字段的获取必须是低延迟的，可以直接用指针，或者直接复制值
+2. 避免执行无关信息混入，包括 debug 信息
+3. 命名需要与 Paddle OpDesc 中的信息严格一致，以降低功能对齐和理解的难度
+### Kernel
+```c++
+template <TargetType Target,
+          PrecisionType Precision,
+          DataLayoutType DataLayout = DataLayoutType::kNCHW>
+class KernelLite : public KernelBase {
+ public:
+  // Run the kernel.
+  virtual void Run() { CHECK(false) << "Not Implemented"; }
+  TargetType target() const override { return Target; }
+  PrecisionType precision() const override { return Precision; }
+  DataLayoutType layout() const override { return DataLayout; }
+  Place place() const override { return Place{Target, Precision, DataLayout}; }
+  std::string name() const override;
+};
+```
+由于是执行期的重要概念，因此 Kernel 设计地非常简单高效。 
+其中，执行期的 `Run` 是其唯一重要的接口，其中包含具体的计算逻辑。
+模板中的参数主要用于方便多硬件编译，以及自解释：
+- Target: 执行硬件
+- Precision: 主要的计算精度
+- DataLayout：主要计算的 data layout
+这部分信息用于帮助挑选 kernel，具体的值并不严格。
+Kernel 的注册需要用到 TypeSystem，不光对 Kernel 本身的特性进行描述，对其输入和输出均进行详尽的定义。
+例如 FullyConnected 的注册
+```c++
+REGISTER_LITE_KERNEL(
+    fc, kARM, kFloat, kNCHW, paddle::lite::kernels::arm::FcCompute, def)
+    .BindInput("Input", {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kFloat), LAYOUT(kNCHW))})
+    .BindInput("Bias", {LiteType::GetTensorTy(TARGET(kARM))})
+    .BindInput("W", {LiteType::GetTensorTy(TARGET(kARM))})
+    .BindOutput("Out", {LiteType::GetTensorTy(TARGET(kARM))})
+    .Finalize();
+```
+Kernel自身定义是 `kARM` 的，也就是ARM上的kernel，主要的计算精度是 `kFloat`，主要的 Data layout 是 `kNCHW`。
+接着会对其所有的输入和输出做详细定义，比如看 `Input` 输入的定义是 `LiteType::GetTensorTy(TARGET(kARM), PRECISION(kFloat), LAYOUT(kNCHW))`，也就是声明其 Target 是 `kARM`， PRECISION 是 `kFloat`，Data Layout 是 `kNCHW`。
+这里的设计思想是类似C++中的函数重载，同一个 Kernel（的名字），在重载了其输入输出的类型之后可以是不同的kernel。
+#### 扩展须知
+1. 模板参数选用计算中主要的来表示
+   1. 比如，scale kernel，同时能接受 `float` 和 `int` 的输入，但其不算量化 kernel，那应该设置为 `Precision=float`，代表常规的计算精度中使用
+2. Kernel 输入输出的定义需要足够精确，是什么类型就是什么类型；框架会根据其输入输出的定义来动态构建状态机，否则会出现分析期和执行期的状态机不一致，造成未定义行为
+### MIR
+MIR 类似于 LLVM 里的 IR，只是加上了硬件和执行期的信息参与分析优化。
+Pass 是MIR中的模块化策略，其输入和输出都是 SSA Graph.
+框架会自动基于模型的Program 构建 SSA Graph，之后按 [Optimizer](https://github.com/PaddlePaddle/Paddle-Lite/blob/v2.0.0-beta1-prerel/lite/core/optimizer.h) 中定义的pass的顺序调用一系列 Pass。
+#### Op Fusion
+MIR 中的 [PatternMacher](https://github.com/PaddlePaddle/Paddle-Lite/blob/v2.0.0-beta1-prerel/lite/core/mir/pattern_matcher.h) 实现了简单有效的基于图的模板识别的算法，相关的 op fusion 的图操作可以基于此实现。
+实际的例子可以参考 [fc_fuse_pass.h](https://github.com/PaddlePaddle/Paddle-Lite/blob/v2.0.0-beta1-prerel/lite/core/mir/fusion/fc_fuse_pass.h)。
+### TypeSystem
+TypeSystem 是 Paddle-Lite 中构建复杂计算图的基础模块，核心思想是协助 SSA Graph 构建一个状态机，表示其中不同的状态。
+这里的 Type 主要包含下面四组信息，更多的信息可以按需扩展：
+- TargetType
+- Precision
+- DataLayout
+- device id，用于表示卡号
+状态机的表示：
+```python
+Tensor0(kARM, kFloat, kNCHW) --pass--> Tensor1(kOpenCL, kFloat, kNCHW)
+```
+MIR 会识别出，Tensor0 和 Tensor1 的硬件位置不同，因此触发相依的 Pass 插入对应的 cast op 来进行 type cast，比如
+```
+Tensor0(kARM, kFloat, kNCHW) --pass-> IoCopyOp(kARM, kOpenCL) --pass-> Tensor1(kOpenCL, kFloat, kNCHW)
+```
+### KernelContext
+KernelContext 是硬件支持的核心封装，主要用于为 Kernel 提供执行期的硬件上下文。
+KernelContext 的设计类似于 OpParam，两者均没有基类；对于 KernelContext，其假定是，不同的硬件间的接口和逻辑可能完全不同，比如 kARM 和 kCUDA，因此不设定基类，也不需要提供统一的接口来封装不同硬件行为。
+不同硬件的 KernelContext 直接与该硬件对应的 Kernel 对接。
+KernelContext 的行为可以被 MIR 在分析期确定和调度。
+注意事项：
+1. 由于是执行期概念，KernelContext 也需要注意性能和轻量化
+2. 移动端部署时只会部署执行期，因此 MIR 和 KernelContext 会拆开，因此 KernelContext 相应的设置需要能够序列化到 ProgramDesc 中，以便执行期载入和执行
+## 扩展硬件后端
+### 扩展现有的硬件后端
+主要是扩充 Op 和 Kernel 的工作，如果需要 fuse，则参考 MIR 章节，增加相应的fuse pass便可，具体地，可以参考
+- [fc_op](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/operators/fc_op.h) 实现类似的 Op
+- [fc_compute](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/kernels/arm/fc_compute.h) 实现类似的 Kernel
+- [fc_fuse_pass](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/mir/fusion/fc_fuse_pass.h) 实现fuse逻辑，并注册到 [optimizer](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/optimizer.h)
+### 扩展全新硬件后端
+需要额外扩充如下模块，让框架能够支撑硬件执行：
+- TypeSystem，需要扩充其中相关的 type
+  - 相关 [enum](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/api/paddle_place.h#L44)
+- MIR，需要扩展其中的 type cast 相关的 pass
+  - [TargetType cast pass](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/mir/type_target_cast_pass.cc) 用于拷贝不同硬件上的tensor
+  - [Data layout cast pass](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/mir/type_target_cast_pass.h) 用于转化不同的 data layout
+  - [Precision cast pass](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/mir/type_precision_cast_pass.h) 用于转化不同 tensor 的量化精度
+- KernelContext，具体地可以参考
+  - [ARM context](https://github.com/PaddlePaddle/Paddle-Lite/blob/release/v2.0.0-beta1/lite/core/context.h#L91)
+  - 需要注意的是，硬件 context 的接口只服务于该硬件的 kernel
+  - context 有分析期和执行期两个阶段，如果分析期没有特殊的优化，则无需考虑；否则，需要注意将分析期的信息整理并序列化到离线模型中，用于执行期直接加载。
\ No newline at end of file
--- a/architecture.md
+++ b/architecture.md
+# 架构设计
+Mobile 在这次升级为 Lite 架构， 侧重多硬件、高性能的支持，其主要设计思想如下
+- 引入 Type system，强化多硬件、量化方法、data layout 的混合调度能力
+- 硬件细节隔离，通过不同编译开关，对支持的任何硬件可以自由插拔
+- 引入 MIR(Machine IR) 的概念，强化带执行环境下的优化支持
+- 优化期和执行期严格隔离，保证预测时轻量和高效率
+架构图如下
+![Paddle Inference Refactor1.0](./images/architecture.jpg)
+## 编译期和执行期严格隔离设计
+- compile time 优化完毕可以将优化信息存储到模型中；execution time 载入并执行
+- 两套 API 及对应的预测lib，满足不同场景
+  - `CxxPredictor` 打包了 `Compile Time` 和 `Execution Time`，可以 runtime 在具体硬件上做分析和优化，得到最优效果
+  - `MobilePredictor` 只打包 `Execution Time`，保持部署和执行的轻量
+## `Execution Time` 轻量级设计和实现
+- 每个 batch 实际执行只包含两个步骤执行
+  - `Op.InferShape`
+  - `Kernel.Run`，Kernel 相关参数均使用指针提前确定，后续无查找或传参消耗
+  - 设计目标，执行时，只有 kernel 计算本身消耗
+- 轻量级 `Op` 及 `Kernel` 设计，避免框架额外消耗
+  - `Op` 只有 `CreateKernels` 和 `InferShape` 两个重要职能
+  - `Kernel` 只有 `Run` 职能
+## 多硬件后端支持
+- 硬件通用行为，使用 `TargetWrapper` 模块做适配器适配，对上层框架提供一致界面
+- 框架上层策略保持硬件无关，如存储优化 (Memory optimize)，计算剪枝 (Computation prune) 等，任何硬件接入均可直接复用
+- 框架支持了硬件通用行为，特定硬件细节不做过多约束，各硬件可以自行实现并接入框架
+- 计算模式上目前支持两种主流模型，一种是类似 X86, ARM CPU 等非异构设备；一种是 GPU，或 FPGA 等异构设备（支持 stream, event异步执行模式以及跨设备拷贝）
+---
+## 多硬件及算法混合调度支持
+`TensorTy` 用来表示 Tensor 类型
+```c++
+struct TensorTy {
+    TargetType target;
+    PrecisionType precision;
+    DataLayout layout;
+    int deviceid;
+};
+```
+```c++
+enum class TargetType { kARM, kX86, kCUDA, kOpenCL };
+enum class PrecisionType { kFP32, kFP16, kInt8, kInt16 };
+enum class DataLayout { kNCHW, kNHWC };
+```
+---
+注册 Kernel，确定特定 Kernel 的输入输出特征
+```c++
+REGISTER_LITE_KERNEL(
+  mul, kARM, kFloat, kNCHW, arm::MulCompute, def)
+  .BindInput("X", {LiteType::GetTensorTy(kARM, kFloat, kNCHW)})
+  .BindInput("Y", {LiteType::GetTensorTy(kARM, kFloat, kNCHW))})
+  .BindOutput("Out", {LiteType::GetTensorTy(kARM, kFloat, kNCHW)})
+  .Finalize();
+```
+---
+同一个 Op 的不同 Kernel 类似函数重载
+用于支持任意的混合调度：
+1. 标记模型中所有 tensor 的 Type
+2. 标记 Kernel 的 硬件、执行精度、data layout 等信息
+全局做类型推断，当发现 tensor 传递中有类型冲突，采用 type cast 操作，通过插入特定功能 Op 来实现正确的传导
+![lite-7](images/lite1.png)
+---
+## MIR 用于图分析优化
+基于 Type System 的 SSA，通过 IR Pass 对计算图进行分析和优化：
+- 支持对整个 graph 进行类型推断，发现类型冲突并加入 type cast op，来支持通用混合调度
+- 计算剪枝 (Compute prune)，比如去掉 scale(1), assign op 等
+- 存储优化 (Memory optimize)
+- 操作熔合 (Operator fuse)（已经支持 fc, conv_bn, ele_add+act 等6种 fuse 策略）
+- 支持量化处理（已支持 Int8预测）
\ No newline at end of file
--- a/benchmark.md
+++ b/benchmark.md
+# Benchmark
+可以参考[benchmark_tools](https://github.com/PaddlePaddle/Paddle-Lite/wiki/benchmark_tools)，推荐**一键benchmark**。
+## 测试环境
+* 测试模型
+    * fp32模型
+        * mobilenet_v1
+        * mobilenet_v2
+        * squeezenet_v1.1
+        * mnasnet
+        * shufflenet_v2
+    * int8模型
+        * mobilenet_v1
+        * mobilenet_v2
+        * resnet50
+* 测试机器(android ndk ndk-r17c)
+   *  骁龙855
+      * xiaomi mi9, snapdragon 855 
+      * 4xA76(1@2.84GHz + 3@2.4GHz) + 4xA55@1.78GHz
+   *  骁龙845
+      * xiaomi mi8, 845
+      * 2.8GHz（大四核），1.7GHz（小四核）
+   *  骁龙835
+      * xiaomi mix2, snapdragon 835
+      * 2.45GHz（大四核），1.9GHz（小四核）
+   *  骁龙625
+      * oppo R9s, snapdragon625
+      * A53 x 8, big core@2.0GHz
+   * 骁龙653
+      * 360 N5, snapdragon 653
+      * 4 x A73@2.0GHz + 4 x A53@1.4GHz
+   * 麒麟970
+      * HUAWEI Mate10
+* 测试说明
+    * commit id: 12c129affaacd476e27a0a82b235a9d547d33f0f
+    * warmup=10, repeats=30，统计平均时间，单位是ms
+    * 当线程数为1时，```DeviceInfo::Global().SetRunMode```设置LITE_POWER_HIGH，否者设置LITE_POWER_NO_BIND
+    * 模型的输入图像的维度是{1, 3, 224, 224}，输入图像的每一位数值是1
+## 测试数据
+### fp32 模型测试数据
+## 测试数据
+### fp32 模型测试数据
+骁龙855 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 31.64 | 18.98 | 10.67 | 33.17 | 19.55 | 11.43 
+ mobilenet_v2 | 25.54 | 13.80 | 8.75 | 29.25 | 15.19 | 9.65 
+ squeezenet_v1.1 | 26.81 | 14.39 | 8.92 | 28.63 | 15.37 | 9.53 
+ mnasnet | 25.39 | 13.89 | 9.63	| 28.97	| 15.54	| 10.10 
+ shufflenet_v2 | 13.85 | 7.81 | 5.87 | 14.64 | 8.35 | 6.14 
+ 骁龙845 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 62.04 | 33.63 | 18.63 | 66.23 | 35.78 | 20.14 
+ mobilenet_v2 | 40.41 | 22.94 | 13.33 | 44.22 | 24.58 | 14.50 
+ squeezenet_v1.1 | 49.92 | 23.78 | 13.86 | 52.00 | 24.85 | 15.87 
+ mnasnet | 40.14 | 23.36 | 14.46 | 43.77 | 24.78 | 14.76
+ shufflenet_v2 | 22.27 | 13.69 | 8.96 | 26.11 | 14.95 | 9.02 
+ 骁龙835 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 89.57 | 50.88 | 27.62 | 96.11 | 53.18 | 31.99 
+ mobilenet_v2 | 59.92 | 33.93 | 20.91 | 64.04 | 36.85 | 23.10 
+ squeezenet_v1.1 | 65.25 | 37.92 | 23.40 | 74.87 | 40.96 | 23.69 
+ mnasnet | 60.97 | 35.04 | 22.40 | 64.88 | 37.90 | 24.53
+ shufflenet_v2 | 30.87 | 19.33 | 12.78 | 31.71 | 19.52 | 13.25
+ 骁龙625 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 180.98 | 92.27 | 51.51 | 216.12 | 110.33 | 61.68 
+ mobilenet_v2 | 132.46 | 68.38 | 43.54 | 146.18 | 76.62 | 46.21 
+ squeezenet_v1.1 | 124.49 | 66.84 | 41.53 | 153.28 | 82.42 | 47.14 
+ mnasnet | 122.50 | 67.46 |	43.04 |	146.20 | 79.64 | 48.56 
+ shufflenet_v2 | 68.70 | 40.77 | 26.53 | 75.38 | 42.40 | 28.36 
+ 骁龙653 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 121.27 | 59.36 | 34.06 | 126.55 | 64.96 | 39.23 
+ mobilenet_v2 | 79.48 | 46.17 | 27.81 | 87.93 | 48.28 | 31.87 
+ squeezenet_v1.1 | 81.10 | 42.66 | 42.07 | 82.29 | 45.88 | 28.84 
+ mnasnet | 75.60 | 44.22 | 30.16 | 82.99 | 49.07 | 32.34
+ shufflenet_v2 | 39.18 | 23.54 | 16.73 | 40.12 | 24.76 | 17.68 
+ 麒麟970 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1 | 99.58 | 56.91 | 29.02 | 102.42 | 57.81 | 35.36 
+ mobilenet_v2 | 69.22 | 42.41 | 23.55 | 69.49 | 43.38 | 25.26 
+ squeezenet_v1.1 | 67.48 | 41.06 | 24.47 | 75.03 | 43.57 | 26.35 
+ mnasnet | 74.55 | 43.06 | 24.22 | 75.48 | 44.43 | 26.69 
+ shufflenet_v2 | 39.20 | 24.54 | 16.34 | 37.40 | 24.32 | 16.66 
+### int8 模型测试数据
+骁龙855 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 16.77 | 8.38 | 4.59 | 43.42 | 20.80 | 10.89 
+ mobilenet_v2_int8 | 22.81 | 13.71 | 10.43 | 29.65 | 20.09 | 13.99 
+ resnet50_int8 | 258.83 | 157.22 | 85.83 | 424.99 | 209.37 | 112.32 
+ 骁龙845 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 44.08 | 23.75 | 12.52 | 49.19 | 26.77 | 13.82 
+ mobilenet_v2_int8 | 36.61 | 22.70 | 15.29 | 40.51 | 25.84 | 17.89 
+ resnet50_int8 | 399.64 | 217.74 | 112.86 | 408.80 | 224.72 | 122.15 
+ 骁龙835 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 59.99 | 31.59 | 16.55 | 62.92 | 33.33 | 17.38 
+ mobilenet_v2_int8 | 50.68 | 31.25 | 21.62 | 52.56 | 33.88 | 24.31 
+ resnet50_int8 | 498.85 | 267.65 | 146.03 | 510.54 | 278.77 | 155.05
+ 骁龙625 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 122.86 | 63.52 | 33.91 | 125.77 | 64.78 | 34.25 
+ mobilenet_v2_int8 | 110.71 | 67.76 | 49.85 | 114.63 | 71.74 | 51.73 
+ resnet50_int8 | 954.67 | 505.78 | 286.64 | 1016.64 | 532.84 | 305.20
+ 骁龙653 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 81.46 | 42.99 | 31.69 | 81.20 | 42.46 | 23.47 
+ mobilenet_v2_int8 | 68.39 | 43.47 | 32.03 | 69.40 | 44.47 | 33.46 
+ resnet50_int8 | 687.59 | 369.70 | 208.99 | 684.55 | 369.04 | 208.42 
+ 麒麟970 | armv8 |  |   |armv7  |||
+---- | ---- | ---- | ----  |----  |----| ----|
+num_threads | 1 | 2 | 4  |1  |2| 4
+ mobilenet_v1_int8 | 64.27 | 35.48 | 18.76 | 64.63 | 37.67 | 20.70 
+ mobilenet_v2_int8 | 64.54 | 36.76 | 22.17 | 68.80 | 38.85 | 24.30 
+ resnet50_int8 | 509.94 | 268.95 | 276.13 | 520.57 | 281.92 | 157.82 
--- a/benchmark_tools.md
+++ b/benchmark_tools.md
+<!--ts-->
+  * [Benchmark](#Benchmark)
+      * [环境准备](#环境准备)
+      * [1. 一键Benchmark](#一-一键benchmark)
+      * [2. 逐步Benchmark](#二-逐步Benchmark)
+         * [1. 获取benchmark可执行文件](#1-获取benchmark可执行文件)
+         * [2. 下载模型](#2-下载模型)
+         * [3. benchmark.sh脚本](#3-benchmark-sh脚本)
+         * [4. 测试](#4-测试)
+<!--te-->
+# Benchmark
+本文将会介绍，在**Ubuntu:16.04交叉编译环境**下，用安卓手机在终端测试Paddle-Lite的性能，并介绍两种Benchmark方法：
+1. **一键Benchmark**：适用于想快速获得常见模型性能的用户，下载预编译好的benchmark可执行文件；
+2. **逐步Benchmark**：将**一键Benchmark**流程拆解讲解。
+# 环境准备
+1. 准备[adb](https://developer.android.com/studio/command-line/adb)等必备软件：
+```shell
+sudo apt update
+sudo apt install -y wget adb
+```
+2. 检查手机与电脑连接。安卓手机USB连上电脑，打开设置 -> 开启开发者模式 -> 开启USB调试 -> 允许（授权）当前电脑调试手机；
+3. 在电脑终端输入`adb devices`命令，查看当前连接到的设备：
+```shell
+adb devices
+```
+命令成功执行，显示结果类似下面（序列码略有不同）：
+```shell
+List of devices attached
+712QSDSEMMS7C   device
+```
+## 一. 一键Benchmark
+执行以下命令，完成Benchmark：
+```shell
+wget -c https://paddle-inference-dist.bj.bcebos.com/PaddleLite/run_benchmark.sh
+sh run_benchmark.sh
+```
+该`run_benchmark.sh`脚本会：
+1. 下载模型，并上传手机：包含mobilenetv1/v2、shufflenetv2、squeezenetv1.1、mnasnet；
+2. 下载pre-built android-armv7和android-armv8的可执行文件，并上传手机：`benchmark_bin_v7`和`benchmark_bin_v8`；
+3. 自动执行另一个脚本`benchmark.sh`（多台手机连接USB，请在`benchmark.sh`脚本中对`adb`命令后加上测试手机的`serial number`）；
+4. 从手机下载benchmark结果`result_armv7.txt`和`result_armv8.txt`，到当前目录，并显示Benchmark结果。
+## 二. 逐步Benchmark
+### 1. 获取benchmark可执行文件
+benchmark_bin文件可以测试PaddleLite的性能，有下面两种方式获得。
+#### 方式一：下载benchmark_bin可执行文件
+```shell
+# Download benchmark_bin for android-armv7
+wget -c https://paddle-inference-dist.bj.bcebos.com/PaddleLite/benchmark_bin_v7
+# Download benchmark_bin for android-armv8
+wget -c https://paddle-inference-dist.bj.bcebos.com/PaddleLite/benchmark_bin_v8
+```
+#### 方式二：由源码编译benchmark_bin文件
+根据[源码编译](./source_compile)准备编译环境，拉取PaddleLite最新release发布版代码，并在仓库根目录下，执行：
+```shell
+###########################################
+# Build benchmark_bin for android-armv7   #
+###########################################
+./lite/tools/ci_build.sh  \
+  --arm_os="android" \
+  --arm_abi="armv7" \
+  --arm_lang="gcc " \
+  build_arm
+# build result see: <paddle-lite-repo>/build.lite.android.armv7.gcc/lite/api/benchmark_bin
+###########################################
+# Build benchmark_bin for android-armv8   #
+###########################################
+./lite/tools/ci_build.sh  \
+  --arm_os="android" \
+  --arm_abi="armv8" \
+  --arm_lang="gcc "  \
+  build_arm
+# build result see: <paddle-lite-repo>/build.lite.android.armv8.gcc/lite/api/benchmark_bin
+```
+> **注意**：为了避免在docker内部访问不到手机的问题，建议编译得到benchmark_bin后退出到docker外面，并且将benchmark_bin文件拷贝到一个临时目录。然后在该临时目录下，按照下面步骤下载模型、拷贝脚本、测试。
+### 2. 下载模型
+PaddleLite为Benchmark准备好了[常见Benchmark模型](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/benchmark_models.tar.gz)。
+执行以下命令，下载常见Benchmark模型并解压：
+```shell
+wget -c https://paddle-inference-dist.bj.bcebos.com/PaddleLite/benchmark_models.tar.gz
+tar zxvf benchmark_models.tar.gz
+```
+| 模型            | 下载地址                                                        |
+| --------------- | ------------------------------------------------------------ |
+| MobilenetV1     | [下载](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/mobilenet_v1.tar.gz) |
+| MobilenetV2     | [下载](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/mobilenet_v2.tar.gz) |
+| ShufflenetV2    | [下载](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/shufflenet_v2.tar.gz) |
+| Squeezenet_V1.1 | [下载](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/squeezenet_v11.tar.gz) |
+| Mnasnet         | [下载](https://paddle-inference-dist.bj.bcebos.com/PaddleLite/mnasnet.tar.gz) |
+> 注：若要使用测试脚本，**对单个模型测试**，请把单个模型放入 `benchmark_models` 文件夹，并确保测试脚本、`benchmark_models`文件夹在同一级的目录。
+注：上述模型都已经使用`model_optimize_tool`进行转化，而且Lite移动端只支持加载转化后的模型。如果需要测试其他模型，请先参考[模型转化方法](./model_optimize_tool)。
+### 3. benchmark.sh脚本
+benchmark测试的执行脚本`benchmark.sh` 位于源码中的`/PaddleLite/lite/tools/benchmark.sh`位置，测试时需要将`benchmark.sh`、 `benchmark_bin` 、 `benchmark_models` 文件复制到同一目录下。
+### 4. 测试
+从终端进入benchmark.sh、可执行文件（benchmark_bin_v7、benchmark_bin_v8）和模型文件（benchmark_models）所在文件夹。
+运行 benchmark.sh 脚本执行测试
+```shell
+# Benchmark for android-armv7
+sh benchmark.sh ./benchmark_bin_v7 ./benchmark_models result_armv7.txt
+# Benchmark for android-armv8
+sh benchmark.sh ./benchmark_bin_v8 ./benchmark_models result_armv8.txt
+```
+测试结束后，armv7和armv8的结果，分别保存在当前目录下的`result_armv7.txt`和`result_armv8.txt`文件中。
+**查看测试结果**
+在当前目录的`result_armv7.txt`和`result_armv8.txt`文件，查看测试结果。
+```shell
+run benchmark armv7
+--------------------------------------
+PaddleLite Benchmark
+Threads=1 Warmup=10 Repeats=30
+-- mnasnet               avg = 159.8427 ms
+-- mobilenet_v1          avg = 235.0072 ms
+-- mobilenet_v2          avg = 173.0387 ms
+-- shufflenet_v2         avg = 76.0040 ms
+-- squeezenet_v11        avg = 164.2957 ms
+Threads=2 Warmup=10 Repeats=30
+-- mnasnet               avg = 83.1287 ms
+-- mobilenet_v1          avg = 121.6029 ms
+-- mobilenet_v2          avg = 86.6175 ms
+-- shufflenet_v2         avg = 41.5761 ms
+-- squeezenet_v11        avg = 87.8678 ms
+Threads=4 Warmup=10 Repeats=30
+-- mnasnet               avg = 73.3880 ms
+-- mobilenet_v1          avg = 119.0739 ms
+-- mobilenet_v2          avg = 85.3050 ms
+-- shufflenet_v2         avg = 38.0762 ms
+-- squeezenet_v11        avg = 64.2201 ms
+--------------------------------------
+run benchmark armv8
+--------------------------------------
+PaddleLite Benchmark
+Threads=1 Warmup=10 Repeats=30
+-- mnasnet               avg = 165.3073 ms
+-- mobilenet_v1          avg = 306.0188 ms
+-- mobilenet_v2          avg = 195.1884 ms
+-- shufflenet_v2         avg = 99.3692 ms
+-- squeezenet_v11        avg = 156.6971 ms
+Threads=2 Warmup=10 Repeats=30
+-- mnasnet               avg = 90.2290 ms
+-- mobilenet_v1          avg = 157.0007 ms
+-- mobilenet_v2          avg = 118.1607 ms
+-- shufflenet_v2         avg = 68.6804 ms
+-- squeezenet_v11        avg = 91.3090 ms
+Threads=4 Warmup=10 Repeats=30
+-- mnasnet               avg = 179.9730 ms
+-- mobilenet_v1          avg = 204.0684 ms
+-- mobilenet_v2          avg = 181.6486 ms
+-- shufflenet_v2         avg = 123.2728 ms
+-- squeezenet_v11        avg = 412.9046 ms
+--------------------------------------
+```
\ No newline at end of file
--- a/benchmark_tools.md.toc.2019-08-25_233116
+++ b/benchmark_tools.md.toc.2019-08-25_233116
+   * [Benchmark 测试方法](#benchmark-测试方法)
+      * [1. 一键Benchmark](#1-一键benchmark)
+      * [2. 逐步测试说明](#2-逐步测试说明)
+            * [1. benchmark可执行文件](#1-benchmark可执行文件)
+            * [2. 下载模型](#2-下载模型)
+            * [3. benchmark.sh 脚本](#3-benchmarksh-脚本)
+            * [4. 测试](#4-测试)
+      * [3. 完整实例](#3-完整实例)
+<!-- Added by: yanchunwei, at: Sun Aug 25 23:31:16 CST 2019 -->
--- a/benchmark_tools.md.toc.2019-08-25_233528
+++ b/benchmark_tools.md.toc.2019-08-25_233528
+   * [Benchmark 测试方法](#benchmark-测试方法)
+      * [1. 一键Benchmark](#1-一键benchmark)
+      * [2. 逐步测试说明](#2-逐步测试说明)
+         * [1. benchmark可执行文件](#1-benchmark可执行文件)
+         * [2. 下载模型](#2-下载模型)
+         * [3. benchmark.sh 脚本](#3-benchmarksh-脚本)
+         * [4. 测试](#4-测试)
+      * [3. 完整实例](#3-完整实例)
+<!-- Added by: yanchunwei, at: Sun Aug 25 23:35:28 CST 2019 -->
--- a/cmake/FindGflags.cmake
+++ b/cmake/FindGflags.cmake
--- a/cmake/FindGlog.cmake
+++ b/cmake/FindGlog.cmake
-#
-# Find libglog
-#
-#  LIBGLOG_INCLUDE_DIR - where to find glog/logging.h, etc.
-#  LIBGLOG_LIBRARY     - List of libraries when using libglog.
-#  LIBGLOG_FOUND       - True if libglog found.
-#
-# from https://github.com/facebook/hhvm/blob/master/CMake/FindGlog.cmake
-IF (LIBGLOG_INCLUDE_DIR)
-  # Already in cache, be silent
-  SET(LIBGLOG_FIND_QUIETLY TRUE)
-ENDIF ()
-FIND_PATH(LIBGLOG_INCLUDE_DIR glog/logging.h)
-FIND_LIBRARY(LIBGLOG_LIBRARY glog)
-# handle the QUIETLY and REQUIRED arguments and set LIBGLOG_FOUND to TRUE if
-# all listed variables are TRUE
-INCLUDE(FindPackageHandleStandardArgs)
-FIND_PACKAGE_HANDLE_STANDARD_ARGS(LIBGLOG DEFAULT_MSG LIBGLOG_LIBRARY LIBGLOG_INCLUDE_DIR)
-MARK_AS_ADVANCED(LIBGLOG_LIBRARY LIBGLOG_INCLUDE_DIR)
\ No newline at end of file
--- a/cmake/FindGperftools.cmake
+++ b/cmake/FindGperftools.cmake
-# Tries to find Gperftools.
-#
-# Usage of this module as follows:
-#
-#     find_package(Gperftools)
-#
-# Variables used by this module, they can change the default behaviour and need
-# to be set before calling find_package:
-#
-#  Gperftools_ROOT_DIR  Set this variable to the root installation of
-#                       Gperftools if the module has problems finding
-#                       the proper installation path.
-#
-# Variables defined by this module:
-#
-#  GPERFTOOLS_FOUND              System has Gperftools libs/headers
-#  GPERFTOOLS_LIBRARIES          The Gperftools libraries (tcmalloc & profiler)
-#  GPERFTOOLS_INCLUDE_DIR        The location of Gperftools headers
-find_library(GPERFTOOLS_TCMALLOC
-  NAMES tcmalloc
-  HINTS ${Gperftools_ROOT_DIR}/lib)
-find_library(GPERFTOOLS_PROFILER
-  NAMES profiler
-  HINTS ${Gperftools_ROOT_DIR}/lib)
-find_library(GPERFTOOLS_TCMALLOC_AND_PROFILER
-  NAMES tcmalloc_and_profiler
-  HINTS ${Gperftools_ROOT_DIR}/lib)
-find_path(GPERFTOOLS_INCLUDE_DIR
-  NAMES gperftools/heap-profiler.h
-  HINTS ${Gperftools_ROOT_DIR}/include)
-set(GPERFTOOLS_LIBRARIES ${GPERFTOOLS_TCMALLOC_AND_PROFILER})
-include(FindPackageHandleStandardArgs)
-find_package_handle_standard_args(
-  Gperftools
-  DEFAULT_MSG
-  GPERFTOOLS_LIBRARIES
-  GPERFTOOLS_INCLUDE_DIR)
-mark_as_advanced(
-  Gperftools_ROOT_DIR
-  GPERFTOOLS_TCMALLOC
-  GPERFTOOLS_PROFILER
-  GPERFTOOLS_TCMALLOC_AND_PROFILER
-  GPERFTOOLS_LIBRARIES
-  GPERFTOOLS_INCLUDE_DIR)
-# create IMPORTED targets
-if (Gperftools_FOUND AND NOT TARGET gperftools::tcmalloc)
-  add_library(gperftools::tcmalloc UNKNOWN IMPORTED)
-  set_target_properties(gperftools::tcmalloc PROPERTIES
-    IMPORTED_LOCATION ${GPERFTOOLS_TCMALLOC}
-    INTERFACE_INCLUDE_DIRECTORIES "${GPERFTOOLS_INCLUDE_DIR}")
-  add_library(gperftools::profiler UNKNOWN IMPORTED)
-  set_target_properties(gperftools::profiler PROPERTIES
-    IMPORTED_LOCATION ${GPERFTOOLS_PROFILER}
-    INTERFACE_INCLUDE_DIRECTORIES "${GPERFTOOLS_INCLUDE_DIR}")
-endif()
--- a/cmake/FindJeMalloc.cmake
+++ b/cmake/FindJeMalloc.cmake
-# - Find JeMalloc library
-# Find the native JeMalloc includes and library
-#
-# JEMALLOC_INCLUDE_DIR - where to find jemalloc.h, etc.
-# JEMALLOC_LIBRARIES - List of libraries when using jemalloc.
-# JEMALLOC_FOUND - True if jemalloc found.
-find_path(JEMALLOC_INCLUDE_DIR
-  NAMES jemalloc/jemalloc.h
-  HINTS ${JEMALLOC_ROOT_DIR}/include)
-find_library(JEMALLOC_LIBRARIES
-  NAMES jemalloc
-  HINTS ${JEMALLOC_ROOT_DIR}/lib)
-include(FindPackageHandleStandardArgs)
-find_package_handle_standard_args(jemalloc DEFAULT_MSG JEMALLOC_LIBRARIES JEMALLOC_INCLUDE_DIR)
-mark_as_advanced(
-  JEMALLOC_LIBRARIES
-  JEMALLOC_INCLUDE_DIR)
-if (JEMALLOC_FOUND)
-  add_library(jemalloc::jemalloc UNKNOWN IMPORTED)
-  set_target_properties(jemalloc::jemalloc PROPERTIES
-    IMPORTED_LOCATION ${JEMALLOC_LIBRARIES}
-    INTERFACE_INCLUDE_DIRECTORIES "${JEMALLOC_INCLUDE_DIR}")
-endif()
--- a/cmake/FindNumPy.cmake
+++ b/cmake/FindNumPy.cmake
-# Find the Python NumPy package
-# PYTHON_NUMPY_INCLUDE_DIR
-# NUMPY_FOUND
-# will be set by this script
-cmake_minimum_required(VERSION 2.6)
-if(NOT PYTHON_EXECUTABLE)
-  if(NumPy_FIND_QUIETLY)
-    find_package(PythonInterp QUIET)
-  else()
-    find_package(PythonInterp)
-    set(_numpy_out 1)
-  endif()
-endif()
-if (PYTHON_EXECUTABLE)
-  # write a python script that finds the numpy path
-  file(WRITE ${PROJECT_BINARY_DIR}/FindNumpyPath.py
-      "try: import numpy; print(numpy.get_include())\nexcept:pass\n")
-  # execute the find script
-  exec_program("${PYTHON_EXECUTABLE}" ${PROJECT_BINARY_DIR}
-    ARGS "FindNumpyPath.py"
-    OUTPUT_VARIABLE NUMPY_PATH)
-elseif(_numpy_out)
-  message(STATUS "Python executable not found.")
-endif(PYTHON_EXECUTABLE)
-find_path(PYTHON_NUMPY_INCLUDE_DIR numpy/arrayobject.h
-  HINTS "${NUMPY_PATH}" "${PYTHON_INCLUDE_PATH}")
-if(PYTHON_NUMPY_INCLUDE_DIR)
-  set(PYTHON_NUMPY_FOUND 1 CACHE INTERNAL "Python numpy found")
-endif(PYTHON_NUMPY_INCLUDE_DIR)
-include(FindPackageHandleStandardArgs)
-find_package_handle_standard_args(NumPy DEFAULT_MSG PYTHON_NUMPY_INCLUDE_DIR)
--- a/cmake/cblas.cmake
+++ b/cmake/cblas.cmake
-# Find the CBlas and lapack libraries
-#
-# It will search MKLML, atlas, OpenBlas, reference-cblas in order.
-#
-# If any cblas implementation found, the following variable will be set.
-#    CBLAS_PROVIDER  # one of MKLML, OPENBLAS, REFERENCE
-#    CBLAS_INC_DIR   # the include directory for cblas.
-#    CBLAS_LIBS      # a list of libraries should be linked by paddle.
-#                    # Each library should be full path to object file.
-set(CBLAS_FOUND OFF)
-## Find MKLML First.
-if(WITH_MKLML AND MKLML_INC_DIR AND MKLML_LIB)
-  set(CBLAS_FOUND ON)
-  set(CBLAS_PROVIDER MKLML)
-  set(CBLAS_INC_DIR ${MKLML_INC_DIR})
-  set(CBLAS_LIBRARIES ${MKLML_LIB})
-  add_definitions(-DPADDLE_WITH_MKLML)
-  add_definitions(-DLAPACK_FOUND)
-  message(STATUS "Found cblas and lapack in MKLML "
-    "(include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
-  return()
-endif()
-## Then find openblas.
-set(OPENBLAS_ROOT $ENV{OPENBLAS_ROOT} CACHE PATH "Folder contains Openblas")
-set(OPENBLAS_INCLUDE_SEARCH_PATHS
-        ${OPENBLAS_ROOT}/include
-        /usr/include
-        /usr/include/openblas
-        /usr/local/opt/openblas/include)
-set(OPENBLAS_LIB_SEARCH_PATHS
-        ${OPENBLAS_ROOT}/lib
-        /usr/lib
-        /usr/lib/blas/openblas
-        /usr/lib/openblas
-        /usr/local/opt/openblas/lib)
-find_path(OPENBLAS_INC_DIR NAMES cblas.h
-  PATHS ${OPENBLAS_INCLUDE_SEARCH_PATHS} NO_DEFAULT_PATH)
-find_path(OPENBLAS_LAPACKE_INC_DIR NAMES lapacke.h
-  PATHS ${OPENBLAS_INCLUDE_SEARCH_PATHS})
-find_library(OPENBLAS_LIB NAMES openblas
-  PATHS ${OPENBLAS_LIB_SEARCH_PATHS})
-if(OPENBLAS_LAPACKE_INC_DIR AND OPENBLAS_INC_DIR AND OPENBLAS_LIB)
-  set(CBLAS_FOUND ON)
-  set(CBLAS_PROVIDER OPENBLAS)
-  set(CBLAS_INC_DIR ${OPENBLAS_INC_DIR} ${OPENBLAS_LAPACKE_INC_DIR})
-  set(CBLAS_LIBRARIES ${OPENBLAS_LIB})
-  add_definitions(-DPADDLE_USE_OPENBLAS)
-  add_definitions(-DLAPACK_FOUND)
-  message(STATUS "Found OpenBLAS (include: ${OPENBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
-  message(STATUS "Found lapack in OpenBLAS (include: ${OPENBLAS_LAPACKE_INC_DIR})")
-  return()
-endif()
-## Then find the reference-cblas.  www.netlib.org/blas/
-set(REFERENCE_CBLAS_ROOT $ENV{REFERENCE_CBLAS_ROOT} CACHE PATH
-  "Folder contains reference-cblas")
-set(REFERENCE_CBLAS_INCLUDE_SEARCH_PATHS
-  ${REFERENCE_CBLAS_ROOT}/include
-  /usr/include
-  /usr/include/cblas
-)
-set(REFERENCE_CBLAS_LIB_SEARCH_PATHS
-  ${REFERENCE_CBLAS_ROOT}/lib
-  /usr/lib
-  /usr/lib/blas/reference/
-  /usr/lib/reference/
-)
-if(WITH_SYSTEM_BLAS)
-  find_path(REFERENCE_CBLAS_INCLUDE_DIR NAMES cblas.h PATHS
-        ${REFERENCE_CBLAS_INCLUDE_SEARCH_PATHS})
-  find_library(REFERENCE_CBLAS_LIBRARY NAMES cblas PATHS
-        ${REFERENCE_CBLAS_LIB_SEARCH_PATHS})
-  if(REFERENCE_CBLAS_INCLUDE_DIR AND REFERENCE_CBLAS_LIBRARY)
-    set(CBLAS_FOUND ON)
-    set(CBLAS_PROVIDER REFERENCE)
-    set(CBLAS_INC_DIR ${REFERENCE_CBLAS_INCLUDE_DIR})
-    set(CBLAS_LIBRARIES ${REFERENCE_CBLAS_LIBRARY})
-    add_definitions(-DPADDLE_USE_REFERENCE_CBLAS)
-    message(STATUS "Found reference-cblas (include: ${CBLAS_INC_DIR}, library: ${CBLAS_LIBRARIES})")
-  endif()
-endif()
--- a/cmake/ccache.cmake
+++ b/cmake/ccache.cmake
-# Use ccache if found ccache program
-find_program(CCACHE_PATH ccache)
-if(CCACHE_PATH)
-    message(STATUS "Ccache is founded, use ccache to speed up compile.")
-    set_property(GLOBAL PROPERTY RULE_LAUNCH_COMPILE ${CCACHE_PATH})
-    set_property(GLOBAL PROPERTY RULE_LAUNCH_LINK ${CCACHE_PATH})
-endif(CCACHE_PATH)
--- a/cmake/configure.cmake
+++ b/cmake/configure.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT WITH_PYTHON)
-    add_definitions(-DPADDLE_NO_PYTHON)
-endif(NOT WITH_PYTHON)
-if(WITH_DSO)
-    add_definitions(-DPADDLE_USE_DSO)
-endif(WITH_DSO)
-if(WITH_TESTING)
-    add_definitions(-DPADDLE_WITH_TESTING)
-endif(WITH_TESTING)
-if(NOT WITH_PROFILER)
-    add_definitions(-DPADDLE_DISABLE_PROFILER)
-endif(NOT WITH_PROFILER)
-if(WITH_AVX AND AVX_FOUND)
-    set(SIMD_FLAG ${AVX_FLAG})
-elseif(SSE3_FOUND)
-    set(SIMD_FLAG ${SSE3_FLAG})
-endif()
-if(LITE_WITH_CUDA)
-    add_definitions(-DLITE_WITH_CUDA)
-    add_definitions(-DEIGEN_USE_GPU)
-    FIND_PACKAGE(CUDA REQUIRED)
-    if(${CUDA_VERSION_MAJOR} VERSION_LESS 7)
-        message(FATAL_ERROR "Paddle needs CUDA >= 7.0 to compile")
-    endif()
-    if(NOT CUDNN_FOUND)
-        message(FATAL_ERROR "Paddle needs cudnn to compile")
-    endif()
-    if(CUPTI_FOUND)
-        include_directories(${CUPTI_INCLUDE_DIR})
-        add_definitions(-DPADDLE_WITH_CUPTI)
-    else()
-        message(STATUS "Cannot find CUPTI, GPU Profiling is incorrect.")
-    endif()
-    set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS} "-Xcompiler ${SIMD_FLAG}")
-    # Include cuda and cudnn
-    include_directories(${CUDNN_INCLUDE_DIR})
-    include_directories(${CUDA_TOOLKIT_INCLUDE})
-elseif(WITH_AMD_GPU)
-    add_definitions(-DPADDLE_WITH_HIP)
-    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -D__HIP_PLATFORM_HCC__")
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -D__HIP_PLATFORM_HCC__")
-else()
-    add_definitions(-DHPPL_STUB_FUNC)
-    list(APPEND CMAKE_CXX_SOURCE_FILE_EXTENSIONS cu)
-endif()
-if (WITH_MKLML AND MKLML_IOMP_LIB)
-    message(STATUS "Enable Intel OpenMP with ${MKLML_IOMP_LIB}")
-    if(WIN32)
-        # openmp not support well for now on windows
-        set(OPENMP_FLAGS "")
-    else(WIN32)
-        set(OPENMP_FLAGS "-fopenmp")
-    endif(WIN32)
-    set(CMAKE_C_CREATE_SHARED_LIBRARY_FORBIDDEN_FLAGS ${OPENMP_FLAGS})
-    set(CMAKE_CXX_CREATE_SHARED_LIBRARY_FORBIDDEN_FLAGS ${OPENMP_FLAGS})
-    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${OPENMP_FLAGS}")
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${OPENMP_FLAGS}")
-endif()
-set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${SIMD_FLAG}")
-set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${SIMD_FLAG}")
-if(WITH_DISTRIBUTE)
-  add_definitions(-DPADDLE_WITH_DISTRIBUTE)
-endif()
-if(WITH_GRPC)
-    add_definitions(-DPADDLE_WITH_GRPC)
-endif(WITH_GRPC)
-if(WITH_BRPC_RDMA)
-    add_definitions(-DPADDLE_WITH_BRPC_RDMA)
-endif(WITH_BRPC_RDMA)
-if(ON_INFER)
-    add_definitions(-DPADDLE_ON_INFERENCE)
-endif(ON_INFER)
-if(WITH_WBAES)
-    add_definitions(-DPADDLE_WITH_WBAES)
-endif(WITH_WBAES)
-if (REPLACE_ENFORCE_GLOG)
-  add_definitions("-DREPLACE_ENFORCE_GLOG")
-endif()
-# for lite
-# TODO(Superjomn) not work fine with the option
-if (LITE_WITH_X86)
-    add_definitions("-DLITE_WITH_X86")
-endif()
-if (LITE_WITH_ARM)
-    add_definitions("-DLITE_WITH_ARM")
-endif()
-if (WITH_ARM_DOTPROD)
-    add_definitions("-DWITH_ARM_DOTPROD")
-endif()
-if (LITE_WITH_NPU)
-    add_definitions("-DLITE_WITH_NPU")
-endif()
-if (LITE_WITH_OPENCL)
-    add_definitions("-DLITE_WITH_OPENCL")
-endif()
-if (LITE_WITH_FPGA)
-add_definitions("-DLITE_WITH_FPGA")
-endif()
-if (LITE_WITH_PROFILE)
-    add_definitions("-DLITE_WITH_PROFILE")
-    if (LITE_WITH_PRECISION_PROFILE)
-        add_definitions("-DLITE_WITH_PRECISION_PROFILE")
-    endif()
-endif()
-if (LITE_WITH_LIGHT_WEIGHT_FRAMEWORK)
-  add_definitions("-DLITE_WITH_LIGHT_WEIGHT_FRAMEWORK")
-endif()
-if (LITE_SHUTDOWN_LOG)
-  add_definitions("-DLITE_SHUTDOWN_LOG")
-endif()
-if (LITE_ON_TINY_PUBLISH)
-  add_definitions("-DLITE_ON_TINY_PUBLISH")
-endif()
-if (LITE_ON_MODEL_OPTIMIZE_TOOL)
-  add_definitions("-DLITE_ON_MODEL_OPTIMIZE_TOOL")
-endif(LITE_ON_MODEL_OPTIMIZE_TOOL)
--- a/cmake/coveralls.cmake
+++ b/cmake/coveralls.cmake
-# CMake script for code coverage.
-# If _COVERALLS_UPLOAD is ON, it will upload json files to overalls.io automatically.
-# Param _COVERAGE_SRCS          A list of coverage source files.
-# Param _COVERALLS_UPLOAD       Upload the result to coveralls.
-# Param _CMAKE_SCRIPT_PATH      CMake script path.
-function(code_coverage _COVERAGE_SRCS _COVERALLS_UPLOAD _CMAKE_SCRIPT_PATH)
-    # clean previous gcov data.
-    file(REMOVE_RECURSE ${PROJECT_BINARY_DIR}/*.gcda)
-    # find curl for upload JSON soon.
-    if (_COVERALLS_UPLOAD)
-        find_program(CURL_EXECUTABLE curl)
-        if (NOT CURL_EXECUTABLE)
-            message(FATAL_ERROR "Coveralls: curl not found!")
-        endif()
-    endif()
-    # When passing a CMake list to an external process, the list
-    # will be converted from the format "1;2;3" to "1 2 3".
-    set(COVERAGE_SRCS "")
-    foreach (SINGLE_SRC ${_COVERAGE_SRCS})
-        set(COVERAGE_SRCS "${COVERAGE_SRCS}*${SINGLE_SRC}")
-    endforeach()
-    # query number of logical cores
-    cmake_host_system_information(RESULT core_size QUERY NUMBER_OF_LOGICAL_CORES)
-    # coveralls json file.
-    set(COVERALLS_FILE ${PROJECT_BINARY_DIR}/coveralls.json)
-    add_custom_target(coveralls_generate
-        # Run regress tests.
-        COMMAND ${CMAKE_CTEST_COMMAND}
-                -j ${core_size}
-                --output-on-failure
-        # Generate Gcov and translate it into coveralls JSON.
-        COMMAND ${CMAKE_COMMAND}
-                -DCOVERAGE_SRCS="${COVERAGE_SRCS}"
-                -DCOVERALLS_OUTPUT_FILE="${COVERALLS_FILE}"
-                -DCOV_PATH="${PROJECT_BINARY_DIR}"
-                -DPROJECT_ROOT="${PROJECT_SOURCE_DIR}"
-                -P "${_CMAKE_SCRIPT_PATH}/coverallsGcovJsons.cmake"
-        WORKING_DIRECTORY ${PROJECT_BINARY_DIR}
-        COMMENT "Coveralls: generating coveralls output..."
-    )
-    if (_COVERALLS_UPLOAD)
-        message("COVERALLS UPLOAD: ON")
-        # Upload the JSON to coveralls.
-        add_custom_target(coveralls_upload
-            COMMAND ${CURL_EXECUTABLE}
-                    -S -F json_file=@${COVERALLS_FILE}
-                    https://coveralls.io/api/v1/jobs
-            DEPENDS coveralls_generate
-            WORKING_DIRECTORY ${PROJECT_BINARY_DIR}
-            COMMENT "Coveralls: uploading coveralls output...")
-        add_custom_target(coveralls DEPENDS coveralls_upload)
-    else()
-        message("COVERALLS UPLOAD: OFF")
-        add_custom_target(coveralls DEPENDS coveralls_generate)
-    endif()
-endfunction()
-if(WITH_COVERAGE)
-    set(CMAKE_BUILD_TYPE "Debug")
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -g -O0 -fprofile-arcs -ftest-coverage")
-    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -g -O0 -fprofile-arcs -ftest-coverage")
-    set(EXCLUDE_DIRS
-        "demo/"
-        "build/"
-        "tests/"
-        ".test_env/"
-    )
-    if(WITH_GPU)
-        file(GLOB_RECURSE PADDLE_SOURCES RELATIVE "${PROJECT_SOURCE_DIR}" "*.cpp" "*.cc" ".c" "*.cu")
-    else()
-        file(GLOB_RECURSE PADDLE_SOURCES RELATIVE "${PROJECT_SOURCE_DIR}" "*.cpp" "*.cc" "*.c")
-    endif()
-    # exclude trivial files in PADDLE_SOURCES
-    foreach(EXCLUDE_DIR ${EXCLUDE_DIRS})
-        foreach(TMP_PATH ${PADDLE_SOURCES})
-            string(FIND ${TMP_PATH} ${EXCLUDE_DIR} EXCLUDE_DIR_FOUND)
-            if(NOT ${EXCLUDE_DIR_FOUND} EQUAL -1)
-                list(REMOVE_ITEM PADDLE_SOURCES ${TMP_PATH})
-            endif()
-        endforeach(TMP_PATH)
-    endforeach()
-    # convert to absolute path
-    set(PADDLE_SRCS "")
-    foreach(PADDLE_SRC ${PADDLE_SOURCES})
-        set(PADDLE_SRCS "${PADDLE_SRCS};${PROJECT_SOURCE_DIR}/${PADDLE_SRC}")
-    endforeach()
-    code_coverage(
-        "${PADDLE_SRCS}"
-        ${COVERALLS_UPLOAD}
-        "${PROJECT_SOURCE_DIR}/cmake"
-    )
-endif()
--- a/cmake/coverallsGcovJsons.cmake
+++ b/cmake/coverallsGcovJsons.cmake
-#
-# Permission is hereby granted, free of charge, to any person obtaining a copy
-# of this software and associated documentation files (the "Software"), to deal
-# in the Software without restriction, including without limitation the rights
-# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-# copies of the Software, and to permit persons to whom the Software is
-# furnished to do so, subject to the following conditions:
-#
-# The above copyright notice and this permission notice shall be included in all
-# copies or substantial portions of the Software.
-#
-# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-# SOFTWARE.
-#
-# Copyright (C) 2014 Joakim Söderberg <joakim.soderberg@gmail.com>
-#
-# This is intended to be run by a custom target in a CMake project like this.
-# 0. Compile program with coverage support.
-# 1. Clear coverage data. (Recursively delete *.gcda in build dir)
-# 2. Run the unit tests.
-# 3. Run this script specifying which source files the coverage should be performed on.
-#
-# This script will then use gcov to generate .gcov files in the directory specified
-# via the COV_PATH var. This should probably be the same as your cmake build dir.
-#
-# It then parses the .gcov files to convert them into the Coveralls JSON format:
-# https://coveralls.io/docs/api
-#
-CMAKE_MINIMUM_REQUIRED(VERSION 2.8)
-# Since it's not possible to pass a CMake list properly in the
-# "1;2;3" format to an external process, we have replaced the
-# ";" with "*", so reverse that here so we get it back into the
-# CMake list format.
-string(REGEX REPLACE "\\*" ";" COVERAGE_SRCS ${COVERAGE_SRCS})
-find_program(GCOV_EXECUTABLE gcov)
-if (NOT GCOV_EXECUTABLE)
-	message(FATAL_ERROR "gcov not found! Aborting...")
-endif()
-find_package(Git)
-# TODO: Add these git things to the coveralls json.
-if (GIT_FOUND)
-	# Branch.
-	execute_process(
-		COMMAND ${GIT_EXECUTABLE} rev-parse --abbrev-ref HEAD
-		WORKING_DIRECTORY ${CMAKE_SOURCE_DIR}
-		OUTPUT_VARIABLE GIT_BRANCH
-		OUTPUT_STRIP_TRAILING_WHITESPACE
-	)
-	macro (git_log_format FORMAT_CHARS VAR_NAME)
-		execute_process(
-			COMMAND ${GIT_EXECUTABLE} log -1 --pretty=format:%${FORMAT_CHARS}
-			WORKING_DIRECTORY ${CMAKE_SOURCE_DIR}
-			OUTPUT_VARIABLE ${VAR_NAME}
-			OUTPUT_STRIP_TRAILING_WHITESPACE
-		)
-	endmacro()
-	git_log_format(an GIT_AUTHOR_EMAIL)
-	git_log_format(ae GIT_AUTHOR_EMAIL)
-	git_log_format(cn GIT_COMMITTER_NAME)
-	git_log_format(ce GIT_COMMITTER_EMAIL)
-	git_log_format(B GIT_COMMIT_MESSAGE)
-	message("Git exe: ${GIT_EXECUTABLE}")
-	message("Git branch: ${GIT_BRANCH}")
-	message("Git author: ${GIT_AUTHOR_NAME}")
-	message("Git e-mail: ${GIT_AUTHOR_EMAIL}")
-	message("Git commiter name: ${GIT_COMMITTER_NAME}")
-	message("Git commiter e-mail: ${GIT_COMMITTER_EMAIL}")
-	message("Git commit message: ${GIT_COMMIT_MESSAGE}")
-endif()
-############################# Macros #########################################
-#
-# This macro converts from the full path format gcov outputs:
-#
-#    /path/to/project/root/build/#path#to#project#root#subdir#the_file.c.gcov
-#
-# to the original source file path the .gcov is for:
-#
-#   /path/to/project/root/subdir/the_file.c
-#
-macro(get_source_path_from_gcov_filename _SRC_FILENAME _GCOV_FILENAME)
-	# /path/to/project/root/build/#path#to#project#root#subdir#the_file.c.gcov 
-	# -> 
-	# #path#to#project#root#subdir#the_file.c.gcov   
-	get_filename_component(_GCOV_FILENAME_WEXT ${_GCOV_FILENAME} NAME)
-	# #path#to#project#root#subdir#the_file.c.gcov -> /path/to/project/root/subdir/the_file.c
-	string(REGEX REPLACE "\\.gcov$" "" SRC_FILENAME_TMP ${_GCOV_FILENAME_WEXT})
-	string(REGEX REPLACE "\#" "/" SRC_FILENAME_TMP ${SRC_FILENAME_TMP})
-	set(${_SRC_FILENAME} "${SRC_FILENAME_TMP}")
-endmacro()
-##############################################################################
-# Get the coverage data.
-file(GLOB_RECURSE GCDA_FILES "${COV_PATH}" "*.gcda")
-message("Process GCDA files:")
-message("===============================")
-# Get a list of all the object directories needed by gcov
-# (The directories the .gcda files and .o files are found in)
-# and run gcov on those.
-foreach(GCDA ${GCDA_FILES})
-	get_filename_component(GCDA_DIR ${GCDA} PATH)
-	#
-	# The -p below refers to "Preserve path components",
-	# This means that the generated gcov filename of a source file will
-	# keep the original files entire filepath, but / is replaced with #.
-	# Example:
-	#
-	# /path/to/project/root/build/CMakeFiles/the_file.dir/subdir/the_file.c.gcda
-	# ------------------------------------------------------------------------------
-	# File '/path/to/project/root/subdir/the_file.c'
-	# Lines executed:68.34% of 199
-	# /path/to/project/root/subdir/the_file.c:creating '#path#to#project#root#subdir#the_file.c.gcov'
-	#
-	# If -p is not specified then the file is named only "the_file.c.gcov"
-	#
-	execute_process(
-		COMMAND ${GCOV_EXECUTABLE} -p -o ${GCDA_DIR} ${GCDA} >/dev/null
-		WORKING_DIRECTORY ${GCDA_DIR}
-	)
-endforeach()
-# TODO: Make these be absolute path
-file(GLOB_RECURSE ALL_GCOV_FILES "${COV_PATH}" "*.gcov")
-# Get only the filenames to use for filtering.
-#set(COVERAGE_SRCS_NAMES "")
-#foreach (COVSRC ${COVERAGE_SRCS})
-#	get_filename_component(COVSRC_NAME ${COVSRC} NAME)
-#	message("${COVSRC} -> ${COVSRC_NAME}")
-#	list(APPEND COVERAGE_SRCS_NAMES "${COVSRC_NAME}")
-#endforeach()
-#
-# Filter out all but the gcov files we want.
-#
-# We do this by comparing the list of COVERAGE_SRCS filepaths that the
-# user wants the coverage data for with the paths of the generated .gcov files,
-# so that we only keep the relevant gcov files.
-#
-# Example:
-# COVERAGE_SRCS =
-#				/path/to/project/root/subdir/the_file.c
-#
-# ALL_GCOV_FILES =
-#				/path/to/project/root/build/#path#to#project#root#subdir#the_file.c.gcov
-#				/path/to/project/root/build/#path#to#project#root#subdir#other_file.c.gcov
-# 
-# Result should be:
-# GCOV_FILES = 
-#				/path/to/project/root/build/#path#to#project#root#subdir#the_file.c.gcov
-#
-set(GCOV_FILES "")
-#message("Look in coverage sources: ${COVERAGE_SRCS}")
-message("\nFilter out unwanted GCOV files:")
-message("===============================")
-set(COVERAGE_SRCS_REMAINING ${COVERAGE_SRCS})
-foreach (GCOV_FILE ${ALL_GCOV_FILES})
-	#
-	# /path/to/project/root/build/#path#to#project#root#subdir#the_file.c.gcov 
-	# -> 
-	# /path/to/project/root/subdir/the_file.c 
-	get_source_path_from_gcov_filename(GCOV_SRC_PATH ${GCOV_FILE})
-	# Is this in the list of source files?
-	# TODO: We want to match against relative path filenames from the source file root...
-	list(FIND COVERAGE_SRCS ${GCOV_SRC_PATH} WAS_FOUND)
-	if (NOT WAS_FOUND EQUAL -1)
-		message("YES: ${GCOV_FILE}")
-		list(APPEND GCOV_FILES ${GCOV_FILE})
-		# We remove it from the list, so we don't bother searching for it again.
-		# Also files left in COVERAGE_SRCS_REMAINING after this loop ends should
-		# have coverage data generated from them (no lines are covered).
-		list(REMOVE_ITEM COVERAGE_SRCS_REMAINING ${GCOV_SRC_PATH})
-	else()
-		message("NO:  ${GCOV_FILE}")
-	endif()
-endforeach()
-# TODO: Enable setting these
-set(JSON_SERVICE_NAME "travis-ci")
-set(JSON_SERVICE_JOB_ID $ENV{TRAVIS_JOB_ID})
-set(JSON_TEMPLATE
-"{
-  \"service_name\": \"\@JSON_SERVICE_NAME\@\",
-  \"service_job_id\": \"\@JSON_SERVICE_JOB_ID\@\",
-  \"source_files\": \@JSON_GCOV_FILES\@
-}"
-)
-set(SRC_FILE_TEMPLATE
-"{
-      \"name\": \"\@GCOV_SRC_REL_PATH\@\",
-      \"source_digest\": \"\@GCOV_CONTENTS_MD5\@\",
-      \"coverage\": \@GCOV_FILE_COVERAGE\@
-  }"
-)
-message("\nGenerate JSON for files:")
-message("=========================")
-set(JSON_GCOV_FILES "[")
-# Read the GCOV files line by line and get the coverage data.
-foreach (GCOV_FILE ${GCOV_FILES})
-	get_source_path_from_gcov_filename(GCOV_SRC_PATH ${GCOV_FILE})
-	file(RELATIVE_PATH GCOV_SRC_REL_PATH "${PROJECT_ROOT}" "${GCOV_SRC_PATH}")
-	# The new coveralls API doesn't need the entire source (Yay!)
-	# However, still keeping that part for now. Will cleanup in the future.
-	file(MD5 "${GCOV_SRC_PATH}" GCOV_CONTENTS_MD5)
-	message("MD5: ${GCOV_SRC_PATH} = ${GCOV_CONTENTS_MD5}")
-	# Loads the gcov file as a list of lines.
-	# (We first open the file and replace all occurences of [] with _
-	#  because CMake will fail to parse a line containing unmatched brackets...
-	#  also the \ to escaped \n in macros screws up things.)
-	# https://public.kitware.com/Bug/view.php?id=15369
-	file(READ ${GCOV_FILE} GCOV_CONTENTS)
-	string(REPLACE "[" "_" GCOV_CONTENTS "${GCOV_CONTENTS}")
-	string(REPLACE "]" "_" GCOV_CONTENTS "${GCOV_CONTENTS}")
-	string(REPLACE "\\" "_" GCOV_CONTENTS "${GCOV_CONTENTS}")
-	file(WRITE ${GCOV_FILE}_tmp "${GCOV_CONTENTS}")
-	file(STRINGS ${GCOV_FILE}_tmp GCOV_LINES)
-	list(LENGTH GCOV_LINES LINE_COUNT)
-	# Instead of trying to parse the source from the
-	# gcov file, simply read the file contents from the source file.
-	# (Parsing it from the gcov is hard because C-code uses ; in many places
-	#  which also happens to be the same as the CMake list delimeter).
-	file(READ ${GCOV_SRC_PATH} GCOV_FILE_SOURCE)
-	string(REPLACE "\\" "\\\\" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	string(REGEX REPLACE "\"" "\\\\\"" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	string(REPLACE "\t" "\\\\t" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	string(REPLACE "\r" "\\\\r" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	string(REPLACE "\n" "\\\\n" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	# According to http://json.org/ these should be escaped as well.
-	# Don't know how to do that in CMake however...
-	#string(REPLACE "\b" "\\\\b" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	#string(REPLACE "\f" "\\\\f" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	#string(REGEX REPLACE "\u([a-fA-F0-9]{4})" "\\\\u\\1" GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}")
-	# We want a json array of coverage data as a single string
-	# start building them from the contents of the .gcov
-	set(GCOV_FILE_COVERAGE "[")
-	set(GCOV_LINE_COUNT 1) # Line number for the .gcov.
-	set(DO_SKIP 0)
-	foreach (GCOV_LINE ${GCOV_LINES})
-		#message("${GCOV_LINE}")
-		# Example of what we're parsing:
-		# Hitcount  |Line | Source
-		# "        8:   26:        if (!allowed || (strlen(allowed) == 0))"
-		string(REGEX REPLACE 
-			"^([^:]*):([^:]*):(.*)$" 
-			"\\1;\\2;\\3"
-			RES
-			"${GCOV_LINE}")
-		# Check if we should exclude lines using the Lcov syntax.
-		string(REGEX MATCH "LCOV_EXCL_START" START_SKIP "${GCOV_LINE}")
-		string(REGEX MATCH "LCOV_EXCL_END" END_SKIP "${GCOV_LINE}")
-		string(REGEX MATCH "LCOV_EXCL_LINE" LINE_SKIP "${GCOV_LINE}")
-		set(RESET_SKIP 0)
-		if (LINE_SKIP AND NOT DO_SKIP)
-			set(DO_SKIP 1)
-			set(RESET_SKIP 1)
-		endif()
-		if (START_SKIP)
-			set(DO_SKIP 1)
-			message("${GCOV_LINE_COUNT}: Start skip")
-		endif()
-		if (END_SKIP)
-			set(DO_SKIP 0)
-		endif()
-		list(LENGTH RES RES_COUNT)
-		if (RES_COUNT GREATER 2)
-			list(GET RES 0 HITCOUNT)
-			list(GET RES 1 LINE)
-			list(GET RES 2 SOURCE)
-			string(STRIP ${HITCOUNT} HITCOUNT)
-			string(STRIP ${LINE} LINE)
-			# Lines with 0 line numbers are metadata and can be ignored.
-			if (NOT ${LINE} EQUAL 0)
-				if (DO_SKIP)
-					set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}null, ")
-				else()
-					# Translate the hitcount into valid JSON values.
-					if (${HITCOUNT} STREQUAL "#####")
-						set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}0, ")
-					elseif (${HITCOUNT} STREQUAL "-")
-						set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}null, ")
-					else()
-						set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}${HITCOUNT}, ")
-					endif()
-				endif()
-			endif()
-		else()
-			message(WARNING "Failed to properly parse line (RES_COUNT = ${RES_COUNT}) ${GCOV_FILE}:${GCOV_LINE_COUNT}\n-->${GCOV_LINE}")
-		endif()
-		if (RESET_SKIP)
-			set(DO_SKIP 0)
-		endif()
-		math(EXPR GCOV_LINE_COUNT "${GCOV_LINE_COUNT}+1")
-	endforeach()
-	message("${GCOV_LINE_COUNT} of ${LINE_COUNT} lines read!")
-	# Advanced way of removing the trailing comma in the JSON array.
-	# "[1, 2, 3, " -> "[1, 2, 3"
-	string(REGEX REPLACE ",[ ]*$" "" GCOV_FILE_COVERAGE ${GCOV_FILE_COVERAGE})
-	# Append the trailing ] to complete the JSON array.
-	set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}]")
-	# Generate the final JSON for this file.
-	message("Generate JSON for file: ${GCOV_SRC_REL_PATH}...")
-	string(CONFIGURE ${SRC_FILE_TEMPLATE} FILE_JSON)
-	set(JSON_GCOV_FILES "${JSON_GCOV_FILES}${FILE_JSON}, ")
-endforeach()
-# Loop through all files we couldn't find any coverage for
-# as well, and generate JSON for those as well with 0% coverage.
-foreach(NOT_COVERED_SRC ${COVERAGE_SRCS_REMAINING})
-	# Loads the source file as a list of lines.
-	file(STRINGS ${NOT_COVERED_SRC} SRC_LINES)
-	set(GCOV_FILE_COVERAGE "[")
-	set(GCOV_FILE_SOURCE "")
-	foreach (SOURCE ${SRC_LINES})
-		set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}0, ")
-		string(REPLACE "\\" "\\\\" SOURCE "${SOURCE}")
-		string(REGEX REPLACE "\"" "\\\\\"" SOURCE "${SOURCE}")
-		string(REPLACE "\t" "\\\\t" SOURCE "${SOURCE}")
-		string(REPLACE "\r" "\\\\r" SOURCE "${SOURCE}")
-		set(GCOV_FILE_SOURCE "${GCOV_FILE_SOURCE}${SOURCE}\\n")
-	endforeach()
-	# Remove trailing comma, and complete JSON array with ]
-	string(REGEX REPLACE ",[ ]*$" "" GCOV_FILE_COVERAGE ${GCOV_FILE_COVERAGE})
-	set(GCOV_FILE_COVERAGE "${GCOV_FILE_COVERAGE}]")
-	# Generate the final JSON for this file.
-	string(CONFIGURE ${SRC_FILE_TEMPLATE} FILE_JSON)
-	set(JSON_GCOV_FILES "${JSON_GCOV_FILES}${FILE_JSON}, ")
-endforeach()
-# Get rid of trailing comma.
-string(REGEX REPLACE ",[ ]*$" "" JSON_GCOV_FILES ${JSON_GCOV_FILES})
-set(JSON_GCOV_FILES "${JSON_GCOV_FILES}]")
-# Generate the final complete JSON!
-message("Generate final JSON...")
-string(CONFIGURE ${JSON_TEMPLATE} JSON)
-file(WRITE "${COVERALLS_OUTPUT_FILE}" "${JSON}")
-message("###########################################################################")
-message("Generated coveralls JSON containing coverage data:") 
-message("${COVERALLS_OUTPUT_FILE}")
-message("###########################################################################")
--- a/cmake/cross_compiling/android.cmake
+++ b/cmake/cross_compiling/android.cmake
-# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#     http://www.apache.org/licenses/LICENSE-2.0
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT ARM_TARGET_OS STREQUAL "android")
-    return()
-endif()
-set(ANDROID TRUE)
-add_definitions(-DLITE_WITH_LINUX)
-if(NOT DEFINED ANDROID_NDK)
-    set(ANDROID_NDK $ENV{NDK_ROOT})
-    if(NOT ANDROID_NDK)
-        message(FATAL_ERROR "Must set ANDROID_NDK or env NDK_ROOT")
-    endif()
-endif()
-if(ARM_TARGET_LANG STREQUAL "gcc")
-    # gcc do not need set lang on android
-    set(ARM_TARGET_LANG "")
-endif()
-if(NOT DEFINED ANDROID_API_LEVEL)
-    set(ANDROID_API_LEVEL "22")
-endif()
-# then check input arm abi
-if(ARM_TARGET_ARCH_ABI STREQUAL "armv7hf")
-    message(FATAL_ERROR "ANDROID does not support hardfp on v7 use armv7 instead.")
-endif()
-set(ANDROID_ARCH_ABI ${ARM_TARGET_ARCH_ABI} CACHE STRING "Choose Android Arch ABI")
-if(ARM_TARGET_ARCH_ABI STREQUAL "armv8")
-    set(ANDROID_ARCH_ABI "arm64-v8a")
-endif()
-if(ARM_TARGET_ARCH_ABI STREQUAL "armv7")
-    set(ANDROID_ARCH_ABI "armeabi-v7a")
-endif()
-check_input_var(ANDROID_ARCH_ABI DEFAULT ${ANDROID_ARCH_ABI} LIST "arm64-v8a" "armeabi-v7a"
-    "armeabi-v6" "armeabi" "mips" "mips64" "x86" "x86_64")
-check_input_var(ANDROID_STL_TYPE DEFAULT "c++_static" LIST "c++_static" "gnustl_static" "c++_shared")
-if(ANDROID_ARCH_ABI STREQUAL "armeabi-v7a")
-    message(STATUS "armeabi-v7a use softfp by default.")
-    set(CMAKE_ANDROID_ARM_NEON ON)
-    message(STATUS "NEON is enabled on arm-v7a with softfp.")
-endif()
-set(CMAKE_SYSTEM_NAME Android)
-set(CMAKE_SYSTEM_VERSION ${ANDROID_API_LEVEL})
-set(CMAKE_ANDROID_ARCH_ABI ${ANDROID_ARCH_ABI})
-set(CMAKE_ANDROID_NDK ${ANDROID_NDK})
-set(CMAKE_ANDROID_NDK_TOOLCHAIN_VERSION ${ARM_TARGET_LANG})
-set(CMAKE_ANDROID_STL_TYPE ${ANDROID_STL_TYPE})
-if (ARM_TARGET_LANG STREQUAL "clang")
-    if(ARM_TARGET_ARCH_ABI STREQUAL "armv8")
-        set(triple aarch64-v8a-linux-android)
-    elseif(ARM_TARGET_ARCH_ABI STREQUAL "armv7")
-        set(triple arm-v7a-linux-android)
-        set(LITE_WITH_OPENMP OFF CACHE STRING "Due to libomp's bug(For ARM64, it has been fixed by https://reviews.llvm.org/D19879, but still exists on ARM32), disable OpenMP on armv7 when cross-compiling using Clang" FORCE)
-    else()
-        message(FATAL_ERROR "Clang do not support this ${ARM_TARGET_ARCH_ABI}, use armv8 or armv7")
-    endif()
-    set(CMAKE_C_COMPILER clang)
-    set(CMAKE_C_COMPILER_TARGET ${triple})
-    set(CMAKE_CXX_COMPILER clang++)
-    set(CMAKE_CXX_COMPILER_TARGET ${triple})
-    message(STATUS "CMAKE_CXX_COMPILER_TARGET: ${CMAKE_CXX_COMPILER_TARGET}")
-endif()
--- a/cmake/cross_compiling/armlinux.cmake
+++ b/cmake/cross_compiling/armlinux.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#     http://www.apache.org/licenses/LICENSE-2.0
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT ARM_TARGET_OS STREQUAL "armlinux")
-    return()
-endif()
-set(ARMLINUX TRUE)
-add_definitions(-DLITE_WITH_LINUX)
-set(CMAKE_SYSTEM_NAME Linux)
-check_input_var(ARMLINUX_ARCH_ABI DEFAULT ${ARM_TARGET_ARCH_ABI} LIST "armv8" "armv7" "armv7hf")
-if(ARMLINUX_ARCH_ABI STREQUAL "armv8")
-    set(CMAKE_SYSTEM_PROCESSOR aarch64)
-    set(CMAKE_C_COMPILER "aarch64-linux-gnu-gcc")
-    set(CMAKE_CXX_COMPILER "aarch64-linux-gnu-g++")
-endif()
-if(ARMLINUX_ARCH_ABI STREQUAL "armv7")
-    set(CMAKE_SYSTEM_PROCESSOR arm)
-    set(CMAKE_C_COMPILER "arm-linux-gnueabi-gcc")
-    set(CMAKE_CXX_COMPILER "arm-linux-gnueabi-g++")
-endif()
-if(ARMLINUX_ARCH_ABI STREQUAL "armv7hf")
-    set(CMAKE_SYSTEM_PROCESSOR arm)
-    set(CMAKE_C_COMPILER "arm-linux-gnueabihf-gcc")
-    set(CMAKE_CXX_COMPILER "arm-linux-gnueabihf-g++")
-endif()
--- a/cmake/cross_compiling/findar.cmake
+++ b/cmake/cross_compiling/findar.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT ARM_TARGET_LANG STREQUAL "clang")
-    # only clang need find ar tool
-    return()
-endif()
-if(NOT EXISTS "${CMAKE_CXX_COMPILER}")
-    message(ERROR "Can not find CMAKE_CXX_COMPILER ${CMAKE_CXX_COMPILER}")
-endif()
-get_filename_component(AR_PATH ${CMAKE_CXX_COMPILER} PATH)
-find_file(AR_TOOL NAMES llvm-ar PATHS ${AR_PATH})
-if(NOT AR_TOOL)
-    message(ERROR "Failed to find AR_TOOL in ${AR_PATH}")
-else()
-    set(CMAKE_AR ${AR_TOOL})
-    message(STATUS "Found CMAKE_AR : " ${CMAKE_AR})
-endif()
--- a/cmake/cross_compiling/host.cmake
+++ b/cmake/cross_compiling/host.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-# 
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-# 
-# http://www.apache.org/licenses/LICENSE-2.0
-# 
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-set(HOST_C_COMPILER $ENV{CC})
-set(HOST_CXX_COMPILER $ENV{CXX})
-if(IOS)
-    set(default_cc clang)
-    set(default_cxx clang++)
-else()
-    set(default_cc gcc)
-    set(default_cxx g++)
-endif()
-if(NOT HOST_C_COMPILER)
-    find_program(HOST_C_COMPILER NAMES ${default_cc} PATH
-        /usr/bin
-        /usr/local/bin)
-endif()
-if(NOT HOST_CXX_COMPILER)
-    find_program(HOST_CXX_COMPILER NAMES ${default_cxx} PATH
-        /usr/bin
-        /usr/local/bin)
-endif()
-if(NOT HOST_C_COMPILER OR NOT EXISTS ${HOST_C_COMPILER})
-    MESSAGE(FATAL_ERROR "Cannot find host C compiler. export CC=/path/to/cc")
-ENDIF()
-if(NOT HOST_CXX_COMPILER OR NOT EXISTS ${HOST_CXX_COMPILER})
-    MESSAGE(FATAL_ERROR "Cannot find host C compiler. export CC=/path/to/cc")
-ENDIF()
-MESSAGE(STATUS "Found host C compiler: " ${HOST_C_COMPILER})
-MESSAGE(STATUS "Found host CXX compiler: " ${HOST_CXX_COMPILER})
--- a/cmake/cross_compiling/ios.cmake
+++ b/cmake/cross_compiling/ios.cmake
--- a/cmake/cross_compiling/npu.cmake
+++ b/cmake/cross_compiling/npu.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-# 
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-# 
-# http://www.apache.org/licenses/LICENSE-2.0
-# 
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT LITE_WITH_NPU)
-  return()
-endif()
-if(NOT DEFINED NPU_DDK_ROOT)
-    set(NPU_DDK_ROOT $ENV{NPU_DDK_ROOT})
-    if(NOT NPU_DDK_ROOT)
-        message(FATAL_ERROR "Must set NPU_DDK_ROOT or env NPU_DDK_ROOT when LITE_WITH_NPU=ON")
-    endif()
-endif()
-message(STATUS "NPU_DDK_ROOT: ${NPU_DDK_ROOT}")
-find_path(NPU_DDK_INC NAMES HiAiModelManagerService.h
-  PATHS ${NPU_DDK_ROOT}/include NO_DEFAULT_PATH)
-if(NOT NPU_DDK_INC)
-  message(FATAL_ERROR "Can not find HiAiModelManagerService.h in ${NPU_DDK_ROOT}/include")
-endif()
-include_directories("${NPU_DDK_ROOT}")
-set(NPU_SUB_LIB_PATH "lib64")
-if(ARM_TARGET_ARCH_ABI STREQUAL "armv8")
-    set(NPU_SUB_LIB_PATH "lib64")
-endif()
-if(ARM_TARGET_ARCH_ABI STREQUAL "armv7")
-    set(NPU_SUB_LIB_PATH "lib")
-endif()
-find_library(NPU_DDK_HIAI_FILE NAMES hiai
-  PATHS ${NPU_DDK_ROOT}/${NPU_SUB_LIB_PATH})
-find_library(NPU_DDK_IR_FILE NAMES hiai_ir
-  PATHS ${NPU_DDK_ROOT}/${NPU_SUB_LIB_PATH})
-find_library(NPU_DDK_IR_BUILD_FILE NAMES hiai_ir_build
-  PATHS ${NPU_DDK_ROOT}/${NPU_SUB_LIB_PATH})
-find_library(NPU_DDK_PROTO_FILE NAMES protobuf-lite
-  PATHS ${NPU_DDK_ROOT}/${NPU_SUB_LIB_PATH})
-if(NOT NPU_DDK_HIAI_FILE)
-  message(FATAL_ERROR "Can not find NPU_DDK_HIAI_FILE in ${NPU_DDK_ROOT}")
-else()
-  message(STATUS "Found NPU_DDK HIAI Library: ${NPU_DDK_HIAI_FILE}")
-  add_library(npu_ddk_hiai SHARED IMPORTED GLOBAL)
-  set_property(TARGET npu_ddk_hiai PROPERTY IMPORTED_LOCATION ${NPU_DDK_HIAI_FILE})
-endif()
-if(NOT NPU_DDK_IR_FILE)
-  message(FATAL_ERROR "Can not find NPU_DDK_IR_FILE in ${NPU_DDK_ROOT}")
-else()
-  message(STATUS "Found NPU_DDK IR Library: ${NPU_DDK_IR_FILE}")
-  add_library(npu_ddk_ir SHARED IMPORTED GLOBAL)
-  set_property(TARGET npu_ddk_ir PROPERTY IMPORTED_LOCATION ${NPU_DDK_IR_FILE})
-endif()
-if(NOT NPU_DDK_IR_BUILD_FILE)
-  message(FATAL_ERROR "Can not find NPU_DDK_IR_BUILD_FILE in ${NPU_DDK_ROOT}")
-else()
-  message(STATUS "Found NPU_DDK IR_BUILD Library: ${NPU_DDK_IR_BUILD_FILE}")
-  add_library(npu_ddk_ir_build SHARED IMPORTED GLOBAL)
-  set_property(TARGET npu_ddk_ir_build PROPERTY IMPORTED_LOCATION ${NPU_DDK_IR_BUILD_FILE})
-endif()
-if(NOT NPU_DDK_PROTO_FILE)
-  message(FATAL_ERROR "Can not find NPU_DDK_PROTO_FILE in ${NPU_DDK_ROOT}")
-else()
-  message(STATUS "Found NPU_DDK Protobuf Library: ${NPU_DDK_PROTO_FILE}")
-  add_library(npu_ddk_proto SHARED IMPORTED GLOBAL)
-  set_property(TARGET npu_ddk_proto PROPERTY IMPORTED_LOCATION ${NPU_DDK_PROTO_FILE})
-endif()
-set(npu_ddk_libs npu_ddk_hiai npu_ddk_ir npu_ddk_ir_build npu_ddk_proto CACHE INTERNAL "npu ddk libs")
--- a/cmake/cross_compiling/postproject.cmake
+++ b/cmake/cross_compiling/postproject.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#     http://www.apache.org/licenses/LICENSE-2.0
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT LITE_WITH_LIGHT_WEIGHT_FRAMEWORK)
-    return()
-endif()
-include(CheckCXXCompilerFlag)
-if(ANDROID)
-    include(cross_compiling/findar)
-    set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -llog -fPIC")
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -llog -fPIC")
-endif()
-if(ARMLINUX)
-    if(ARMLINUX_ARCH_ABI STREQUAL "armv8")
-        set(CMAKE_CXX_FLAGS "-march=armv8-a ${CMAKE_CXX_FLAGS}")
-        set(CMAKE_C_FLAGS "-march=armv8-a ${CMAKE_C_FLAGS}")
-        message(STATUS "NEON is enabled on arm64-v8a")
-    endif()
-    if(ARMLINUX_ARCH_ABI STREQUAL "armv7")
-        set(CMAKE_CXX_FLAGS "-march=armv7-a -mfloat-abi=softfp -mfpu=neon-vfpv4 ${CMAKE_CXX_FLAGS}")
-        set(CMAKE_C_FLAGS "-march=armv7-a -mfloat-abi=softfp -mfpu=neon-vfpv4 ${CMAKE_C_FLAGS}")
-        message(STATUS "NEON is enabled on arm-v7a with softfp")
-    endif()
-    if(ARMLINUX_ARCH_ABI STREQUAL "armv7hf")
-        set(CMAKE_CXX_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon-vfpv4 ${CMAKE_CXX_FLAGS}")
-        set(CMAKE_C_FLAGS "-march=armv7-a -mfloat-abi=hard -mfpu=neon-vfpv4 ${CMAKE_C_FLAGS}" )
-        message(STATUS "NEON is enabled on arm-v7a with hard float")
-    endif()
-endif()
-function(check_linker_flag)
-    foreach(flag ${ARGN})
-        set(CMAKE_EXE_LINKER_FLAGS "${CMAKE_EXE_LINKER_FLAGS} ${flag}")
-        check_cxx_compiler_flag("" out_var)
-        if(${out_var})
-            set(CMAKE_SHARED_LINKER_FLAGS "${CMAKE_SHARED_LINKER_FLAGS} ${flag}")
-        endif()
-    endforeach()
-    set(CMAKE_SHARED_LINKER_FLAGS ${CMAKE_SHARED_LINKER_FLAGS} PARENT_SCOPE)
-endfunction()
-set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11")
-if (LITE_ON_TINY_PUBLISH)
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -ffast-math -Ofast -Os -fno-exceptions -fomit-frame-pointer -fno-asynchronous-unwind-tables -fno-unwind-tables")
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -flto -fvisibility=hidden -fvisibility-inlines-hidden -fdata-sections -ffunction-sections")
-    check_linker_flag(-Wl,--gc-sections)
-endif()
-if(LITE_WITH_OPENMP)
-    find_package(OpenMP REQUIRED)
-    if(OPENMP_FOUND OR OpenMP_CXX_FOUND)
-        add_definitions(-DARM_WITH_OMP)
-        set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${OpenMP_C_FLAGS}")
-        set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${OpenMP_CXX_FLAGS}")
-        message(STATUS "Found OpenMP ${OpenMP_VERSION} ${OpenMP_CXX_VERSION}")
-        message(STATUS "OpenMP C flags:  ${OpenMP_C_FLAGS}")
-        message(STATUS "OpenMP CXX flags:  ${OpenMP_CXX_FLAGS}")
-        message(STATUS "OpenMP OpenMP_CXX_LIB_NAMES:  ${OpenMP_CXX_LIB_NAMES}")
-        message(STATUS "OpenMP OpenMP_CXX_LIBRARIES:  ${OpenMP_CXX_LIBRARIES}")
-    else()
-        message(FATAL_ERROR "Could not found OpenMP!")
-    endif()
-endif()
-# third party cmake args
-set(CROSS_COMPILE_CMAKE_ARGS
-    "-DCMAKE_SYSTEM_NAME=${CMAKE_SYSTEM_NAME}"
-    "-DCMAKE_SYSTEM_VERSION=${CMAKE_SYSTEM_VERSION}")
-if(ANDROID)
-    set(CROSS_COMPILE_CMAKE_ARGS ${CROSS_COMPILE_CMAKE_ARGS}
-        "-DCMAKE_ANDROID_ARCH_ABI=${CMAKE_ANDROID_ARCH_ABI}"
-        "-DCMAKE_ANDROID_NDK=${CMAKE_ANDROID_NDK}"
-        "-DCMAKE_ANDROID_STL_TYPE=${CMAKE_ANDROID_STL_TYPE}"
-        "-DCMAKE_ANDROID_NDK_TOOLCHAIN_VERSION=${CMAKE_ANDROID_NDK_TOOLCHAIN_VERSION}")
-endif()
-if(IOS)
-    set(CROSS_COMPILE_CMAKE_ARGS ${CROSS_COMPILE_CMAKE_ARGS}
-        "-DCMAKE_OSX_ARCHITECTURES=${CMAKE_OSX_ARCHITECTURES}"
-        "-DCMAKE_SYSTEM_PROCESSOR=${CMAKE_SYSTEM_PROCESSOR}"
-        "-DCMAKE_OSX_SYSROOT=${CMAKE_OSX_SYSROOT}")
-endif()
--- a/cmake/cross_compiling/preproject.cmake
+++ b/cmake/cross_compiling/preproject.cmake
-# Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#     http://www.apache.org/licenses/LICENSE-2.0
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-if(NOT LITE_WITH_LIGHT_WEIGHT_FRAMEWORK)
-    return()
-endif()
-cmake_minimum_required(VERSION 3.10)
-# define check function
-function(check_input_var VAR_NAME)
-  set(options "")
-  set(oneValueArgs "")
-  set(multiValueArgs DEFAULT LIST)
-  cmake_parse_arguments(check_input_var "${options}" "${oneValueArgs}" "${multiValueArgs}" ${ARGN})
-  set(var_out "")
-  if(NOT DEFINED ${VAR_NAME})
-    set(var_out ${check_input_var_DEFAULT})
-  else()
-    set(var_out ${${VAR_NAME}})
-  endif()
-  if(NOT var_out IN_LIST check_input_var_LIST)
-    message(FATAL_ERROR "${VAR_NAME}:${var_out} must be in one of ${check_input_var_LIST}")
-  endif()
-  set(${VAR_NAME} ${var_out} PARENT_SCOPE)
-endfunction(check_input_var)
-check_input_var(ARM_TARGET_OS DEFAULT "android" LIST "android" "armlinux" "ios" "ios64")
-check_input_var(ARM_TARGET_ARCH_ABI DEFAULT "armv8" LIST "armv8" "armv7" "armv7hf" "arm64-v8a" "armeabi-v7a")
-check_input_var(ARM_TARGET_LANG DEFAULT "gcc" LIST "gcc" "clang")
-check_input_var(ARM_TARGET_LIB_TYPE DEFAULT "static" LIST "static" "shared")
-include(cross_compiling/armlinux)
-include(cross_compiling/android)
-include(cross_compiling/ios)
-include(cross_compiling/host)
-if(NOT CMAKE_BUILD_TYPE)
-    set(CMAKE_BUILD_TYPE "Release" CACHE STRING "Default use Release in android" FORCE)
-endif()
-if(NOT THIRD_PARTY_BUILD_TYPE)
-    set(THIRD_PARTY_BUILD_TYPE "MinSizeRel" CACHE STRING "Default use MinSizeRel in android" FORCE)
-endif()
-message(STATUS "Lite ARM Compile ${ARM_TARGET_OS} with ${ARM_TARGET_ARCH_ABI} ${ARM_TARGET_LANG}")
--- a/cmake/cuda.cmake
+++ b/cmake/cuda.cmake
-if(NOT LITE_WITH_CUDA)
-    return()
-endif()
-set(paddle_known_gpu_archs "30 35 50 52 60 61 70")
-set(paddle_known_gpu_archs7 "30 35 50 52")
-set(paddle_known_gpu_archs8 "30 35 50 52 60 61")
-set(paddle_known_gpu_archs9 "30 35 50 52 60 61 70")
-set(paddle_known_gpu_archs10 "30 35 50 52 60 61 70 75")
-######################################################################################
-# A function for automatic detection of GPUs installed  (if autodetection is enabled)
-# Usage:
-#   detect_installed_gpus(out_variable)
-function(detect_installed_gpus out_variable)
-  if(NOT CUDA_gpu_detect_output)
-    set(cufile ${PROJECT_BINARY_DIR}/detect_cuda_archs.cu)
-    file(WRITE ${cufile} ""
-      "#include <cstdio>\n"
-      "int main() {\n"
-      "  int count = 0;\n"
-      "  if (cudaSuccess != cudaGetDeviceCount(&count)) return -1;\n"
-      "  if (count == 0) return -1;\n"
-      "  for (int device = 0; device < count; ++device) {\n"
-      "    cudaDeviceProp prop;\n"
-      "    if (cudaSuccess == cudaGetDeviceProperties(&prop, device))\n"
-      "      std::printf(\"%d.%d \", prop.major, prop.minor);\n"
-      "  }\n"
-      "  return 0;\n"
-      "}\n")
-    execute_process(COMMAND "${CUDA_NVCC_EXECUTABLE}" "-ccbin=${CUDA_HOST_COMPILER}"
-                    "--run" "${cufile}"
-                    WORKING_DIRECTORY "${PROJECT_BINARY_DIR}/CMakeFiles/"
-                    RESULT_VARIABLE nvcc_res OUTPUT_VARIABLE nvcc_out
-                    ERROR_QUIET OUTPUT_STRIP_TRAILING_WHITESPACE)
-    if(nvcc_res EQUAL 0)
-      # only keep the last line of nvcc_out
-      STRING(REGEX REPLACE ";" "\\\\;" nvcc_out "${nvcc_out}")
-      STRING(REGEX REPLACE "\n" ";" nvcc_out "${nvcc_out}")
-      list(GET nvcc_out -1 nvcc_out)
-      string(REPLACE "2.1" "2.1(2.0)" nvcc_out "${nvcc_out}")
-      set(CUDA_gpu_detect_output ${nvcc_out} CACHE INTERNAL "Returned GPU architetures from detect_installed_gpus tool" FORCE)
-    endif()
-  endif()
-  if(NOT CUDA_gpu_detect_output)
-    message(STATUS "Automatic GPU detection failed. Building for all known architectures.")
-    set(${out_variable} ${paddle_known_gpu_archs} PARENT_SCOPE)
-  else()
-    set(${out_variable} ${CUDA_gpu_detect_output} PARENT_SCOPE)
-  endif()
-endfunction()
-########################################################################
-# Function for selecting GPU arch flags for nvcc based on CUDA_ARCH_NAME
-# Usage:
-#   select_nvcc_arch_flags(out_variable)
-function(select_nvcc_arch_flags out_variable)
-  # List of arch names
-  set(archs_names "Kepler" "Maxwell" "Pascal" "Volta" "Turing" "All" "Manual")
-  set(archs_name_default "All")
-  list(APPEND archs_names "Auto")
-  # set CUDA_ARCH_NAME strings (so it will be seen as dropbox in CMake-Gui)
-  set(CUDA_ARCH_NAME ${archs_name_default} CACHE STRING "Select target NVIDIA GPU achitecture.")
-  set_property( CACHE CUDA_ARCH_NAME PROPERTY STRINGS "" ${archs_names} )
-  mark_as_advanced(CUDA_ARCH_NAME)
-  # verify CUDA_ARCH_NAME value
-  if(NOT ";${archs_names};" MATCHES ";${CUDA_ARCH_NAME};")
-    string(REPLACE ";" ", " archs_names "${archs_names}")
-    message(FATAL_ERROR "Only ${archs_names} architeture names are supported.")
-  endif()
-  if(${CUDA_ARCH_NAME} STREQUAL "Manual")
-    set(CUDA_ARCH_BIN ${paddle_known_gpu_archs} CACHE STRING "Specify 'real' GPU architectures to build binaries for, BIN(PTX) format is supported")
-    set(CUDA_ARCH_PTX "50"                     CACHE STRING "Specify 'virtual' PTX architectures to build PTX intermediate code for")
-    mark_as_advanced(CUDA_ARCH_BIN CUDA_ARCH_PTX)
-  else()
-    unset(CUDA_ARCH_BIN CACHE)
-    unset(CUDA_ARCH_PTX CACHE)
-  endif()
-  if(${CUDA_ARCH_NAME} STREQUAL "Kepler")
-    set(cuda_arch_bin "30 35")
-  elseif(${CUDA_ARCH_NAME} STREQUAL "Maxwell")
-    set(cuda_arch_bin "50")
-  elseif(${CUDA_ARCH_NAME} STREQUAL "Pascal")
-    set(cuda_arch_bin "60 61")
-  elseif(${CUDA_ARCH_NAME} STREQUAL "Volta")
-    set(cuda_arch_bin "70")
-  elseif(${CUDA_ARCH_NAME} STREQUAL "Turing")
-    set(cuda_arch_bin "75")
-  elseif(${CUDA_ARCH_NAME} STREQUAL "All")
-    set(cuda_arch_bin ${paddle_known_gpu_archs})
-  elseif(${CUDA_ARCH_NAME} STREQUAL "Auto")
-    detect_installed_gpus(cuda_arch_bin)
-  else()  # (${CUDA_ARCH_NAME} STREQUAL "Manual")
-    set(cuda_arch_bin ${CUDA_ARCH_BIN})
-  endif()
-  # remove dots and convert to lists
-  string(REGEX REPLACE "\\." "" cuda_arch_bin "${cuda_arch_bin}")
-  string(REGEX REPLACE "\\." "" cuda_arch_ptx "${CUDA_ARCH_PTX}")
-  string(REGEX MATCHALL "[0-9()]+" cuda_arch_bin "${cuda_arch_bin}")
-  string(REGEX MATCHALL "[0-9]+"   cuda_arch_ptx "${cuda_arch_ptx}")
-  list(REMOVE_DUPLICATES cuda_arch_bin)
-  list(REMOVE_DUPLICATES cuda_arch_ptx)
-  set(nvcc_flags "")
-  set(nvcc_archs_readable "")
-  # Tell NVCC to add binaries for the specified GPUs
-  foreach(arch ${cuda_arch_bin})
-    if(arch MATCHES "([0-9]+)\\(([0-9]+)\\)")
-      # User explicitly specified PTX for the concrete BIN
-      list(APPEND nvcc_flags -gencode arch=compute_${CMAKE_MATCH_2},code=sm_${CMAKE_MATCH_1})
-      list(APPEND nvcc_archs_readable sm_${CMAKE_MATCH_1})
-    else()
-      # User didn't explicitly specify PTX for the concrete BIN, we assume PTX=BIN
-      list(APPEND nvcc_flags -gencode arch=compute_${arch},code=sm_${arch})
-      list(APPEND nvcc_archs_readable sm_${arch})
-    endif()
-  endforeach()
-  # Tell NVCC to add PTX intermediate code for the specified architectures
-  foreach(arch ${cuda_arch_ptx})
-    list(APPEND nvcc_flags -gencode arch=compute_${arch},code=compute_${arch})
-    list(APPEND nvcc_archs_readable compute_${arch})
-  endforeach()
-  string(REPLACE ";" " " nvcc_archs_readable "${nvcc_archs_readable}")
-  set(${out_variable}          ${nvcc_flags}          PARENT_SCOPE)
-  set(${out_variable}_readable ${nvcc_archs_readable} PARENT_SCOPE)
-endfunction()
-message(STATUS "CUDA detected: " ${CUDA_VERSION})
-if (${CUDA_VERSION} LESS 7.0)
-  set(paddle_known_gpu_archs ${paddle_known_gpu_archs})
-  add_definitions("-DPADDLE_CUDA_BINVER=\"60\"")
-elseif (${CUDA_VERSION} LESS 8.0) # CUDA 7.x
-  set(paddle_known_gpu_archs ${paddle_known_gpu_archs7})
-  list(APPEND CUDA_NVCC_FLAGS "-D_MWAITXINTRIN_H_INCLUDED")
-  list(APPEND CUDA_NVCC_FLAGS "-D__STRICT_ANSI__")
-  add_definitions("-DPADDLE_CUDA_BINVER=\"70\"")
-elseif (${CUDA_VERSION} LESS 9.0) # CUDA 8.x
-  set(paddle_known_gpu_archs ${paddle_known_gpu_archs8})
-  list(APPEND CUDA_NVCC_FLAGS "-D_MWAITXINTRIN_H_INCLUDED")
-  list(APPEND CUDA_NVCC_FLAGS "-D__STRICT_ANSI__")
-  # CUDA 8 may complain that sm_20 is no longer supported. Suppress the
-  # warning for now.
-  list(APPEND CUDA_NVCC_FLAGS "-Wno-deprecated-gpu-targets")
-  add_definitions("-DPADDLE_CUDA_BINVER=\"80\"")
-elseif (${CUDA_VERSION} LESS 10.0) # CUDA 9.x
-  set(paddle_known_gpu_archs ${paddle_known_gpu_archs9})
-  list(APPEND CUDA_NVCC_FLAGS "-D_MWAITXINTRIN_H_INCLUDED")
-  list(APPEND CUDA_NVCC_FLAGS "-D__STRICT_ANSI__")
-  add_definitions("-DPADDLE_CUDA_BINVER=\"90\"")
-elseif (${CUDA_VERSION} LESS 11.0) # CUDA 10.x
-  set(paddle_known_gpu_archs ${paddle_known_gpu_archs10})
-  list(APPEND CUDA_NVCC_FLAGS "-D_MWAITXINTRIN_H_INCLUDED")
-  list(APPEND CUDA_NVCC_FLAGS "-D__STRICT_ANSI__")
-  add_definitions("-DPADDLE_CUDA_BINVER=\"100\"")
-endif()
-include_directories(${CUDA_INCLUDE_DIRS})
-if(NOT WITH_DSO)
-    if(WIN32)
-      set_property(GLOBAL PROPERTY CUDA_MODULES ${CUDNN_LIBRARY} ${CUDA_CUBLAS_LIBRARIES} ${CUDA_curand_LIBRARY})
-    endif(WIN32)
-endif(NOT WITH_DSO)
-# setting nvcc arch flags
-select_nvcc_arch_flags(NVCC_FLAGS_EXTRA)
-list(APPEND CUDA_NVCC_FLAGS ${NVCC_FLAGS_EXTRA})
-message(STATUS "Added CUDA NVCC flags for: ${NVCC_FLAGS_EXTRA_readable}")
-# Set C++11 support
-set(CUDA_PROPAGATE_HOST_FLAGS OFF)
-# Release/Debug flags set by cmake. Such as -O3 -g -DNDEBUG etc.
-# So, don't set these flags here.
-if (NOT WIN32) # windows msvc2015 support c++11 natively. 
-# -std=c++11 -fPIC not recoginize by msvc, -Xcompiler will be added by cmake.
-list(APPEND CUDA_NVCC_FLAGS "-std=c++11")
-list(APPEND CUDA_NVCC_FLAGS "-Xcompiler -fPIC")
-endif(NOT WIN32)
-if(WITH_FAST_MATH)
-  # Make use of fast math library. https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html
-  list(APPEND CUDA_NVCC_FLAGS "--use_fast_math")
-endif()
-# in cuda9, suppress cuda warning on eigen 
-list(APPEND CUDA_NVCC_FLAGS "-w")
-# Set :expt-relaxed-constexpr to suppress Eigen warnings
-list(APPEND CUDA_NVCC_FLAGS "--expt-relaxed-constexpr")
-if (NOT WIN32)
-  if(CMAKE_BUILD_TYPE  STREQUAL "Debug")
-      list(APPEND CUDA_NVCC_FLAGS  ${CMAKE_CXX_FLAGS_DEBUG})
-  elseif(CMAKE_BUILD_TYPE  STREQUAL "Release")
-      list(APPEND CUDA_NVCC_FLAGS  ${CMAKE_CXX_FLAGS_RELEASE})
-  elseif(CMAKE_BUILD_TYPE  STREQUAL "RelWithDebInfo")
-      list(APPEND CUDA_NVCC_FLAGS  ${CMAKE_CXX_FLAGS_RELWITHDEBINFO})
-  elseif(CMAKE_BUILD_TYPE  STREQUAL "MinSizeRel")
-      # nvcc 9 does not support -Os. Use Release flags instead
-      list(APPEND CUDA_NVCC_FLAGS  ${CMAKE_CXX_FLAGS_RELEASE})
-  endif()
-else(NOT WIN32)
-  list(APPEND CUDA_NVCC_FLAGS  "-Xcompiler \"/wd 4244 /wd 4267 /wd 4819\"")
-  list(APPEND CUDA_NVCC_FLAGS  "--compiler-options;/bigobj")
-  if(CMAKE_BUILD_TYPE  STREQUAL "Debug")
-    list(APPEND CUDA_NVCC_FLAGS  "-g -G")
-    # match the cl's _ITERATOR_DEBUG_LEVEL
-    list(APPEND CUDA_NVCC_FLAGS  "-D_DEBUG")
-  elseif(CMAKE_BUILD_TYPE STREQUAL "Release")
-    list(APPEND CUDA_NVCC_FLAGS "-O3 -DNDEBUG")
-  else()
-  message(FATAL "Windows only support Release or Debug build now. Please set visual studio build type to Release/Debug, x64 build.")
-endif()
-endif(NOT WIN32)
-mark_as_advanced(CUDA_BUILD_CUBIN CUDA_BUILD_EMULATION CUDA_VERBOSE_BUILD)
-mark_as_advanced(CUDA_SDK_ROOT_DIR CUDA_SEPARABLE_COMPILATION)
--- a/cmake/cudnn.cmake
+++ b/cmake/cudnn.cmake
-if(NOT LITE_WITH_CUDA)
-    return()
-endif()
-if(WIN32)
-    set(CUDNN_ROOT ${CUDA_TOOLKIT_ROOT_DIR})
-else(WIN32)
-    set(CUDNN_ROOT "/usr" CACHE PATH "CUDNN ROOT")
-endif(WIN32)
-find_path(CUDNN_INCLUDE_DIR cudnn.h
-    PATHS ${CUDNN_ROOT} ${CUDNN_ROOT}/include
-    $ENV{CUDNN_ROOT} $ENV{CUDNN_ROOT}/include ${CUDA_TOOLKIT_INCLUDE}
-    NO_DEFAULT_PATH
-)
-get_filename_component(__libpath_hist ${CUDA_CUDART_LIBRARY} PATH)
-set(TARGET_ARCH "x86_64")
-if(NOT ${CMAKE_SYSTEM_PROCESSOR})
-    set(TARGET_ARCH ${CMAKE_SYSTEM_PROCESSOR})
-endif()
-list(APPEND CUDNN_CHECK_LIBRARY_DIRS
-    ${CUDNN_ROOT}
-    ${CUDNN_ROOT}/lib64
-    ${CUDNN_ROOT}/lib
-    ${CUDNN_ROOT}/lib/${TARGET_ARCH}-linux-gnu
-    ${CUDNN_ROOT}/local/cuda-${CUDA_VERSION}/targets/${TARGET_ARCH}-linux/lib/
-    $ENV{CUDNN_ROOT}
-    $ENV{CUDNN_ROOT}/lib64
-    $ENV{CUDNN_ROOT}/lib
-    /usr/lib
-	${CUDA_TOOLKIT_ROOT_DIR}
-	${CUDA_TOOLKIT_ROOT_DIR}/lib/x64
-	)
-set(CUDNN_LIB_NAME "libcudnn.so")
-if(WIN32)
-# only support cudnn7
-set(CUDNN_LIB_NAME "cudnn.lib" "cudnn64_7.dll")
-endif(WIN32)
-if(APPLE)
-set(CUDNN_LIB_NAME "libcudnn.dylib" "libcudnn.so")
-endif(APPLE)
-find_library(CUDNN_LIBRARY NAMES ${CUDNN_LIB_NAME} # libcudnn_static.a
-    PATHS ${CUDNN_CHECK_LIBRARY_DIRS} ${CUDNN_INCLUDE_DIR} ${__libpath_hist}
-          NO_DEFAULT_PATH
-    DOC "Path to cuDNN library.")
-if(CUDNN_INCLUDE_DIR AND CUDNN_LIBRARY)
-    set(CUDNN_FOUND ON)
-else()
-    set(CUDNN_FOUND OFF)
-endif()
-if(CUDNN_FOUND)
-    file(READ ${CUDNN_INCLUDE_DIR}/cudnn.h CUDNN_VERSION_FILE_CONTENTS)
-    get_filename_component(CUDNN_LIB_PATH ${CUDNN_LIBRARY} DIRECTORY)
-    string(REGEX MATCH "define CUDNN_VERSION +([0-9]+)"
-        CUDNN_VERSION "${CUDNN_VERSION_FILE_CONTENTS}")
-    string(REGEX REPLACE "define CUDNN_VERSION +([0-9]+)" "\\1"
-        CUDNN_VERSION "${CUDNN_VERSION}")
-    if("${CUDNN_VERSION}" STREQUAL "2000")
-        message(STATUS "Current cuDNN version is v2. ")
-    else()
-        string(REGEX MATCH "define CUDNN_MAJOR +([0-9]+)" CUDNN_MAJOR_VERSION
-            "${CUDNN_VERSION_FILE_CONTENTS}")
-        string(REGEX REPLACE "define CUDNN_MAJOR +([0-9]+)" "\\1"
-            CUDNN_MAJOR_VERSION "${CUDNN_MAJOR_VERSION}")
-        string(REGEX MATCH "define CUDNN_MINOR +([0-9]+)" CUDNN_MINOR_VERSION
-            "${CUDNN_VERSION_FILE_CONTENTS}")
-        string(REGEX REPLACE "define CUDNN_MINOR +([0-9]+)" "\\1"
-            CUDNN_MINOR_VERSION "${CUDNN_MINOR_VERSION}")
-        string(REGEX MATCH "define CUDNN_PATCHLEVEL +([0-9]+)"
-            CUDNN_PATCHLEVEL_VERSION "${CUDNN_VERSION_FILE_CONTENTS}")
-        string(REGEX REPLACE "define CUDNN_PATCHLEVEL +([0-9]+)" "\\1"
-            CUDNN_PATCHLEVEL_VERSION "${CUDNN_PATCHLEVEL_VERSION}")
-        if(NOT CUDNN_MAJOR_VERSION)
-            set(CUDNN_VERSION "???")
-        else()
-            add_definitions("-DPADDLE_CUDNN_BINVER=\"${CUDNN_MAJOR_VERSION}\"")
-            math(EXPR CUDNN_VERSION
-                "${CUDNN_MAJOR_VERSION} * 1000 +
-                 ${CUDNN_MINOR_VERSION} * 100 + ${CUDNN_PATCHLEVEL_VERSION}")
-        endif()
-        message(STATUS "Current cuDNN header is ${CUDNN_INCLUDE_DIR}/cudnn.h. "
-            "Current cuDNN version is v${CUDNN_MAJOR_VERSION}. ")
-    endif()
-endif()
--- a/cmake/cupti.cmake
+++ b/cmake/cupti.cmake
-if(NOT WITH_GPU)
-    return()
-endif()
-set(CUPTI_ROOT "/usr" CACHE PATH "CUPTI ROOT")
-find_path(CUPTI_INCLUDE_DIR cupti.h
-        PATHS ${CUPTI_ROOT} ${CUPTI_ROOT}/include
-        $ENV{CUPTI_ROOT} $ENV{CUPTI_ROOT}/include
-        ${CUDA_TOOLKIT_ROOT_DIR}/extras/CUPTI/include
-        NO_DEFAULT_PATH
-        )
-get_filename_component(__libpath_hist ${CUDA_CUDART_LIBRARY} PATH)
-set(TARGET_ARCH "x86_64")
-if(NOT ${CMAKE_SYSTEM_PROCESSOR})
-    set(TARGET_ARCH ${CMAKE_SYSTEM_PROCESSOR})
-endif()
-list(APPEND CUPTI_CHECK_LIBRARY_DIRS
-        ${CUPTI_ROOT}
-        ${CUPTI_ROOT}/lib64
-        ${CUPTI_ROOT}/lib
-        ${CUPTI_ROOT}/lib/${TARGET_ARCH}-linux-gnu
-        $ENV{CUPTI_ROOT}
-        $ENV{CUPTI_ROOT}/lib64
-        $ENV{CUPTI_ROOT}/lib
-        /usr/lib
-        ${CUDA_TOOLKIT_ROOT_DIR}/extras/CUPTI/lib64)
-find_library(CUPTI_LIBRARY NAMES libcupti.so libcupti.dylib # libcupti_static.a
-       PATHS ${CUPTI_CHECK_LIBRARY_DIRS} ${CUPTI_INCLUDE_DIR} ${__libpath_hist}
-       NO_DEFAULT_PATH
-       DOC "Path to cuPTI library.")
-get_filename_component(CUPTI_LIBRARY_PATH ${CUPTI_LIBRARY} DIRECTORY)
-if(CUPTI_INCLUDE_DIR AND CUPTI_LIBRARY)
-    set(CUPTI_FOUND ON)
-else()
-    set(CUPTI_FOUND OFF)
-endif()
--- a/cmake/external/eigen.cmake
+++ b/cmake/external/eigen.cmake
-INCLUDE(ExternalProject)
-SET(EIGEN_SOURCE_DIR ${THIRD_PARTY_PATH}/eigen3)
-SET(EIGEN_INCLUDE_DIR ${EIGEN_SOURCE_DIR}/src/extern_eigen3)
-INCLUDE_DIRECTORIES(${EIGEN_INCLUDE_DIR})
-if(NOT WITH_FAST_MATH)
-  # EIGEN_FAST_MATH: https://eigen.tuxfamily.org/dox/TopicPreprocessorDirectives.html
-  # enables some optimizations which might affect the accuracy of the result.
-  # This currently enables the SSE vectorization of sin() and cos(),
-  # and speedups sqrt() for single precision.
-  # Defined to 1 by default. Define it to 0 to disable.
-  add_definitions(-DEIGEN_FAST_MATH=0)
-endif()
-if(WITH_AMD_GPU)
-    ExternalProject_Add(
-        extern_eigen3
-        ${EXTERNAL_PROJECT_LOG_ARGS}
-        GIT_REPOSITORY  "https://github.com/sabreshao/hipeigen.git"
-        GIT_TAG         7cb2b6e5a4b4a1efe658abb215cd866c6fb2275e
-        PREFIX          ${EIGEN_SOURCE_DIR}
-        UPDATE_COMMAND  ""
-        CONFIGURE_COMMAND ""
-        BUILD_COMMAND     ""
-        INSTALL_COMMAND   ""
-        TEST_COMMAND      ""
-    )
-else()
-    ExternalProject_Add(
-        extern_eigen3
-        ${EXTERNAL_PROJECT_LOG_ARGS}
-        GIT_REPOSITORY  "https://github.com/eigenteam/eigen-git-mirror"
-        # eigen on cuda9.1 missing header of math_funtions.hpp
-        # https://stackoverflow.com/questions/43113508/math-functions-hpp-not-found-when-using-cuda-with-eigen
-        GIT_TAG         917060c364181f33a735dc023818d5a54f60e54c
-        PREFIX          ${EIGEN_SOURCE_DIR}
-        DOWNLOAD_NAME   "eigen"
-        UPDATE_COMMAND  ""
-        CONFIGURE_COMMAND ""
-        BUILD_COMMAND     ""
-        INSTALL_COMMAND   ""
-        TEST_COMMAND      ""
-    )
-endif()
-if (${CMAKE_VERSION} VERSION_LESS "3.3.0")
-    set(dummyfile ${CMAKE_CURRENT_BINARY_DIR}/eigen3_dummy.c)
-    file(WRITE ${dummyfile} "const char *dummy_eigen3 = \"${dummyfile}\";")
-    add_library(eigen3 STATIC ${dummyfile})
-else()
-    add_library(eigen3 INTERFACE)
-endif()
-add_dependencies(eigen3 extern_eigen3)
--- a/cmake/external/gflags.cmake
+++ b/cmake/external/gflags.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-INCLUDE(ExternalProject)
-SET(GFLAGS_SOURCES_DIR ${CMAKE_SOURCE_DIR}/third-party/gflags)
-SET(GFLAGS_INSTALL_DIR ${THIRD_PARTY_PATH}/install/gflags)
-SET(GFLAGS_INCLUDE_DIR "${GFLAGS_INSTALL_DIR}/include" CACHE PATH "gflags include directory." FORCE)
-IF(WIN32)
-  set(GFLAGS_LIBRARIES "${GFLAGS_INSTALL_DIR}/lib/libgflags.lib" CACHE FILEPATH "GFLAGS_LIBRARIES" FORCE)
-ELSE(WIN32)
-  set(GFLAGS_LIBRARIES "${GFLAGS_INSTALL_DIR}/lib/libgflags.a" CACHE FILEPATH "GFLAGS_LIBRARIES" FORCE)
-ENDIF(WIN32)
-INCLUDE_DIRECTORIES(${GFLAGS_INCLUDE_DIR})
-SET(OPTIONAL_ARGS "-DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}"
-                  "-DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}"
-                  "-DCMAKE_CXX_FLAGS=${CMAKE_CXX_FLAGS}"
-                  "-DCMAKE_CXX_FLAGS_RELEASE=${CMAKE_CXX_FLAGS_RELEASE}"
-                  "-DCMAKE_CXX_FLAGS_DEBUG=${CMAKE_CXX_FLAGS_DEBUG}"
-                  "-DCMAKE_C_FLAGS=${CMAKE_C_FLAGS}"
-                  "-DCMAKE_C_FLAGS_DEBUG=${CMAKE_C_FLAGS_DEBUG}"
-                  "-DCMAKE_C_FLAGS_RELEASE=${CMAKE_C_FLAGS_RELEASE}")
-ExternalProject_Add(
-    extern_gflags
-    ${EXTERNAL_PROJECT_LOG_ARGS}
-    GIT_REPOSITORY  ""
-    GIT_TAG         77592648e3f3be87d6c7123eb81cbad75f9aef5a
-    SOURCE_DIR      ${GFLAGS_SOURCES_DIR}
-    PREFIX          ${GFLAGS_INCLUDE_DIR}
-    UPDATE_COMMAND  ""
-    CMAKE_ARGS      -DBUILD_STATIC_LIBS=ON
-                    -DCMAKE_INSTALL_PREFIX=${GFLAGS_INSTALL_DIR}
-                    -DCMAKE_POSITION_INDEPENDENT_CODE=ON
-                    -DBUILD_TESTING=OFF
-                    -DCMAKE_BUILD_TYPE=${THIRD_PARTY_BUILD_TYPE}
-                    ${CROSS_COMPILE_CMAKE_ARGS}
-                    ${OPTIONAL_ARGS}
-                    ${EXTERNAL_OPTIONAL_ARGS}
-    CMAKE_CACHE_ARGS -DCMAKE_INSTALL_PREFIX:PATH=${GFLAGS_INSTALL_DIR}
-                     -DCMAKE_POSITION_INDEPENDENT_CODE:BOOL=ON
-                     -DCMAKE_BUILD_TYPE:STRING=${THIRD_PARTY_BUILD_TYPE}
-)
-IF(WIN32)
-  IF(NOT EXISTS "${GFLAGS_INSTALL_DIR}/lib/libgflags.lib")
-    add_custom_command(TARGET extern_gflags POST_BUILD
-            COMMAND cmake -E copy ${GFLAGS_INSTALL_DIR}/lib/gflags_static.lib ${GFLAGS_INSTALL_DIR}/lib/libgflags.lib
-            )
-  ENDIF()
-ENDIF(WIN32)
-ADD_LIBRARY(gflags STATIC IMPORTED GLOBAL)
-SET_PROPERTY(TARGET gflags PROPERTY IMPORTED_LOCATION ${GFLAGS_LIBRARIES})
-ADD_DEPENDENCIES(gflags extern_gflags)
-# On Windows (including MinGW), the Shlwapi library is used by gflags if available.
-if (WIN32)
-  include(CheckIncludeFileCXX)
-  check_include_file_cxx("shlwapi.h" HAVE_SHLWAPI)
-  if (HAVE_SHLWAPI)
-    set_property(GLOBAL PROPERTY OS_DEPENDENCY_MODULES shlwapi.lib)
-  endif(HAVE_SHLWAPI)
-endif (WIN32)
--- a/cmake/external/glog.cmake
+++ b/cmake/external/glog.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-INCLUDE(ExternalProject)
-SET(GLOG_SOURCES_DIR ${THIRD_PARTY_PATH}/glog)
-SET(GLOG_INSTALL_DIR ${THIRD_PARTY_PATH}/install/glog)
-SET(GLOG_INCLUDE_DIR "${GLOG_INSTALL_DIR}/include" CACHE PATH "glog include directory." FORCE)
-IF(WIN32)
-  SET(GLOG_LIBRARIES "${GLOG_INSTALL_DIR}/lib/libglog.lib" CACHE FILEPATH "glog library." FORCE)
-  SET(GLOG_CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} /wd4267 /wd4530")
-ELSE(WIN32)
-  SET(GLOG_LIBRARIES "${GLOG_INSTALL_DIR}/lib/libglog.a" CACHE FILEPATH "glog library." FORCE)
-  SET(GLOG_CMAKE_CXX_FLAGS ${CMAKE_CXX_FLAGS})
-ENDIF(WIN32)
-INCLUDE_DIRECTORIES(${GLOG_INCLUDE_DIR})
-SET(GLOG_REPOSITORY "https://github.com/google/glog.git")
-SET(GLOG_TAG "v0.3.5")
-SET(OPTIONAL_ARGS "-DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}"
-                  "-DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}"
-                  "-DCMAKE_CXX_FLAGS=${CMAKE_CXX_FLAGS}"
-                  "-DCMAKE_CXX_FLAGS_RELEASE=${CMAKE_CXX_FLAGS_RELEASE}"
-                  "-DCMAKE_CXX_FLAGS_DEBUG=${CMAKE_CXX_FLAGS_DEBUG}"
-                  "-DCMAKE_C_FLAGS=${CMAKE_C_FLAGS}"
-                  "-DCMAKE_C_FLAGS_DEBUG=${CMAKE_C_FLAGS_DEBUG}"
-                  "-DCMAKE_C_FLAGS_RELEASE=${CMAKE_C_FLAGS_RELEASE}")
-ExternalProject_Add(
-    extern_glog
-    ${EXTERNAL_PROJECT_LOG_ARGS}
-    DEPENDS gflags
-    GIT_REPOSITORY  ${GLOG_REPOSITORY}
-    GIT_TAG         ${GLOG_TAG}
-    PREFIX          ${GLOG_SOURCES_DIR}
-    UPDATE_COMMAND  ""
-    CMAKE_ARGS      ${CROSS_COMPILE_CMAKE_ARGS}
-                    ${OPTIONAL_ARGS}
-                    -DCMAKE_INSTALL_PREFIX=${GLOG_INSTALL_DIR}
-                    -DCMAKE_INSTALL_LIBDIR=${GLOG_INSTALL_DIR}/lib
-                    -DCMAKE_POSITION_INDEPENDENT_CODE=ON
-                    -DWITH_GFLAGS=ON
-                    -Dgflags_DIR=${GFLAGS_INSTALL_DIR}/lib/cmake/gflags
-                    -DBUILD_TESTING=OFF
-                    -DCMAKE_BUILD_TYPE=${THIRD_PARTY_BUILD_TYPE}
-                    ${EXTERNAL_OPTIONAL_ARGS}
-    CMAKE_CACHE_ARGS -DCMAKE_INSTALL_PREFIX:PATH=${GLOG_INSTALL_DIR}
-                     -DCMAKE_INSTALL_LIBDIR:PATH=${GLOG_INSTALL_DIR}/lib
-                     -DCMAKE_POSITION_INDEPENDENT_CODE:BOOL=ON
-                     -DCMAKE_BUILD_TYPE:STRING=${THIRD_PARTY_BUILD_TYPE}
-)
-IF(WIN32)
-  IF(NOT EXISTS "${GLOG_INSTALL_DIR}/lib/libglog.lib")
-    add_custom_command(TARGET extern_glog POST_BUILD
-    COMMAND cmake -E copy ${GLOG_INSTALL_DIR}/lib/glog.lib ${GLOG_INSTALL_DIR}/lib/libglog.lib
-  )
-  ENDIF()
-ENDIF(WIN32)
-ADD_LIBRARY(glog STATIC IMPORTED GLOBAL)
-SET_PROPERTY(TARGET glog PROPERTY IMPORTED_LOCATION ${GLOG_LIBRARIES})
-ADD_DEPENDENCIES(glog extern_glog gflags)
-LINK_LIBRARIES(glog gflags)
--- a/cmake/external/gtest.cmake
+++ b/cmake/external/gtest.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# the gtest is only used when WITH_TESTING=ON
-IF(WITH_TESTING)
-    IF(WITH_TESTING)
-        ENABLE_TESTING()
-    ENDIF(WITH_TESTING)
-    INCLUDE(ExternalProject)
-    SET(GTEST_SOURCES_DIR ${CMAKE_SOURCE_DIR}/third-party/googletest)
-    SET(GTEST_INSTALL_DIR ${THIRD_PARTY_PATH}/install/gtest)
-    SET(GTEST_INCLUDE_DIR "${GTEST_INSTALL_DIR}/include" CACHE PATH "gtest include directory." FORCE)
-    INCLUDE_DIRECTORIES(${GTEST_INCLUDE_DIR})
-    IF(WIN32)
-        set(GTEST_LIBRARIES
-            "${GTEST_INSTALL_DIR}/lib/gtest.lib" CACHE FILEPATH "gtest libraries." FORCE)
-        set(GTEST_MAIN_LIBRARIES
-            "${GTEST_INSTALL_DIR}/lib/gtest_main.lib" CACHE FILEPATH "gtest main libraries." FORCE)
-    ELSE(WIN32)
-        set(GTEST_LIBRARIES
-            "${GTEST_INSTALL_DIR}/lib/libgtest.a" CACHE FILEPATH "gtest libraries." FORCE)
-        set(GTEST_MAIN_LIBRARIES
-            "${GTEST_INSTALL_DIR}/lib/libgtest_main.a" CACHE FILEPATH "gtest main libraries." FORCE)
-    ENDIF(WIN32)
-    IF(WITH_MKLML)
-        # wait for mklml downloading completed
-        SET(GTEST_DEPENDS   ${MKLML_PROJECT})
-    ENDIF()
-    SET(OPTIONAL_ARGS "-DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}"
-        "-DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}"
-        "-DCMAKE_CXX_FLAGS=${CMAKE_CXX_FLAGS}"
-        "-DCMAKE_CXX_FLAGS_RELEASE=${CMAKE_CXX_FLAGS_RELEASE}"
-        "-DCMAKE_CXX_FLAGS_DEBUG=${CMAKE_CXX_FLAGS_DEBUG}"
-        "-DCMAKE_C_FLAGS=${CMAKE_C_FLAGS}"
-        "-DCMAKE_C_FLAGS_DEBUG=${CMAKE_C_FLAGS_DEBUG}"
-        "-DCMAKE_C_FLAGS_RELEASE=${CMAKE_C_FLAGS_RELEASE}")
-    ExternalProject_Add(
-        extern_gtest
-        ${EXTERNAL_PROJECT_LOG_ARGS}
-        DEPENDS         ${GTEST_DEPENDS}
-        GIT_REPOSITORY  ""
-        SOURCE_DIR      ${GTEST_SOURCES_DIR}
-        GIT_TAG         "release-1.8.0"
-        PREFIX          ${GTEST_INSTALL_DIR}
-        UPDATE_COMMAND  ""
-        CMAKE_ARGS      ${CROSS_COMPILE_CMAKE_ARGS}
-                        ${OPTIONAL_ARGS}
-                        -DCMAKE_INSTALL_PREFIX=${GTEST_INSTALL_DIR}
-                        -DCMAKE_POSITION_INDEPENDENT_CODE=ON
-                        -DBUILD_GMOCK=ON
-                        -Dgtest_disable_pthreads=ON
-                        -Dgtest_force_shared_crt=ON
-                        -DCMAKE_BUILD_TYPE=${THIRD_PARTY_BUILD_TYPE}
-                        ${EXTERNAL_OPTIONAL_ARGS}
-        CMAKE_CACHE_ARGS -DCMAKE_INSTALL_PREFIX:PATH=${GTEST_INSTALL_DIR}
-                         -DCMAKE_POSITION_INDEPENDENT_CODE:BOOL=ON
-                         -DCMAKE_BUILD_TYPE:STRING=${THIRD_PARTY_BUILD_TYPE}
-    )
-    ADD_LIBRARY(gtest STATIC IMPORTED GLOBAL)
-    SET_PROPERTY(TARGET gtest PROPERTY IMPORTED_LOCATION ${GTEST_LIBRARIES})
-    ADD_DEPENDENCIES(gtest extern_gtest)
-    ADD_LIBRARY(gtest_main STATIC IMPORTED GLOBAL)
-    SET_PROPERTY(TARGET gtest_main PROPERTY IMPORTED_LOCATION ${GTEST_MAIN_LIBRARIES})
-    ADD_DEPENDENCIES(gtest_main extern_gtest)
-ENDIF()
--- a/cmake/external/libxsmm.cmake
+++ b/cmake/external/libxsmm.cmake
-# Copyright (c) 2018 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-#
-OPTION(WITH_LIBXSMM "Compile with libxsmm" OFF)
-IF(NOT WITH_LIBXSMM)
-    return()
-ENDIF()
-IF(WIN32 OR APPLE)
-    MESSAGE(WARNING "Windows, Mac are not supported with libxsmm in Paddle yet.")
-    SET(WITH_LIBXSMM OFF CACHE STRING "Disable LIBXSMM" FORCE)
-    return()
-ENDIF()
-INCLUDE (ExternalProject)
-SET(LIBXSMM_SOURCES_DIR ${THIRD_PARTY_PATH}/libxsmm)
-SET(LIBXSMM_INSTALL_DIR ${THIRD_PARTY_PATH}/install/libxsmm)
-SET(LIBXSMM_INCLUDE_DIR "${LIBXSMM_INSTALL_DIR}/include" CACHE PATH "LIBXSMM include directory." FORCE)
-SET(LIBXSMM_LIBRARY_DIR "${LIBXSMM_INSTALL_DIR}/lib" CACHE PATH "LIBXSMM library directory." FORCE)
-SET(LIBXSMM_LIBS        "${LIBXSMM_LIBRARY_DIR}/libxsmm.a"
-                        "${LIBXSMM_LIBRARY_DIR}/libxsmmnoblas.a")
-ExternalProject_Add(
-    extern_libxsmm
-    GIT_REPOSITORY  "https://github.com/hfp/libxsmm.git"
-    GIT_TAG         "7cc03b5b342fdbc6b6d990b190671c5dbb8489a2"
-    PREFIX          ${LIBXSMM_SOURCES_DIR}
-    UPDATE_COMMAND  ""
-    CONFIGURE_COMMAND ""
-    BUILD_IN_SOURCE 1
-    BUILD_COMMAND   $(MAKE) --silent PREFIX=${LIBXSMM_INSTALL_DIR} CXX=g++ CC=gcc WARP=0 install
-    INSTALL_COMMAND ""
-)
-ADD_LIBRARY(libxsmm STATIC IMPORTED GLOBAL)
-SET_PROPERTY(TARGET libxsmm PROPERTY IMPORTED_LOCATION "${LIBXSMM_LIBRARY_DIR}/libxsmm.a")
-SET_PROPERTY(TARGET libxsmm PROPERTY IMPORTED_LOCATION "${LIBXSMM_LIBRARY_DIR}/libxsmmnoblas.a")
-MESSAGE(STATUS "Libxsmm library: ${LIBXSMM_LIBS}")
-include_directories(${LIBXSMM_INCLUDE_DIR})
-ADD_DEFINITIONS(-DPADDLE_WITH_LIBXSMM)
-ADD_DEPENDENCIES(libxsmm extern_libxsmm)
--- a/cmake/external/mkldnn.cmake
+++ b/cmake/external/mkldnn.cmake
-# Copyright (c) 2017 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-IF(NOT ${WITH_MKLDNN})
-  return()
-ENDIF(NOT ${WITH_MKLDNN})
-INCLUDE(ExternalProject)
-SET(MKLDNN_PROJECT        "extern_mkldnn")
-SET(MKLDNN_SOURCES_DIR    ${THIRD_PARTY_PATH}/mkldnn)
-SET(MKLDNN_INSTALL_DIR    ${THIRD_PARTY_PATH}/install/mkldnn)
-SET(MKLDNN_INC_DIR        "${MKLDNN_INSTALL_DIR}/include" CACHE PATH "mkldnn include directory." FORCE)
-IF(APPLE)
-    MESSAGE(WARNING
-        "Mac is not supported with MKLDNN in Paddle yet."
-        "Force WITH_MKLDNN=OFF")
-    SET(WITH_MKLDNN OFF CACHE STRING "Disable MKLDNN in MacOS" FORCE)
-    return()
-ENDIF()
-# Introduce variables:
-# * CMAKE_INSTALL_LIBDIR
-INCLUDE(GNUInstallDirs)
-SET(LIBDIR "lib")
-if(CMAKE_INSTALL_LIBDIR MATCHES ".*lib64$")
-  SET(LIBDIR "lib64")
-endif()
-MESSAGE(STATUS "Set ${MKLDNN_INSTALL_DIR}/l${LIBDIR} to runtime path")
-SET(CMAKE_INSTALL_RPATH_USE_LINK_PATH TRUE)
-SET(CMAKE_INSTALL_RPATH "${CMAKE_INSTALL_RPATH}" "${MKLDNN_INSTALL_DIR}/${LIBDIR}")
-INCLUDE_DIRECTORIES(${MKLDNN_INC_DIR}) # For MKLDNN code to include internal headers.
-IF(${CBLAS_PROVIDER} STREQUAL "MKLML")
-    SET(MKLDNN_DEPENDS   ${MKLML_PROJECT})
-    MESSAGE(STATUS "Build MKLDNN with MKLML ${MKLML_ROOT}")
-ELSE()
-    MESSAGE(FATAL_ERROR "Should enable MKLML when build MKLDNN")
-ENDIF()
-IF(NOT WIN32)
-    SET(MKLDNN_FLAG "-Wno-error=strict-overflow -Wno-error=unused-result -Wno-error=array-bounds")
-    SET(MKLDNN_FLAG "${MKLDNN_FLAG} -Wno-unused-result -Wno-unused-value")
-    SET(MKLDNN_CFLAG "${CMAKE_C_FLAGS} ${MKLDNN_FLAG}")
-    SET(MKLDNN_CXXFLAG "${CMAKE_CXX_FLAGS} ${MKLDNN_FLAG}")
-ELSE()
-    SET(MKLDNN_CXXFLAG "${CMAKE_CXX_FLAGS} /EHsc")
-ENDIF(NOT WIN32)
-ExternalProject_Add(
-    ${MKLDNN_PROJECT}
-    ${EXTERNAL_PROJECT_LOG_ARGS}
-    DEPENDS             ${MKLDNN_DEPENDS}
-    GIT_REPOSITORY      "https://github.com/intel/mkl-dnn.git"
-    GIT_TAG             "863ff6e7042cec7d2e29897fe9f0872e0888b0fc"
-    PREFIX              ${MKLDNN_SOURCES_DIR}
-    UPDATE_COMMAND      ""
-    CMAKE_ARGS          -DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}
-    CMAKE_ARGS          -DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}
-    CMAKE_ARGS          -DCMAKE_CXX_FLAGS_RELEASE=${CMAKE_CXX_FLAGS_RELEASE}
-    CMAKE_ARGS          -DCMAKE_CXX_FLAGS_DEBUG=${CMAKE_CXX_FLAGS_DEBUG}
-    CMAKE_ARGS          -DCMAKE_C_FLAGS=${CMAKE_C_FLAGS}
-    CMAKE_ARGS          -DCMAKE_C_FLAGS_DEBUG=${CMAKE_C_FLAGS_DEBUG}
-    CMAKE_ARGS          -DCMAKE_C_FLAGS_RELEASE=${CMAKE_C_FLAGS_RELEASE}
-    CMAKE_ARGS          -DCMAKE_INSTALL_PREFIX=${MKLDNN_INSTALL_DIR}
-    CMAKE_ARGS          -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}
-    CMAKE_ARGS          -DCMAKE_POSITION_INDEPENDENT_CODE=ON
-    CMAKE_ARGS          -DMKLROOT=${MKLML_ROOT}
-    CMAKE_ARGS          -DCMAKE_C_FLAGS=${MKLDNN_CFLAG}
-    CMAKE_ARGS          -DCMAKE_CXX_FLAGS=${MKLDNN_CXXFLAG}
-    CMAKE_ARGS          -DWITH_TEST=OFF -DWITH_EXAMPLE=OFF
-    CMAKE_CACHE_ARGS    -DCMAKE_INSTALL_PREFIX:PATH=${MKLDNN_INSTALL_DIR}
-                        -DMKLROOT:PATH=${MKLML_ROOT}
-)
-if(WIN32)
-    SET(MKLDNN_LIB "${MKLDNN_INSTALL_DIR}/${LIBDIR}/mkldnn.lib" CACHE FILEPATH "mkldnn library." FORCE)
-else(WIN32)
-    SET(MKLDNN_LIB "${MKLDNN_INSTALL_DIR}/${LIBDIR}/libmkldnn.so" CACHE FILEPATH "mkldnn library." FORCE)
-endif(WIN32)
-ADD_LIBRARY(shared_mkldnn SHARED IMPORTED GLOBAL)
-SET_PROPERTY(TARGET shared_mkldnn PROPERTY IMPORTED_LOCATION ${MKLDNN_LIB})
-ADD_DEPENDENCIES(shared_mkldnn ${MKLDNN_PROJECT})
-MESSAGE(STATUS "MKLDNN library: ${MKLDNN_LIB}")
-add_definitions(-DPADDLE_WITH_MKLDNN)
-# generate a static dummy target to track mkldnn dependencies
-# for cc_library(xxx SRCS xxx.c DEPS mkldnn)
-SET(dummyfile ${CMAKE_CURRENT_BINARY_DIR}/mkldnn_dummy.c)
-FILE(WRITE ${dummyfile} "const char * dummy = \"${dummyfile}\";")
-ADD_LIBRARY(mkldnn STATIC ${dummyfile})
-TARGET_LINK_LIBRARIES(mkldnn ${MKLDNN_LIB} ${MKLML_LIB} ${MKLML_IOMP_LIB})
-ADD_DEPENDENCIES(mkldnn ${MKLDNN_PROJECT})
-# copy the real so.0 lib to install dir
-# it can be directly contained in wheel or capi
-if(WIN32)
-    SET(MKLDNN_SHARED_LIB ${MKLDNN_INSTALL_DIR}/bin/mkldnn.dll)
-else(WIN32)
-    SET(MKLDNN_SHARED_LIB ${MKLDNN_INSTALL_DIR}/libmkldnn.so.0)
-    ADD_CUSTOM_COMMAND(OUTPUT ${MKLDNN_SHARED_LIB}
-            COMMAND ${CMAKE_COMMAND} -E copy ${MKLDNN_LIB} ${MKLDNN_SHARED_LIB}
-            DEPENDS mkldnn shared_mkldnn)
-endif(WIN32)
-ADD_CUSTOM_TARGET(mkldnn_shared_lib ALL DEPENDS ${MKLDNN_SHARED_LIB})
-ADD_DEPENDENCIES(mkldnn_shared_lib ${MKLDNN_PROJECT} mkldnn)
--- a/cmake/external/mklml.cmake
+++ b/cmake/external/mklml.cmake
-# Copyright (c) 2017 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-IF(NOT ${WITH_MKLML})
-  return()
-ENDIF(NOT ${WITH_MKLML})
-IF(APPLE)
-    MESSAGE(WARNING "Mac is not supported with MKLML in Paddle yet. Force WITH_MKLML=OFF.")
-    SET(WITH_MKLML OFF CACHE STRING "Disable MKLML package in MacOS" FORCE)
-    return()
-ENDIF()
-INCLUDE(ExternalProject)
-SET(MKLML_DST_DIR       "mklml")
-SET(MKLML_INSTALL_ROOT  "${THIRD_PARTY_PATH}/install")
-SET(MKLML_INSTALL_DIR   ${MKLML_INSTALL_ROOT}/${MKLML_DST_DIR})
-SET(MKLML_ROOT          ${MKLML_INSTALL_DIR})
-SET(MKLML_INC_DIR       ${MKLML_ROOT}/include)
-SET(MKLML_LIB_DIR       ${MKLML_ROOT}/lib)
-SET(CMAKE_INSTALL_RPATH "${CMAKE_INSTALL_RPATH}" "${MKLML_ROOT}/lib")
-SET(TIME_VERSION "2019.0.1.20181227")
-IF(WIN32)
-    SET(MKLML_VER "mklml_win_${TIME_VERSION}" CACHE STRING "" FORCE)
-    SET(MKLML_URL "https://paddlepaddledeps.bj.bcebos.com/${MKLML_VER}.zip" CACHE STRING "" FORCE)
-    SET(MKLML_LIB                 ${MKLML_LIB_DIR}/mklml.lib)
-    SET(MKLML_IOMP_LIB            ${MKLML_LIB_DIR}/libiomp5md.lib)
-    SET(MKLML_SHARED_LIB          ${MKLML_LIB_DIR}/mklml.dll)
-    SET(MKLML_SHARED_IOMP_LIB     ${MKLML_LIB_DIR}/libiomp5md.dll)
-ELSE()
-    #TODO(intel-huying):
-    #  Now enable Erf function in mklml library temporarily, it will be updated as offical version later.
-    SET(MKLML_VER "Glibc225_vsErf_mklml_lnx_${TIME_VERSION}" CACHE STRING "" FORCE)
-    SET(MKLML_URL "http://paddlepaddledeps.bj.bcebos.com/${MKLML_VER}.tgz" CACHE STRING "" FORCE)
-    SET(MKLML_LIB                 ${MKLML_LIB_DIR}/libmklml_intel.so)
-    SET(MKLML_IOMP_LIB            ${MKLML_LIB_DIR}/libiomp5.so)
-    SET(MKLML_SHARED_LIB          ${MKLML_LIB_DIR}/libmklml_intel.so)
-    SET(MKLML_SHARED_IOMP_LIB     ${MKLML_LIB_DIR}/libiomp5.so)
-ENDIF()
-SET(MKLML_PROJECT       "extern_mklml")
-MESSAGE(STATUS "MKLML_VER: ${MKLML_VER}, MKLML_URL: ${MKLML_URL}")
-SET(MKLML_SOURCE_DIR    "${THIRD_PARTY_PATH}/mklml")
-SET(MKLML_DOWNLOAD_DIR  "${MKLML_SOURCE_DIR}/src/${MKLML_PROJECT}")
-ExternalProject_Add(
-    ${MKLML_PROJECT}
-    ${EXTERNAL_PROJECT_LOG_ARGS}
-    PREFIX                 ${MKLML_SOURCE_DIR}
-    URL                    ${MKLML_URL}
-    DOWNLOAD_DIR          ${MKLML_DOWNLOAD_DIR}
-    DOWNLOAD_NO_PROGRESS  1
-    CONFIGURE_COMMAND     ""
-    BUILD_COMMAND         ""
-    UPDATE_COMMAND ""
-    INSTALL_COMMAND
-        ${CMAKE_COMMAND} -E copy_directory ${MKLML_DOWNLOAD_DIR}/include ${MKLML_INC_DIR} &&
-        ${CMAKE_COMMAND} -E copy_directory ${MKLML_DOWNLOAD_DIR}/lib ${MKLML_LIB_DIR}
-)
-INCLUDE_DIRECTORIES(${MKLML_INC_DIR})
-ADD_LIBRARY(mklml SHARED IMPORTED GLOBAL)
-SET_PROPERTY(TARGET mklml PROPERTY IMPORTED_LOCATION ${MKLML_LIB})
-ADD_DEPENDENCIES(mklml ${MKLML_PROJECT})
--- a/cmake/external/openblas.cmake
+++ b/cmake/external/openblas.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-INCLUDE(cblas)
-IF(NOT ${CBLAS_FOUND})
-    INCLUDE(ExternalProject)
-    SET(CBLAS_SOURCES_DIR ${THIRD_PARTY_PATH}/openblas)
-    SET(CBLAS_INSTALL_DIR ${THIRD_PARTY_PATH}/install/openblas)
-    SET(CBLAS_INC_DIR "${CBLAS_INSTALL_DIR}/include" CACHE PATH "openblas include directory." FORCE)
-    SET(CBLAS_LIBRARIES
-        "${CBLAS_INSTALL_DIR}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}openblas${CMAKE_STATIC_LIBRARY_SUFFIX}"
-        CACHE FILEPATH "openblas library." FORCE)
-    ADD_DEFINITIONS(-DPADDLE_USE_OPENBLAS)
-    IF (WIN32)
-        SET(CBLAS_FOUND true)
-        MESSAGE(WARNING, "In windows, openblas only support msvc build, please build it manually and put it at " ${CBLAS_INSTALL_DIR})
-    ENDIF(WIN32)
-    IF (NOT WIN32)
-    SET(OPENBLAS_CC "${CMAKE_C_COMPILER} -Wno-unused-but-set-variable -Wno-unused-variable")
-    SET(OPENBLAS_COMMIT "v0.2.20")
-    IF(APPLE)
-        SET(OPENBLAS_CC "${CMAKE_C_COMPILER} -isysroot ${CMAKE_OSX_SYSROOT}")
-    ENDIF()
-    SET(OPTIONAL_ARGS "")
-    IF(CMAKE_SYSTEM_PROCESSOR MATCHES "^x86(_64)?$")
-        SET(OPTIONAL_ARGS DYNAMIC_ARCH=1 NUM_THREADS=64)
-    ENDIF()
-    SET(COMMON_ARGS CC=${OPENBLAS_CC} NO_SHARED=1 NO_LAPACK=1 libs)
-    ExternalProject_Add(
-        extern_openblas
-        ${EXTERNAL_PROJECT_LOG_ARGS}
-        GIT_REPOSITORY      https://github.com/xianyi/OpenBLAS.git
-        GIT_TAG             ${OPENBLAS_COMMIT}
-        PREFIX              ${CBLAS_SOURCES_DIR}
-        INSTALL_DIR         ${CBLAS_INSTALL_DIR}
-        BUILD_IN_SOURCE     1
-        BUILD_COMMAND       ${CMAKE_MAKE_PROGRAM} ${COMMON_ARGS} ${OPTIONAL_ARGS}
-        INSTALL_COMMAND     ${CMAKE_MAKE_PROGRAM} install NO_SHARED=1 NO_LAPACK=1 PREFIX=<INSTALL_DIR> 
-                            && rm -r ${CBLAS_INSTALL_DIR}/lib/cmake ${CBLAS_INSTALL_DIR}/lib/pkgconfig
-        UPDATE_COMMAND      ""
-        CONFIGURE_COMMAND   ""
-    )
-    ELSE()
-    ENDIF(NOT WIN32)
-    SET(CBLAS_PROVIDER openblas)
-ENDIF(NOT ${CBLAS_FOUND})
-MESSAGE(STATUS "BLAS library: ${CBLAS_LIBRARIES}")
-MESSAGE(STATUS "BLAS Include: ${CBLAS_INC_DIR}")
-INCLUDE_DIRECTORIES(${CBLAS_INC_DIR})
-# FIXME(gangliao): generate cblas target to track all high performance
-# linear algebra libraries for cc_library(xxx SRCS xxx.c DEPS cblas)
-SET(dummyfile ${CMAKE_CURRENT_BINARY_DIR}/cblas_dummy.c)
-FILE(WRITE ${dummyfile} "const char *dummy_cblas = \"${dummyfile}\";")
-ADD_LIBRARY(cblas STATIC ${dummyfile})
-IF("${CBLAS_PROVIDER}" STREQUAL "MKLML")
-  TARGET_LINK_LIBRARIES(cblas dynload_mklml)
-ELSE()
-  TARGET_LINK_LIBRARIES(cblas ${CBLAS_LIBRARIES})
-ENDIF("${CBLAS_PROVIDER}" STREQUAL "MKLML")
-IF(WITH_LIBXSMM)
-  TARGET_LINK_LIBRARIES(cblas ${LIBXSMM_LIBS})
-  ADD_DEPENDENCIES(cblas extern_libxsmm)
-ENDIF()
-IF(NOT ${CBLAS_FOUND})
-    ADD_DEPENDENCIES(cblas extern_openblas)
-ELSE()
-    IF("${CBLAS_PROVIDER}" STREQUAL "MKLML")
-        ADD_DEPENDENCIES(cblas mklml)
-    ENDIF()
-ENDIF(NOT ${CBLAS_FOUND})
--- a/cmake/external/opencl-clhpp.cmake
+++ b/cmake/external/opencl-clhpp.cmake
-# Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-INCLUDE(ExternalProject)
-SET(OPENCL_CLHPP_SRCS_DIR    ${THIRD_PARTY_PATH}/opencl-clhpp)
-SET(OPENCL_CLHPP_INSTALL_DIR ${THIRD_PARTY_PATH}/install/opencl-clhpp)
-SET(OPENCL_CLHPP_INCLUDE_DIR "${OPENCL_CLHPP_INSTALL_DIR}" CACHE PATH "opencl-clhpp include directory." FORCE)
-INCLUDE_DIRECTORIES(${OPENCL_CLHPP_INCLUDE_DIR})
-ExternalProject_Add(
-  opencl_clhpp
-  GIT_REPOSITORY    "https://github.com/KhronosGroup/OpenCL-CLHPP.git"
-  GIT_TAG           "v2.0.10"
-  PREFIX            "${OPENCL_CLHPP_SRCS_DIR}"
-  CMAKE_ARGS        -DBUILD_DOCS=OFF
-                    -DBUILD_EXAMPLES=OFF
-                    -DBUILD_TESTS=OFF
-                    -DCMAKE_INSTALL_PREFIX=${OPENCL_CLHPP_INSTALL_DIR}
-  CMAKE_CACHE_ARGS  -DCMAKE_INSTALL_PREFIX:PATH=${OPENCL_CLHPP_INSTALL_DIR}
-                    -DCMAKE_BUILD_TYPE:STRING=${THIRD_PARTY_BUILD_TYPE}
-)
-ADD_DEPENDENCIES(opencl_clhpp opencl_headers)
--- a/cmake/external/opencl-headers.cmake
+++ b/cmake/external/opencl-headers.cmake
--- a/cmake/external/protobuf.cmake
+++ b/cmake/external/protobuf.cmake
--- a/cmake/external/xbyak.cmake
+++ b/cmake/external/xbyak.cmake
--- a/cmake/external/xxhash.cmake
+++ b/cmake/external/xxhash.cmake
--- a/cmake/flags.cmake
+++ b/cmake/flags.cmake
--- a/cmake/generic.cmake
+++ b/cmake/generic.cmake
--- a/cmake/hip.cmake
+++ b/cmake/hip.cmake
--- a/cmake/lite.cmake
+++ b/cmake/lite.cmake
--- a/cmake/lite_utils.cmake
+++ b/cmake/lite_utils.cmake
--- a/cmake/make_resource.py
+++ b/cmake/make_resource.py
--- a/cmake/operators.cmake
+++ b/cmake/operators.cmake
--- a/cmake/package.cmake
+++ b/cmake/package.cmake
--- a/cmake/simd.cmake
+++ b/cmake/simd.cmake
--- a/cmake/system.cmake
+++ b/cmake/system.cmake
--- a/cmake/tensorrt.cmake
+++ b/cmake/tensorrt.cmake
--- a/cmake/util.cmake
+++ b/cmake/util.cmake
--- a/cmake/version.cmake
+++ b/cmake/version.cmake
--- a/cpp_demo.md
+++ b/cpp_demo.md
--- a/cxx_api.md
+++ b/cxx_api.md
--- a/debug_tools.md
+++ b/debug_tools.md
--- a/demos.md.toc.2019-08-26_222115
+++ b/demos.md.toc.2019-08-26_222115
--- a/demos.md.toc.2019-08-26_222307
+++ b/demos.md.toc.2019-08-26_222307
--- a/for-developer.md
+++ b/for-developer.md
--- a/fpga.md
+++ b/fpga.md
--- a/images/architecture.jpg
+++ b/images/architecture.jpg
--- a/images/benchmark_result.png
+++ b/images/benchmark_result.png
--- a/images/img_mobilenetv1_inference.png
+++ b/images/img_mobilenetv1_inference.png
--- a/images/lite1.png
+++ b/images/lite1.png
--- a/images/model_quan_fig.png
+++ b/images/model_quan_fig.png
--- a/images/model_quan_table1.png
+++ b/images/model_quan_table1.png
--- a/images/phone_list.png
+++ b/images/phone_list.png
--- a/images/run_benchmark.png
+++ b/images/run_benchmark.png
--- a/java_demo.md
+++ b/java_demo.md
--- a/lite/CMakeLists.txt
+++ b/lite/CMakeLists.txt
--- a/lite/api/CMakeLists.txt
+++ b/lite/api/CMakeLists.txt
--- a/lite/api/_paddle_use_kernels.h
+++ b/lite/api/_paddle_use_kernels.h
--- a/lite/api/_paddle_use_ops.h
+++ b/lite/api/_paddle_use_ops.h
--- a/lite/api/android/.gitignore
+++ b/lite/api/android/.gitignore
-/bin/
-.classpath
--- a/lite/api/android/CMakeLists.txt
+++ b/lite/api/android/CMakeLists.txt
--- a/lite/api/android/jni/.gitignore
+++ b/lite/api/android/jni/.gitignore
--- a/lite/api/android/jni/CMakeLists.txt
+++ b/lite/api/android/jni/CMakeLists.txt
--- a/lite/api/android/jni/native/CMakeLists.txt
+++ b/lite/api/android/jni/native/CMakeLists.txt
--- a/lite/api/android/jni/native/convert_util_jni.h
+++ b/lite/api/android/jni/native/convert_util_jni.h
--- a/lite/api/android/jni/native/paddle_lite_jni.cc
+++ b/lite/api/android/jni/native/paddle_lite_jni.cc
--- a/lite/api/android/jni/native/paddle_lite_jni.h
+++ b/lite/api/android/jni/native/paddle_lite_jni.h
--- a/lite/api/android/jni/native/tensor_jni.cc
+++ b/lite/api/android/jni/native/tensor_jni.cc
--- a/lite/api/android/jni/native/tensor_jni.h
+++ b/lite/api/android/jni/native/tensor_jni.h
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/.gitignore
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/.gitignore
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/ConfigBase.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/ConfigBase.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/CxxConfig.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/CxxConfig.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/MobileConfig.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/MobileConfig.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/PaddleLiteInitializer.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/PaddleLiteInitializer.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/PaddlePredictor.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/PaddlePredictor.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/Place.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/Place.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/PowerMode.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/PowerMode.java
--- a/lite/api/android/jni/src/com/baidu/paddle/lite/Tensor.java
+++ b/lite/api/android/jni/src/com/baidu/paddle/lite/Tensor.java
--- a/lite/api/android/jni/test/com/baidu/paddle/lite/PaddlePredictorTest.java
+++ b/lite/api/android/jni/test/com/baidu/paddle/lite/PaddlePredictorTest.java
--- a/lite/api/apis_test.cc
+++ b/lite/api/apis_test.cc
--- a/lite/api/benchmark.cc
+++ b/lite/api/benchmark.cc
--- a/lite/api/cxx_api.cc
+++ b/lite/api/cxx_api.cc
--- a/lite/api/cxx_api.h
+++ b/lite/api/cxx_api.h
--- a/lite/api/cxx_api_bin.cc
+++ b/lite/api/cxx_api_bin.cc
--- a/lite/api/cxx_api_impl.cc
+++ b/lite/api/cxx_api_impl.cc
--- a/lite/api/cxx_api_test.cc
+++ b/lite/api/cxx_api_test.cc
--- a/lite/api/detection_model_test.cc
+++ b/lite/api/detection_model_test.cc
--- a/lite/api/efficientnet_b0_test.cc
+++ b/lite/api/efficientnet_b0_test.cc
--- a/lite/api/inceptionv4_test.cc
+++ b/lite/api/inceptionv4_test.cc
--- a/lite/api/light_api.cc
+++ b/lite/api/light_api.cc
--- a/lite/api/light_api.h
+++ b/lite/api/light_api.h
--- a/lite/api/light_api_impl.cc
+++ b/lite/api/light_api_impl.cc
--- a/lite/api/light_api_test.cc
+++ b/lite/api/light_api_test.cc
--- a/lite/api/lite_api_test_helper.cc
+++ b/lite/api/lite_api_test_helper.cc
--- a/lite/api/lite_api_test_helper.h
+++ b/lite/api/lite_api_test_helper.h
--- a/lite/api/mobilenetv1_int8_test.cc
+++ b/lite/api/mobilenetv1_int8_test.cc
--- a/lite/api/mobilenetv1_ssd_test.cc
+++ b/lite/api/mobilenetv1_ssd_test.cc
--- a/lite/api/mobilenetv1_test.cc
+++ b/lite/api/mobilenetv1_test.cc
--- a/lite/api/mobilenetv1_yolov3_test.cc
+++ b/lite/api/mobilenetv1_yolov3_test.cc
--- a/lite/api/mobilenetv2_test.cc
+++ b/lite/api/mobilenetv2_test.cc
--- a/lite/api/model_optimize_tool.cc
+++ b/lite/api/model_optimize_tool.cc
--- a/lite/api/model_run_test_image.cc
+++ b/lite/api/model_run_test_image.cc
--- a/lite/api/model_test.cc
+++ b/lite/api/model_test.cc
--- a/lite/api/ocr_attention_test.cc
+++ b/lite/api/ocr_attention_test.cc
--- a/lite/api/paddle_api.cc
+++ b/lite/api/paddle_api.cc
--- a/lite/api/paddle_api.h
+++ b/lite/api/paddle_api.h
--- a/lite/api/paddle_api_test.cc
+++ b/lite/api/paddle_api_test.cc
--- a/lite/api/paddle_lite_factory_helper.h
+++ b/lite/api/paddle_lite_factory_helper.h
--- a/lite/api/paddle_place.cc
+++ b/lite/api/paddle_place.cc
--- a/lite/api/paddle_place.h
+++ b/lite/api/paddle_place.h
--- a/lite/api/paddle_use_passes.h
+++ b/lite/api/paddle_use_passes.h
--- a/lite/api/resnet18_test.cc
+++ b/lite/api/resnet18_test.cc
--- a/lite/api/resnet50_test.cc
+++ b/lite/api/resnet50_test.cc
--- a/lite/api/resnet50_test_fpga.cc
+++ b/lite/api/resnet50_test_fpga.cc
--- a/lite/api/shufflenetv2_test.cc
+++ b/lite/api/shufflenetv2_test.cc
--- a/lite/api/test_googlenet_lite.cc
+++ b/lite/api/test_googlenet_lite.cc
--- a/lite/api/test_helper.h
+++ b/lite/api/test_helper.h
--- a/lite/api/test_inceptionv4_lite_x86.cc
+++ b/lite/api/test_inceptionv4_lite_x86.cc
--- a/lite/api/test_mobilenetv1_lite_x86.cc
+++ b/lite/api/test_mobilenetv1_lite_x86.cc
--- a/lite/api/test_mobilenetv2_lite_x86.cc
+++ b/lite/api/test_mobilenetv2_lite_x86.cc
--- a/lite/api/unet_test.cc
+++ b/lite/api/unet_test.cc
--- a/lite/backends/CMakeLists.txt
+++ b/lite/backends/CMakeLists.txt
--- a/lite/backends/arm/CMakeLists.txt
+++ b/lite/backends/arm/CMakeLists.txt
--- a/lite/backends/arm/math/CMakeLists.txt
+++ b/lite/backends/arm/math/CMakeLists.txt
--- a/lite/backends/arm/math/activation.cc
+++ b/lite/backends/arm/math/activation.cc
--- a/lite/backends/arm/math/activation.h
+++ b/lite/backends/arm/math/activation.h
--- a/lite/backends/arm/math/affine_channel.cc
+++ b/lite/backends/arm/math/affine_channel.cc
--- a/lite/backends/arm/math/affine_channel.h
+++ b/lite/backends/arm/math/affine_channel.h
--- a/lite/backends/arm/math/anchor_generator.cc
+++ b/lite/backends/arm/math/anchor_generator.cc
--- a/lite/backends/arm/math/anchor_generator.h
+++ b/lite/backends/arm/math/anchor_generator.h
--- a/lite/backends/arm/math/argmax.cc
+++ b/lite/backends/arm/math/argmax.cc
--- a/lite/backends/arm/math/argmax.h
+++ b/lite/backends/arm/math/argmax.h
--- a/lite/backends/arm/math/axpy.cc
+++ b/lite/backends/arm/math/axpy.cc
--- a/lite/backends/arm/math/axpy.h
+++ b/lite/backends/arm/math/axpy.h
--- a/lite/backends/arm/math/beam_search.cc
+++ b/lite/backends/arm/math/beam_search.cc
--- a/lite/backends/arm/math/beam_search.h
+++ b/lite/backends/arm/math/beam_search.h
--- a/lite/backends/arm/math/box_coder.cc
+++ b/lite/backends/arm/math/box_coder.cc
--- a/lite/backends/arm/math/box_coder.h
+++ b/lite/backends/arm/math/box_coder.h
--- a/lite/backends/arm/math/col_im_transform.cc
+++ b/lite/backends/arm/math/col_im_transform.cc
--- a/lite/backends/arm/math/col_im_transform.h
+++ b/lite/backends/arm/math/col_im_transform.h
--- a/lite/backends/arm/math/concat.cc
+++ b/lite/backends/arm/math/concat.cc
--- a/lite/backends/arm/math/concat.h
+++ b/lite/backends/arm/math/concat.h
--- a/lite/backends/arm/math/conv3x3s1_direct_int8.cc
+++ b/lite/backends/arm/math/conv3x3s1_direct_int8.cc
--- a/lite/backends/arm/math/conv3x3s2_direct_int8.cc
+++ b/lite/backends/arm/math/conv3x3s2_direct_int8.cc
--- a/lite/backends/arm/math/conv_block_utils.h
+++ b/lite/backends/arm/math/conv_block_utils.h
--- a/lite/backends/arm/math/conv_depthwise.cc
+++ b/lite/backends/arm/math/conv_depthwise.cc
--- a/lite/backends/arm/math/conv_depthwise.h
+++ b/lite/backends/arm/math/conv_depthwise.h
--- a/lite/backends/arm/math/conv_depthwise_3x3_int8.cc
+++ b/lite/backends/arm/math/conv_depthwise_3x3_int8.cc
--- a/lite/backends/arm/math/conv_depthwise_3x3p0.cc
+++ b/lite/backends/arm/math/conv_depthwise_3x3p0.cc
--- a/lite/backends/arm/math/conv_depthwise_3x3p1.cc
+++ b/lite/backends/arm/math/conv_depthwise_3x3p1.cc
--- a/lite/backends/arm/math/conv_depthwise_5x5s1.cc
+++ b/lite/backends/arm/math/conv_depthwise_5x5s1.cc
--- a/lite/backends/arm/math/conv_depthwise_5x5s1_int8.cc
+++ b/lite/backends/arm/math/conv_depthwise_5x5s1_int8.cc
--- a/lite/backends/arm/math/conv_depthwise_5x5s2.cc
+++ b/lite/backends/arm/math/conv_depthwise_5x5s2.cc
--- a/lite/backends/arm/math/conv_direct.cc
+++ b/lite/backends/arm/math/conv_direct.cc
--- a/lite/backends/arm/math/conv_direct.h
+++ b/lite/backends/arm/math/conv_direct.h
--- a/lite/backends/arm/math/conv_direct_3x3s1.cc
+++ b/lite/backends/arm/math/conv_direct_3x3s1.cc
--- a/lite/backends/arm/math/conv_direct_3x3s2.cc
+++ b/lite/backends/arm/math/conv_direct_3x3s2.cc
--- a/lite/backends/arm/math/conv_gemmlike.cc
+++ b/lite/backends/arm/math/conv_gemmlike.cc
--- a/lite/backends/arm/math/conv_gemmlike.h
+++ b/lite/backends/arm/math/conv_gemmlike.h
--- a/lite/backends/arm/math/conv_impl.cc
+++ b/lite/backends/arm/math/conv_impl.cc
--- a/lite/backends/arm/math/conv_impl.h
+++ b/lite/backends/arm/math/conv_impl.h
--- a/lite/backends/arm/math/conv_winograd.cc
+++ b/lite/backends/arm/math/conv_winograd.cc
--- a/lite/backends/arm/math/conv_winograd.h
+++ b/lite/backends/arm/math/conv_winograd.h
--- a/lite/backends/arm/math/conv_winograd_3x3.cc
+++ b/lite/backends/arm/math/conv_winograd_3x3.cc
--- a/lite/backends/arm/math/decode_bboxes.cc
+++ b/lite/backends/arm/math/decode_bboxes.cc
--- a/lite/backends/arm/math/decode_bboxes.h
+++ b/lite/backends/arm/math/decode_bboxes.h
--- a/lite/backends/arm/math/dot_toolchain_support.h
+++ b/lite/backends/arm/math/dot_toolchain_support.h
--- a/lite/backends/arm/math/dropout.cc
+++ b/lite/backends/arm/math/dropout.cc
--- a/lite/backends/arm/math/dropout.h
+++ b/lite/backends/arm/math/dropout.h
--- a/lite/backends/arm/math/elementwise.cc
+++ b/lite/backends/arm/math/elementwise.cc
--- a/lite/backends/arm/math/elementwise.h
+++ b/lite/backends/arm/math/elementwise.h
--- a/lite/backends/arm/math/fill_bias_relu.cc
+++ b/lite/backends/arm/math/fill_bias_relu.cc
--- a/lite/backends/arm/math/fill_bias_relu.h
+++ b/lite/backends/arm/math/fill_bias_relu.h
--- a/lite/backends/arm/math/funcs.cc
+++ b/lite/backends/arm/math/funcs.cc
--- a/lite/backends/arm/math/funcs.h
+++ b/lite/backends/arm/math/funcs.h
--- a/lite/backends/arm/math/gemm_prepacked_int8.cc
+++ b/lite/backends/arm/math/gemm_prepacked_int8.cc
--- a/lite/backends/arm/math/gemm_prepacked_int8.h
+++ b/lite/backends/arm/math/gemm_prepacked_int8.h
--- a/lite/backends/arm/math/gemv_arm_int8.cc
+++ b/lite/backends/arm/math/gemv_arm_int8.cc
--- a/lite/backends/arm/math/gemv_arm_int8.h
+++ b/lite/backends/arm/math/gemv_arm_int8.h
--- a/lite/backends/arm/math/gru_utils.h
+++ b/lite/backends/arm/math/gru_utils.h
--- a/lite/backends/arm/math/im2sequence.cc
+++ b/lite/backends/arm/math/im2sequence.cc
--- a/lite/backends/arm/math/im2sequence.h
+++ b/lite/backends/arm/math/im2sequence.h
--- a/lite/backends/arm/math/increment.cc
+++ b/lite/backends/arm/math/increment.cc
--- a/lite/backends/arm/math/increment.h
+++ b/lite/backends/arm/math/increment.h
--- a/lite/backends/arm/math/interpolate.cc
+++ b/lite/backends/arm/math/interpolate.cc
--- a/lite/backends/arm/math/interpolate.h
+++ b/lite/backends/arm/math/interpolate.h
--- a/lite/backends/arm/math/lrn.cc
+++ b/lite/backends/arm/math/lrn.cc
--- a/lite/backends/arm/math/lrn.h
+++ b/lite/backends/arm/math/lrn.h
--- a/lite/backends/arm/math/negative.cc
+++ b/lite/backends/arm/math/negative.cc
--- a/lite/backends/arm/math/negative.h
+++ b/lite/backends/arm/math/negative.h
--- a/lite/backends/arm/math/norm.cc
+++ b/lite/backends/arm/math/norm.cc
--- a/lite/backends/arm/math/norm.h
+++ b/lite/backends/arm/math/norm.h
--- a/lite/backends/arm/math/packed_sgemm.cc
+++ b/lite/backends/arm/math/packed_sgemm.cc
--- a/lite/backends/arm/math/packed_sgemm.h
+++ b/lite/backends/arm/math/packed_sgemm.h
--- a/lite/backends/arm/math/pad2d.cc
+++ b/lite/backends/arm/math/pad2d.cc
--- a/lite/backends/arm/math/pad2d.h
+++ b/lite/backends/arm/math/pad2d.h
--- a/lite/backends/arm/math/pooling.cc
+++ b/lite/backends/arm/math/pooling.cc
--- a/lite/backends/arm/math/pooling.h
+++ b/lite/backends/arm/math/pooling.h
--- a/lite/backends/arm/math/power.cc
+++ b/lite/backends/arm/math/power.cc
--- a/lite/backends/arm/math/power.h
+++ b/lite/backends/arm/math/power.h
--- a/lite/backends/arm/math/prior_box.cc
+++ b/lite/backends/arm/math/prior_box.cc
--- a/lite/backends/arm/math/prior_box.h
+++ b/lite/backends/arm/math/prior_box.h
--- a/lite/backends/arm/math/reduce_max.cc
+++ b/lite/backends/arm/math/reduce_max.cc
--- a/lite/backends/arm/math/reduce_max.h
+++ b/lite/backends/arm/math/reduce_max.h
--- a/lite/backends/arm/math/reduce_mean.cc
+++ b/lite/backends/arm/math/reduce_mean.cc
--- a/lite/backends/arm/math/reduce_mean.h
+++ b/lite/backends/arm/math/reduce_mean.h
--- a/lite/backends/arm/math/saturate.h
+++ b/lite/backends/arm/math/saturate.h
--- a/lite/backends/arm/math/scale.cc
+++ b/lite/backends/arm/math/scale.cc
--- a/lite/backends/arm/math/scale.h
+++ b/lite/backends/arm/math/scale.h
--- a/lite/backends/arm/math/sequence2batch.h
+++ b/lite/backends/arm/math/sequence2batch.h
--- a/lite/backends/arm/math/sequence_expand.cc
+++ b/lite/backends/arm/math/sequence_expand.cc
--- a/lite/backends/arm/math/sequence_expand.h
+++ b/lite/backends/arm/math/sequence_expand.h
--- a/lite/backends/arm/math/sequence_pool.cc
+++ b/lite/backends/arm/math/sequence_pool.cc
--- a/lite/backends/arm/math/sequence_pool.h
+++ b/lite/backends/arm/math/sequence_pool.h
--- a/lite/backends/arm/math/sequence_softmax.cc
+++ b/lite/backends/arm/math/sequence_softmax.cc
--- a/lite/backends/arm/math/sequence_softmax.h
+++ b/lite/backends/arm/math/sequence_softmax.h
--- a/lite/backends/arm/math/sgemm.cc
+++ b/lite/backends/arm/math/sgemm.cc
--- a/lite/backends/arm/math/sgemm.h
+++ b/lite/backends/arm/math/sgemm.h
--- a/lite/backends/arm/math/sgemv.cc
+++ b/lite/backends/arm/math/sgemv.cc
--- a/lite/backends/arm/math/sgemv.h
+++ b/lite/backends/arm/math/sgemv.h
--- a/lite/backends/arm/math/shuffle_channel.cc
+++ b/lite/backends/arm/math/shuffle_channel.cc
--- a/lite/backends/arm/math/shuffle_channel.h
+++ b/lite/backends/arm/math/shuffle_channel.h
--- a/lite/backends/arm/math/slice.cc
+++ b/lite/backends/arm/math/slice.cc
--- a/lite/backends/arm/math/slice.h
+++ b/lite/backends/arm/math/slice.h
--- a/lite/backends/arm/math/softmax.cc
+++ b/lite/backends/arm/math/softmax.cc
--- a/lite/backends/arm/math/softmax.h
+++ b/lite/backends/arm/math/softmax.h
--- a/lite/backends/arm/math/split.cc
+++ b/lite/backends/arm/math/split.cc
--- a/lite/backends/arm/math/split.h
+++ b/lite/backends/arm/math/split.h
--- a/lite/backends/arm/math/stack.cc
+++ b/lite/backends/arm/math/stack.cc
--- a/lite/backends/arm/math/stack.h
+++ b/lite/backends/arm/math/stack.h
--- a/lite/backends/arm/math/topk.cc
+++ b/lite/backends/arm/math/topk.cc
--- a/lite/backends/arm/math/topk.h
+++ b/lite/backends/arm/math/topk.h
--- a/lite/backends/arm/math/type_trans.cc
+++ b/lite/backends/arm/math/type_trans.cc
--- a/lite/backends/arm/math/type_trans.h
+++ b/lite/backends/arm/math/type_trans.h
--- a/lite/backends/arm/math/yolo_box.cc
+++ b/lite/backends/arm/math/yolo_box.cc
--- a/lite/backends/arm/math/yolo_box.h
+++ b/lite/backends/arm/math/yolo_box.h
--- a/lite/backends/cuda/CMakeLists.txt
+++ b/lite/backends/cuda/CMakeLists.txt
--- a/lite/backends/cuda/blas.cc
+++ b/lite/backends/cuda/blas.cc
--- a/lite/backends/cuda/blas.h
+++ b/lite/backends/cuda/blas.h
--- a/lite/backends/cuda/cuda_utils.h
+++ b/lite/backends/cuda/cuda_utils.h
--- a/lite/backends/cuda/math/CMakeLists.txt
+++ b/lite/backends/cuda/math/CMakeLists.txt
--- a/lite/backends/cuda/math/activation.cu
+++ b/lite/backends/cuda/math/activation.cu
--- a/lite/backends/cuda/math/activation.h
+++ b/lite/backends/cuda/math/activation.h
--- a/lite/backends/cuda/math/cudnn_conv.cc
+++ b/lite/backends/cuda/math/cudnn_conv.cc
--- a/lite/backends/cuda/math/cudnn_conv.h
+++ b/lite/backends/cuda/math/cudnn_conv.h
--- a/lite/backends/cuda/math/cudnn_helper.h
+++ b/lite/backends/cuda/math/cudnn_helper.h
--- a/lite/backends/cuda/math/scale.cu
+++ b/lite/backends/cuda/math/scale.cu
--- a/lite/backends/cuda/math/scale.h
+++ b/lite/backends/cuda/math/scale.h
--- a/lite/backends/cuda/math/transpose.cu
+++ b/lite/backends/cuda/math/transpose.cu
--- a/lite/backends/cuda/math/transpose.h
+++ b/lite/backends/cuda/math/transpose.h
--- a/lite/backends/cuda/math/type_trans.cu
+++ b/lite/backends/cuda/math/type_trans.cu
--- a/lite/backends/cuda/math/type_trans.h
+++ b/lite/backends/cuda/math/type_trans.h
--- a/lite/backends/cuda/math/utils.h
+++ b/lite/backends/cuda/math/utils.h
--- a/lite/backends/cuda/target_wrapper.cc
+++ b/lite/backends/cuda/target_wrapper.cc
--- a/lite/backends/cuda/target_wrapper.h
+++ b/lite/backends/cuda/target_wrapper.h
--- a/lite/backends/fpga/CMakeLists.txt
+++ b/lite/backends/fpga/CMakeLists.txt
--- a/lite/backends/fpga/KD/alignment.h
+++ b/lite/backends/fpga/KD/alignment.h
--- a/lite/backends/fpga/KD/context.hpp
+++ b/lite/backends/fpga/KD/context.hpp
--- a/lite/backends/fpga/KD/dl_engine.cpp
+++ b/lite/backends/fpga/KD/dl_engine.cpp
--- a/lite/backends/fpga/KD/dl_engine.hpp
+++ b/lite/backends/fpga/KD/dl_engine.hpp
--- a/lite/backends/fpga/KD/float16.hpp
+++ b/lite/backends/fpga/KD/float16.hpp
--- a/lite/backends/fpga/KD/fpga_cv.cpp
+++ b/lite/backends/fpga/KD/fpga_cv.cpp
--- a/lite/backends/fpga/KD/fpga_cv.hpp
+++ b/lite/backends/fpga/KD/fpga_cv.hpp
--- a/lite/backends/fpga/KD/layout.hpp
+++ b/lite/backends/fpga/KD/layout.hpp
--- a/lite/backends/fpga/KD/llapi/bias_scale.cpp
+++ b/lite/backends/fpga/KD/llapi/bias_scale.cpp
--- a/lite/backends/fpga/KD/llapi/bias_scale.h
+++ b/lite/backends/fpga/KD/llapi/bias_scale.h
--- a/lite/backends/fpga/KD/llapi/config.h
+++ b/lite/backends/fpga/KD/llapi/config.h
--- a/lite/backends/fpga/KD/llapi/filter.cpp
+++ b/lite/backends/fpga/KD/llapi/filter.cpp
--- a/lite/backends/fpga/KD/llapi/filter.h
+++ b/lite/backends/fpga/KD/llapi/filter.h
--- a/lite/backends/fpga/KD/llapi/zynqmp_api.cpp
+++ b/lite/backends/fpga/KD/llapi/zynqmp_api.cpp
--- a/lite/backends/fpga/KD/llapi/zynqmp_api.h
+++ b/lite/backends/fpga/KD/llapi/zynqmp_api.h
--- a/lite/backends/fpga/KD/pe.hpp
+++ b/lite/backends/fpga/KD/pe.hpp
--- a/lite/backends/fpga/KD/pe_params.hpp
+++ b/lite/backends/fpga/KD/pe_params.hpp
--- a/lite/backends/fpga/KD/pes/batchnorm_pe.hpp
+++ b/lite/backends/fpga/KD/pes/batchnorm_pe.hpp
--- a/lite/backends/fpga/KD/pes/concat_pe.hpp
+++ b/lite/backends/fpga/KD/pes/concat_pe.hpp
--- a/lite/backends/fpga/KD/pes/conv_pe.hpp
+++ b/lite/backends/fpga/KD/pes/conv_pe.hpp
--- a/lite/backends/fpga/KD/pes/conv_process.hpp
+++ b/lite/backends/fpga/KD/pes/conv_process.hpp
--- a/lite/backends/fpga/KD/pes/crop_pe.cpp
+++ b/lite/backends/fpga/KD/pes/crop_pe.cpp
--- a/lite/backends/fpga/KD/pes/crop_pe.hpp
+++ b/lite/backends/fpga/KD/pes/crop_pe.hpp
--- a/lite/backends/fpga/KD/pes/depthwise_conv_pe.hpp
+++ b/lite/backends/fpga/KD/pes/depthwise_conv_pe.hpp
--- a/lite/backends/fpga/KD/pes/elementwise_add_pe.hpp
+++ b/lite/backends/fpga/KD/pes/elementwise_add_pe.hpp
--- a/lite/backends/fpga/KD/pes/fully_connected_pe.hpp
+++ b/lite/backends/fpga/KD/pes/fully_connected_pe.hpp
--- a/lite/backends/fpga/KD/pes/input_pe.hpp
+++ b/lite/backends/fpga/KD/pes/input_pe.hpp
--- a/lite/backends/fpga/KD/pes/norm_pe.hpp
+++ b/lite/backends/fpga/KD/pes/norm_pe.hpp
--- a/lite/backends/fpga/KD/pes/output_pe.hpp
+++ b/lite/backends/fpga/KD/pes/output_pe.hpp
--- a/lite/backends/fpga/KD/pes/pooling_pe.hpp
+++ b/lite/backends/fpga/KD/pes/pooling_pe.hpp
--- a/lite/backends/fpga/KD/pes/prior_box_pe.cpp
+++ b/lite/backends/fpga/KD/pes/prior_box_pe.cpp
--- a/lite/backends/fpga/KD/pes/prior_box_pe.hpp
+++ b/lite/backends/fpga/KD/pes/prior_box_pe.hpp
--- a/lite/backends/fpga/KD/pes/relu_pe.hpp
+++ b/lite/backends/fpga/KD/pes/relu_pe.hpp
--- a/lite/backends/fpga/KD/pes/resize.hpp
+++ b/lite/backends/fpga/KD/pes/resize.hpp
--- a/lite/backends/fpga/KD/pes/scale_pe.hpp
+++ b/lite/backends/fpga/KD/pes/scale_pe.hpp
--- a/lite/backends/fpga/KD/pes/softmax_pe.cpp
+++ b/lite/backends/fpga/KD/pes/softmax_pe.cpp
--- a/lite/backends/fpga/KD/pes/softmax_pe.hpp
+++ b/lite/backends/fpga/KD/pes/softmax_pe.hpp
--- a/lite/backends/fpga/KD/pes/split_pe.hpp
+++ b/lite/backends/fpga/KD/pes/split_pe.hpp
--- a/lite/backends/fpga/KD/shape.hpp
+++ b/lite/backends/fpga/KD/shape.hpp
--- a/lite/backends/fpga/KD/tensor.hpp
+++ b/lite/backends/fpga/KD/tensor.hpp
--- a/lite/backends/fpga/KD/tensor_util.cpp
+++ b/lite/backends/fpga/KD/tensor_util.cpp
--- a/lite/backends/fpga/KD/tensor_util.hpp
+++ b/lite/backends/fpga/KD/tensor_util.hpp
--- a/lite/backends/fpga/lite_tensor.cc
+++ b/lite/backends/fpga/lite_tensor.cc
--- a/lite/backends/fpga/lite_tensor.h
+++ b/lite/backends/fpga/lite_tensor.h
--- a/lite/backends/fpga/target_wrapper.cc
+++ b/lite/backends/fpga/target_wrapper.cc
--- a/lite/backends/host/CMakeLists.txt
+++ b/lite/backends/host/CMakeLists.txt
--- a/lite/backends/host/target_wrapper.cc
+++ b/lite/backends/host/target_wrapper.cc
--- a/lite/backends/npu/CMakeLists.txt
+++ b/lite/backends/npu/CMakeLists.txt
--- a/lite/backends/npu/bridge/CMakeLists.txt
+++ b/lite/backends/npu/bridge/CMakeLists.txt
--- a/lite/backends/npu/bridge/act_op.cc
+++ b/lite/backends/npu/bridge/act_op.cc
--- a/lite/backends/npu/bridge/act_op_test.cc
+++ b/lite/backends/npu/bridge/act_op_test.cc
--- a/lite/backends/npu/bridge/batch_norm_op.cc
+++ b/lite/backends/npu/bridge/batch_norm_op.cc
--- a/lite/backends/npu/bridge/batch_norm_op_test.cc
+++ b/lite/backends/npu/bridge/batch_norm_op_test.cc
--- a/lite/backends/npu/bridge/concat_op.cc
+++ b/lite/backends/npu/bridge/concat_op.cc
--- a/lite/backends/npu/bridge/concat_op_test.cc
+++ b/lite/backends/npu/bridge/concat_op_test.cc
--- a/lite/backends/npu/bridge/conv_op.cc
+++ b/lite/backends/npu/bridge/conv_op.cc
--- a/lite/backends/npu/bridge/conv_op_test.cc
+++ b/lite/backends/npu/bridge/conv_op_test.cc
--- a/lite/backends/npu/bridge/conv_transpose_op.cc
+++ b/lite/backends/npu/bridge/conv_transpose_op.cc
--- a/lite/backends/npu/bridge/conv_transpose_op_test.cc
+++ b/lite/backends/npu/bridge/conv_transpose_op_test.cc
--- a/lite/backends/npu/bridge/elementwise_ops.cc
+++ b/lite/backends/npu/bridge/elementwise_ops.cc
--- a/lite/backends/npu/bridge/elementwise_ops_test.cc
+++ b/lite/backends/npu/bridge/elementwise_ops_test.cc
--- a/lite/backends/npu/bridge/fc_op.cc
+++ b/lite/backends/npu/bridge/fc_op.cc
--- a/lite/backends/npu/bridge/fc_op_test.cc
+++ b/lite/backends/npu/bridge/fc_op_test.cc
--- a/lite/backends/npu/bridge/interpolate_op.cc
+++ b/lite/backends/npu/bridge/interpolate_op.cc
--- a/lite/backends/npu/bridge/interpolate_op_test.cc
+++ b/lite/backends/npu/bridge/interpolate_op_test.cc
--- a/lite/backends/npu/bridge/mul_op.cc
+++ b/lite/backends/npu/bridge/mul_op.cc
--- a/lite/backends/npu/bridge/mul_op_test.cc
+++ b/lite/backends/npu/bridge/mul_op_test.cc
--- a/lite/backends/npu/bridge/pad2d_op.cc
+++ b/lite/backends/npu/bridge/pad2d_op.cc
--- a/lite/backends/npu/bridge/pad2d_op_test.cc
+++ b/lite/backends/npu/bridge/pad2d_op_test.cc
--- a/lite/backends/npu/bridge/paddle_use_npu_bridges.h
+++ b/lite/backends/npu/bridge/paddle_use_npu_bridges.h
--- a/lite/backends/npu/bridge/pool_op.cc
+++ b/lite/backends/npu/bridge/pool_op.cc
--- a/lite/backends/npu/bridge/pool_op_test.cc
+++ b/lite/backends/npu/bridge/pool_op_test.cc
--- a/lite/backends/npu/bridge/registry.cc
+++ b/lite/backends/npu/bridge/registry.cc
--- a/lite/backends/npu/bridge/registry.h
+++ b/lite/backends/npu/bridge/registry.h
--- a/lite/backends/npu/bridge/reshape_op.cc
+++ b/lite/backends/npu/bridge/reshape_op.cc
--- a/lite/backends/npu/bridge/reshape_op_test.cc
+++ b/lite/backends/npu/bridge/reshape_op_test.cc
--- a/lite/backends/npu/bridge/scale_op.cc
+++ b/lite/backends/npu/bridge/scale_op.cc
--- a/lite/backends/npu/bridge/scale_op_test.cc
+++ b/lite/backends/npu/bridge/scale_op_test.cc
--- a/lite/backends/npu/bridge/shuffle_channel_op.cc
+++ b/lite/backends/npu/bridge/shuffle_channel_op.cc
--- a/lite/backends/npu/bridge/shuffle_channel_op_test.cc
+++ b/lite/backends/npu/bridge/shuffle_channel_op_test.cc
--- a/lite/backends/npu/bridge/softmax_op.cc
+++ b/lite/backends/npu/bridge/softmax_op.cc
--- a/lite/backends/npu/bridge/softmax_op_test.cc
+++ b/lite/backends/npu/bridge/softmax_op_test.cc
--- a/lite/backends/npu/bridge/split_op.cc
+++ b/lite/backends/npu/bridge/split_op.cc
--- a/lite/backends/npu/bridge/split_op_test.cc
+++ b/lite/backends/npu/bridge/split_op_test.cc
--- a/lite/backends/npu/bridge/test_helper.cc
+++ b/lite/backends/npu/bridge/test_helper.cc
--- a/lite/backends/npu/bridge/test_helper.h
+++ b/lite/backends/npu/bridge/test_helper.h
--- a/lite/backends/npu/bridge/transpose_op.cc
+++ b/lite/backends/npu/bridge/transpose_op.cc
--- a/lite/backends/npu/bridge/transpose_op_test.cc
+++ b/lite/backends/npu/bridge/transpose_op_test.cc
--- a/lite/backends/npu/bridge/utils.cc
+++ b/lite/backends/npu/bridge/utils.cc
--- a/lite/backends/npu/bridge/utils.h
+++ b/lite/backends/npu/bridge/utils.h
--- a/lite/backends/npu/npu_helper.cc
+++ b/lite/backends/npu/npu_helper.cc
--- a/lite/backends/npu/npu_helper.h
+++ b/lite/backends/npu/npu_helper.h
--- a/lite/backends/opencl/CMakeLists.txt
+++ b/lite/backends/opencl/CMakeLists.txt
--- a/lite/backends/opencl/cl_caller.cc
+++ b/lite/backends/opencl/cl_caller.cc
--- a/lite/backends/opencl/cl_caller.h
+++ b/lite/backends/opencl/cl_caller.h
--- a/lite/backends/opencl/cl_context.cc
+++ b/lite/backends/opencl/cl_context.cc
--- a/lite/backends/opencl/cl_context.h
+++ b/lite/backends/opencl/cl_context.h
--- a/lite/backends/opencl/cl_functions_test.cc
+++ b/lite/backends/opencl/cl_functions_test.cc
--- a/lite/backends/opencl/cl_im2col_test.cc
+++ b/lite/backends/opencl/cl_im2col_test.cc
--- a/lite/backends/opencl/cl_image.cc
+++ b/lite/backends/opencl/cl_image.cc
--- a/lite/backends/opencl/cl_image.h
+++ b/lite/backends/opencl/cl_image.h
--- a/lite/backends/opencl/cl_image_converter.cc
+++ b/lite/backends/opencl/cl_image_converter.cc
--- a/lite/backends/opencl/cl_image_converter.h
+++ b/lite/backends/opencl/cl_image_converter.h
--- a/lite/backends/opencl/cl_include.h
+++ b/lite/backends/opencl/cl_include.h
--- a/lite/backends/opencl/cl_kernel/buffer/depthwise_conv2d_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/depthwise_conv2d_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/elementwise_add_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/elementwise_add_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/fc_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/fc_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/im2col_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/im2col_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/mat_mul_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/mat_mul_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/pool_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/pool_kernel.cl
--- a/lite/backends/opencl/cl_kernel/buffer/relu_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/buffer/relu_kernel.cl
--- a/lite/backends/opencl/cl_kernel/cl_common.h
+++ b/lite/backends/opencl/cl_kernel/cl_common.h
--- a/lite/backends/opencl/cl_kernel/image/channel_add_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/image/channel_add_kernel.cl
--- a/lite/backends/opencl/cl_kernel/image/elementwise_add_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/image/elementwise_add_kernel.cl
--- a/lite/backends/opencl/cl_kernel/image/pool_kernel.cl
+++ b/lite/backends/opencl/cl_kernel/image/pool_kernel.cl
--- a/lite/backends/opencl/cl_runtime.cc
+++ b/lite/backends/opencl/cl_runtime.cc
--- a/lite/backends/opencl/cl_runtime.h
+++ b/lite/backends/opencl/cl_runtime.h
--- a/lite/backends/opencl/cl_utility.cc
+++ b/lite/backends/opencl/cl_utility.cc
--- a/lite/backends/opencl/cl_utility.h
+++ b/lite/backends/opencl/cl_utility.h
--- a/lite/backends/opencl/cl_wrapper.cc
+++ b/lite/backends/opencl/cl_wrapper.cc
--- a/lite/backends/opencl/cl_wrapper.h
+++ b/lite/backends/opencl/cl_wrapper.h
--- a/lite/backends/opencl/target_wrapper.cc
+++ b/lite/backends/opencl/target_wrapper.cc
--- a/lite/backends/opencl/target_wrapper.h
+++ b/lite/backends/opencl/target_wrapper.h
--- a/lite/backends/x86/CMakeLists.txt
+++ b/lite/backends/x86/CMakeLists.txt
--- a/lite/backends/x86/cpu_info.cc
+++ b/lite/backends/x86/cpu_info.cc
--- a/lite/backends/x86/cpu_info.h
+++ b/lite/backends/x86/cpu_info.h
--- a/lite/backends/x86/cupti_lib_path.h.in
+++ b/lite/backends/x86/cupti_lib_path.h.in
--- a/lite/backends/x86/dynamic_loader.cc
+++ b/lite/backends/x86/dynamic_loader.cc
--- a/lite/backends/x86/dynamic_loader.h
+++ b/lite/backends/x86/dynamic_loader.h
--- a/lite/backends/x86/jit/CMakeLists.txt
+++ b/lite/backends/x86/jit/CMakeLists.txt
--- a/lite/backends/x86/jit/README.en.md
+++ b/lite/backends/x86/jit/README.en.md
--- a/lite/backends/x86/jit/README.md
+++ b/lite/backends/x86/jit/README.md
--- a/lite/backends/x86/jit/benchmark.cc
+++ b/lite/backends/x86/jit/benchmark.cc
--- a/lite/backends/x86/jit/gen/CMakeLists.txt
+++ b/lite/backends/x86/jit/gen/CMakeLists.txt
--- a/lite/backends/x86/jit/gen/act.cc
+++ b/lite/backends/x86/jit/gen/act.cc
--- a/lite/backends/x86/jit/gen/act.h
+++ b/lite/backends/x86/jit/gen/act.h
--- a/lite/backends/x86/jit/gen/blas.cc
+++ b/lite/backends/x86/jit/gen/blas.cc
--- a/lite/backends/x86/jit/gen/blas.h
+++ b/lite/backends/x86/jit/gen/blas.h
--- a/lite/backends/x86/jit/gen/embseqpool.cc
+++ b/lite/backends/x86/jit/gen/embseqpool.cc
--- a/lite/backends/x86/jit/gen/embseqpool.h
+++ b/lite/backends/x86/jit/gen/embseqpool.h
--- a/lite/backends/x86/jit/gen/gru.cc
+++ b/lite/backends/x86/jit/gen/gru.cc
--- a/lite/backends/x86/jit/gen/gru.h
+++ b/lite/backends/x86/jit/gen/gru.h
--- a/lite/backends/x86/jit/gen/hopv.cc
+++ b/lite/backends/x86/jit/gen/hopv.cc
--- a/lite/backends/x86/jit/gen/hopv.h
+++ b/lite/backends/x86/jit/gen/hopv.h
--- a/lite/backends/x86/jit/gen/jitcode.h
+++ b/lite/backends/x86/jit/gen/jitcode.h
--- a/lite/backends/x86/jit/gen/lstm.cc
+++ b/lite/backends/x86/jit/gen/lstm.cc
--- a/lite/backends/x86/jit/gen/lstm.h
+++ b/lite/backends/x86/jit/gen/lstm.h
--- a/lite/backends/x86/jit/gen/matmul.cc
+++ b/lite/backends/x86/jit/gen/matmul.cc
--- a/lite/backends/x86/jit/gen/matmul.h
+++ b/lite/backends/x86/jit/gen/matmul.h
--- a/lite/backends/x86/jit/gen/seqpool.cc
+++ b/lite/backends/x86/jit/gen/seqpool.cc
--- a/lite/backends/x86/jit/gen/seqpool.h
+++ b/lite/backends/x86/jit/gen/seqpool.h
--- a/lite/backends/x86/jit/gen/sgd.cc
+++ b/lite/backends/x86/jit/gen/sgd.cc
--- a/lite/backends/x86/jit/gen/sgd.h
+++ b/lite/backends/x86/jit/gen/sgd.h
--- a/lite/backends/x86/jit/gen/vbroadcast.cc
+++ b/lite/backends/x86/jit/gen/vbroadcast.cc
--- a/lite/backends/x86/jit/gen/vbroadcast.h
+++ b/lite/backends/x86/jit/gen/vbroadcast.h
--- a/lite/backends/x86/jit/gen_base.cc
+++ b/lite/backends/x86/jit/gen_base.cc
--- a/lite/backends/x86/jit/gen_base.h
+++ b/lite/backends/x86/jit/gen_base.h
--- a/lite/backends/x86/jit/helper.cc
+++ b/lite/backends/x86/jit/helper.cc
--- a/lite/backends/x86/jit/helper.h
+++ b/lite/backends/x86/jit/helper.h
--- a/lite/backends/x86/jit/kernel_base.h
+++ b/lite/backends/x86/jit/kernel_base.h
--- a/lite/backends/x86/jit/kernel_key.cc
+++ b/lite/backends/x86/jit/kernel_key.cc
--- a/lite/backends/x86/jit/kernel_key.h
+++ b/lite/backends/x86/jit/kernel_key.h
--- a/lite/backends/x86/jit/kernel_pool.cc
+++ b/lite/backends/x86/jit/kernel_pool.cc
--- a/lite/backends/x86/jit/kernel_pool.h
+++ b/lite/backends/x86/jit/kernel_pool.h
--- a/lite/backends/x86/jit/macro.h
+++ b/lite/backends/x86/jit/macro.h
--- a/lite/backends/x86/jit/more/CMakeLists.txt
+++ b/lite/backends/x86/jit/more/CMakeLists.txt
--- a/lite/backends/x86/jit/more/intrinsic/CMakeLists.txt
+++ b/lite/backends/x86/jit/more/intrinsic/CMakeLists.txt
--- a/lite/backends/x86/jit/more/intrinsic/crf_decoding.cc
+++ b/lite/backends/x86/jit/more/intrinsic/crf_decoding.cc
--- a/lite/backends/x86/jit/more/intrinsic/crf_decoding.h
+++ b/lite/backends/x86/jit/more/intrinsic/crf_decoding.h
--- a/lite/backends/x86/jit/more/intrinsic/layer_norm.cc
+++ b/lite/backends/x86/jit/more/intrinsic/layer_norm.cc
--- a/lite/backends/x86/jit/more/intrinsic/layer_norm.h
+++ b/lite/backends/x86/jit/more/intrinsic/layer_norm.h
--- a/lite/backends/x86/jit/more/mix/CMakeLists.txt
+++ b/lite/backends/x86/jit/more/mix/CMakeLists.txt
--- a/lite/backends/x86/jit/more/mix/mix.cc
+++ b/lite/backends/x86/jit/more/mix/mix.cc
--- a/lite/backends/x86/jit/more/mix/mix.h
+++ b/lite/backends/x86/jit/more/mix/mix.h
--- a/lite/backends/x86/jit/more/mkl/CMakeLists.txt
+++ b/lite/backends/x86/jit/more/mkl/CMakeLists.txt
--- a/lite/backends/x86/jit/more/mkl/mkl.cc
+++ b/lite/backends/x86/jit/more/mkl/mkl.cc
--- a/lite/backends/x86/jit/more/mkl/mkl.h
+++ b/lite/backends/x86/jit/more/mkl/mkl.h
--- a/lite/backends/x86/jit/refer/CMakeLists.txt
+++ b/lite/backends/x86/jit/refer/CMakeLists.txt
--- a/lite/backends/x86/jit/refer/refer.cc
+++ b/lite/backends/x86/jit/refer/refer.cc
--- a/lite/backends/x86/jit/refer/refer.h
+++ b/lite/backends/x86/jit/refer/refer.h
--- a/lite/backends/x86/jit/registry.h
+++ b/lite/backends/x86/jit/registry.h
--- a/lite/backends/x86/jit/test.cc
+++ b/lite/backends/x86/jit/test.cc
--- a/lite/backends/x86/legacy_place.h
+++ b/lite/backends/x86/legacy_place.h
--- a/lite/backends/x86/math/CMakeLists.txt
+++ b/lite/backends/x86/math/CMakeLists.txt
--- a/lite/backends/x86/math/beam_search.cc
+++ b/lite/backends/x86/math/beam_search.cc
--- a/lite/backends/x86/math/beam_search.h
+++ b/lite/backends/x86/math/beam_search.h
--- a/lite/backends/x86/math/beam_search_test.cc
+++ b/lite/backends/x86/math/beam_search_test.cc
--- a/lite/backends/x86/math/blas.cc
+++ b/lite/backends/x86/math/blas.cc
--- a/lite/backends/x86/math/blas.h
+++ b/lite/backends/x86/math/blas.h
--- a/lite/backends/x86/math/blas_impl.h
+++ b/lite/backends/x86/math/blas_impl.h
--- a/lite/backends/x86/math/concat_and_split.cc
+++ b/lite/backends/x86/math/concat_and_split.cc
--- a/lite/backends/x86/math/concat_and_split.h
+++ b/lite/backends/x86/math/concat_and_split.h
--- a/lite/backends/x86/math/context_project.cc
+++ b/lite/backends/x86/math/context_project.cc
--- a/lite/backends/x86/math/context_project.h
+++ b/lite/backends/x86/math/context_project.h
--- a/lite/backends/x86/math/cos_sim_functor.cc
+++ b/lite/backends/x86/math/cos_sim_functor.cc
--- a/lite/backends/x86/math/cos_sim_functor.h
+++ b/lite/backends/x86/math/cos_sim_functor.h
--- a/lite/backends/x86/math/cpu_vec.h
+++ b/lite/backends/x86/math/cpu_vec.h
--- a/lite/backends/x86/math/cross_entropy.cc
+++ b/lite/backends/x86/math/cross_entropy.cc
--- a/lite/backends/x86/math/cross_entropy.h
+++ b/lite/backends/x86/math/cross_entropy.h
--- a/lite/backends/x86/math/detail/CMakeLists.txt
+++ b/lite/backends/x86/math/detail/CMakeLists.txt
--- a/lite/backends/x86/math/detail/activation_functions.h
+++ b/lite/backends/x86/math/detail/activation_functions.h
--- a/lite/backends/x86/math/detail/avx_functions.cc
+++ b/lite/backends/x86/math/detail/avx_functions.cc
--- a/lite/backends/x86/math/detail/avx_mathfun.h
+++ b/lite/backends/x86/math/detail/avx_mathfun.h
--- a/lite/backends/x86/math/detail/gru_cpu_kernel.h
+++ b/lite/backends/x86/math/detail/gru_cpu_kernel.h
--- a/lite/backends/x86/math/detail/gru_kernel.h
+++ b/lite/backends/x86/math/detail/gru_kernel.h
--- a/lite/backends/x86/math/gru_compute.cc
+++ b/lite/backends/x86/math/gru_compute.cc
--- a/lite/backends/x86/math/gru_compute.h
+++ b/lite/backends/x86/math/gru_compute.h
--- a/lite/backends/x86/math/im2col.cc
+++ b/lite/backends/x86/math/im2col.cc
--- a/lite/backends/x86/math/im2col.h
+++ b/lite/backends/x86/math/im2col.h
--- a/lite/backends/x86/math/im2col_cfo_cpu.h
+++ b/lite/backends/x86/math/im2col_cfo_cpu.h
--- a/lite/backends/x86/math/im2col_test.cc
+++ b/lite/backends/x86/math/im2col_test.cc
--- a/lite/backends/x86/math/math_function.cc
+++ b/lite/backends/x86/math/math_function.cc
--- a/lite/backends/x86/math/math_function.h
+++ b/lite/backends/x86/math/math_function.h
--- a/lite/backends/x86/math/math_function_impl.h
+++ b/lite/backends/x86/math/math_function_impl.h
--- a/lite/backends/x86/math/math_function_test.cc
+++ b/lite/backends/x86/math/math_function_test.cc
--- a/lite/backends/x86/math/maxouting.cc
+++ b/lite/backends/x86/math/maxouting.cc
--- a/lite/backends/x86/math/maxouting.h
+++ b/lite/backends/x86/math/maxouting.h
--- a/lite/backends/x86/math/pooling.cc
+++ b/lite/backends/x86/math/pooling.cc
--- a/lite/backends/x86/math/pooling.h
+++ b/lite/backends/x86/math/pooling.h
--- a/lite/backends/x86/math/prelu.h
+++ b/lite/backends/x86/math/prelu.h
--- a/lite/backends/x86/math/sample_prob.cc
+++ b/lite/backends/x86/math/sample_prob.cc
--- a/lite/backends/x86/math/sample_prob.h
+++ b/lite/backends/x86/math/sample_prob.h
--- a/lite/backends/x86/math/sampler.cc
+++ b/lite/backends/x86/math/sampler.cc
--- a/lite/backends/x86/math/sampler.h
+++ b/lite/backends/x86/math/sampler.h
--- a/lite/backends/x86/math/sequence2batch.cc
+++ b/lite/backends/x86/math/sequence2batch.cc
--- a/lite/backends/x86/math/sequence2batch.h
+++ b/lite/backends/x86/math/sequence2batch.h
--- a/lite/backends/x86/math/sequence_padding.cc
+++ b/lite/backends/x86/math/sequence_padding.cc
--- a/lite/backends/x86/math/sequence_padding.h
+++ b/lite/backends/x86/math/sequence_padding.h
--- a/lite/backends/x86/math/sequence_pooling.cc
+++ b/lite/backends/x86/math/sequence_pooling.cc
--- a/lite/backends/x86/math/sequence_pooling.h
+++ b/lite/backends/x86/math/sequence_pooling.h
--- a/lite/backends/x86/math/sequence_pooling_test.cc
+++ b/lite/backends/x86/math/sequence_pooling_test.cc
--- a/lite/backends/x86/math/sequence_scale.cc
+++ b/lite/backends/x86/math/sequence_scale.cc
--- a/lite/backends/x86/math/sequence_scale.h
+++ b/lite/backends/x86/math/sequence_scale.h
--- a/lite/backends/x86/math/softmax.cc
+++ b/lite/backends/x86/math/softmax.cc
--- a/lite/backends/x86/math/softmax.h
+++ b/lite/backends/x86/math/softmax.h
--- a/lite/backends/x86/math/softmax_impl.h
+++ b/lite/backends/x86/math/softmax_impl.h
--- a/lite/backends/x86/math/tree2col.cc
+++ b/lite/backends/x86/math/tree2col.cc
--- a/lite/backends/x86/math/tree2col.h
+++ b/lite/backends/x86/math/tree2col.h
--- a/lite/backends/x86/math/unpooling.cc
+++ b/lite/backends/x86/math/unpooling.cc
--- a/lite/backends/x86/math/unpooling.h
+++ b/lite/backends/x86/math/unpooling.h
--- a/lite/backends/x86/math/vol2col.cc
+++ b/lite/backends/x86/math/vol2col.cc
--- a/lite/backends/x86/math/vol2col.h
+++ b/lite/backends/x86/math/vol2col.h
--- a/lite/backends/x86/mklml.cc
+++ b/lite/backends/x86/mklml.cc
--- a/lite/backends/x86/mklml.h
+++ b/lite/backends/x86/mklml.h
--- a/lite/backends/x86/port.h
+++ b/lite/backends/x86/port.h
--- a/lite/backends/x86/target_wrapper.cc
+++ b/lite/backends/x86/target_wrapper.cc
--- a/lite/backends/x86/target_wrapper.h
+++ b/lite/backends/x86/target_wrapper.h
--- a/lite/backends/x86/warpctc_lib_path.h.in
+++ b/lite/backends/x86/warpctc_lib_path.h.in
--- a/lite/core/CMakeLists.txt
+++ b/lite/core/CMakeLists.txt
--- a/lite/core/arena/CMakeLists.txt
+++ b/lite/core/arena/CMakeLists.txt
--- a/lite/core/arena/framework.cc
+++ b/lite/core/arena/framework.cc
--- a/lite/core/arena/framework.h
+++ b/lite/core/arena/framework.h
--- a/lite/core/arena/framework_test.cc
+++ b/lite/core/arena/framework_test.cc
--- a/lite/core/context.cc
+++ b/lite/core/context.cc
--- a/lite/core/context.h
+++ b/lite/core/context.h
--- a/lite/core/context_test.cc
+++ b/lite/core/context_test.cc
--- a/lite/core/device_info.cc
+++ b/lite/core/device_info.cc
--- a/lite/core/device_info.h
+++ b/lite/core/device_info.h
--- a/lite/core/framework.proto
+++ b/lite/core/framework.proto
--- a/lite/core/kernel.cc
+++ b/lite/core/kernel.cc
--- a/lite/core/kernel.h
+++ b/lite/core/kernel.h
--- a/lite/core/kernel_test.cc
+++ b/lite/core/kernel_test.cc
--- a/lite/core/lite.map
+++ b/lite/core/lite.map
--- a/lite/core/lite_gtest_main.cc
+++ b/lite/core/lite_gtest_main.cc
--- a/lite/core/lite_tensor_test.cc
+++ b/lite/core/lite_tensor_test.cc
--- a/lite/core/memory.cc
+++ b/lite/core/memory.cc
--- a/lite/core/memory.h
+++ b/lite/core/memory.h
--- a/lite/core/memory_test.cc
+++ b/lite/core/memory_test.cc
--- a/lite/core/mir/CMakeLists.txt
+++ b/lite/core/mir/CMakeLists.txt
--- a/lite/core/mir/argument_type_display_pass.cc
+++ b/lite/core/mir/argument_type_display_pass.cc
--- a/lite/core/mir/demo_pass.cc
+++ b/lite/core/mir/demo_pass.cc
--- a/lite/core/mir/dot.h
+++ b/lite/core/mir/dot.h
--- a/lite/core/mir/elimination/CMakeLists.txt
+++ b/lite/core/mir/elimination/CMakeLists.txt
--- a/lite/core/mir/elimination/identity_scale_eliminate_pass.cc
+++ b/lite/core/mir/elimination/identity_scale_eliminate_pass.cc
--- a/lite/core/mir/elimination/identity_scale_eliminate_pass_test.cc
+++ b/lite/core/mir/elimination/identity_scale_eliminate_pass_test.cc
--- a/lite/core/mir/fusion/CMakeLists.txt
+++ b/lite/core/mir/fusion/CMakeLists.txt
--- a/lite/core/mir/fusion/conv_activation_fuse_pass.cc
+++ b/lite/core/mir/fusion/conv_activation_fuse_pass.cc
--- a/lite/core/mir/fusion/conv_activation_fuse_pass.h
+++ b/lite/core/mir/fusion/conv_activation_fuse_pass.h
--- a/lite/core/mir/fusion/conv_activation_fuser.cc
+++ b/lite/core/mir/fusion/conv_activation_fuser.cc
--- a/lite/core/mir/fusion/conv_activation_fuser.h
+++ b/lite/core/mir/fusion/conv_activation_fuser.h
--- a/lite/core/mir/fusion/conv_bn_fuse_pass.cc
+++ b/lite/core/mir/fusion/conv_bn_fuse_pass.cc
--- a/lite/core/mir/fusion/conv_bn_fuse_pass.h
+++ b/lite/core/mir/fusion/conv_bn_fuse_pass.h
--- a/lite/core/mir/fusion/conv_bn_fuse_pass_test.cc
+++ b/lite/core/mir/fusion/conv_bn_fuse_pass_test.cc
--- a/lite/core/mir/fusion/conv_bn_fuser.cc
+++ b/lite/core/mir/fusion/conv_bn_fuser.cc
--- a/lite/core/mir/fusion/conv_bn_fuser.h
+++ b/lite/core/mir/fusion/conv_bn_fuser.h
--- a/lite/core/mir/fusion/conv_elementwise_add_activation_fuse_pass_test.cc
+++ b/lite/core/mir/fusion/conv_elementwise_add_activation_fuse_pass_test.cc
--- a/lite/core/mir/fusion/conv_elementwise_fuse_pass.cc
+++ b/lite/core/mir/fusion/conv_elementwise_fuse_pass.cc
--- a/lite/core/mir/fusion/conv_elementwise_fuse_pass.h
+++ b/lite/core/mir/fusion/conv_elementwise_fuse_pass.h
--- a/lite/core/mir/fusion/conv_elementwise_fuser.cc
+++ b/lite/core/mir/fusion/conv_elementwise_fuser.cc
--- a/lite/core/mir/fusion/conv_elementwise_fuser.h
+++ b/lite/core/mir/fusion/conv_elementwise_fuser.h
--- a/lite/core/mir/fusion/elementwise_add_activation_fuse_pass.cc
+++ b/lite/core/mir/fusion/elementwise_add_activation_fuse_pass.cc
--- a/lite/core/mir/fusion/elementwise_add_activation_fuse_pass.h
+++ b/lite/core/mir/fusion/elementwise_add_activation_fuse_pass.h
--- a/lite/core/mir/fusion/elementwise_add_activation_fuse_pass_test.cc
+++ b/lite/core/mir/fusion/elementwise_add_activation_fuse_pass_test.cc
--- a/lite/core/mir/fusion/elementwise_add_activation_fuser.cc
+++ b/lite/core/mir/fusion/elementwise_add_activation_fuser.cc
--- a/lite/core/mir/fusion/elementwise_add_activation_fuser.h
+++ b/lite/core/mir/fusion/elementwise_add_activation_fuser.h
--- a/lite/core/mir/fusion/fc_fuse_pass.cc
+++ b/lite/core/mir/fusion/fc_fuse_pass.cc
--- a/lite/core/mir/fusion/fc_fuse_pass.h
+++ b/lite/core/mir/fusion/fc_fuse_pass.h
--- a/lite/core/mir/fusion/fc_fuse_pass_test.cc
+++ b/lite/core/mir/fusion/fc_fuse_pass_test.cc
--- a/lite/core/mir/fusion/fc_fuser.cc
+++ b/lite/core/mir/fusion/fc_fuser.cc
--- a/lite/core/mir/fusion/fc_fuser.h
+++ b/lite/core/mir/fusion/fc_fuser.h
--- a/lite/core/mir/fusion/interpolate_fuse_pass.cc
+++ b/lite/core/mir/fusion/interpolate_fuse_pass.cc
--- a/lite/core/mir/fusion/interpolate_fuse_pass.h
+++ b/lite/core/mir/fusion/interpolate_fuse_pass.h
--- a/lite/core/mir/fusion/interpolate_fuser.cc
+++ b/lite/core/mir/fusion/interpolate_fuser.cc
--- a/lite/core/mir/fusion/interpolate_fuser.h
+++ b/lite/core/mir/fusion/interpolate_fuser.h
--- a/lite/core/mir/fusion/quant_dequant_fuse_pass.cc
+++ b/lite/core/mir/fusion/quant_dequant_fuse_pass.cc
--- a/lite/core/mir/fusion/quant_dequant_fuse_pass.h
+++ b/lite/core/mir/fusion/quant_dequant_fuse_pass.h
--- a/lite/core/mir/fusion/quant_dequant_op_fuser.cc
+++ b/lite/core/mir/fusion/quant_dequant_op_fuser.cc
--- a/lite/core/mir/fusion/quant_dequant_op_fuser.h
+++ b/lite/core/mir/fusion/quant_dequant_op_fuser.h
--- a/lite/core/mir/fusion/shuffle_channel_fuse_pass.cc
+++ b/lite/core/mir/fusion/shuffle_channel_fuse_pass.cc
--- a/lite/core/mir/fusion/shuffle_channel_fuse_pass.h
+++ b/lite/core/mir/fusion/shuffle_channel_fuse_pass.h
--- a/lite/core/mir/fusion/shuffle_channel_fuser.cc
+++ b/lite/core/mir/fusion/shuffle_channel_fuser.cc
--- a/lite/core/mir/fusion/shuffle_channel_fuser.h
+++ b/lite/core/mir/fusion/shuffle_channel_fuser.h
--- a/lite/core/mir/fusion/transpose_softmax_transpose_fuse_pass.cc
+++ b/lite/core/mir/fusion/transpose_softmax_transpose_fuse_pass.cc
--- a/lite/core/mir/fusion/transpose_softmax_transpose_fuse_pass.h
+++ b/lite/core/mir/fusion/transpose_softmax_transpose_fuse_pass.h
--- a/lite/core/mir/fusion/transpose_softmax_transpose_fuser.cc
+++ b/lite/core/mir/fusion/transpose_softmax_transpose_fuser.cc
--- a/lite/core/mir/fusion/transpose_softmax_transpose_fuser.h
+++ b/lite/core/mir/fusion/transpose_softmax_transpose_fuser.h
--- a/lite/core/mir/generate_program_pass.cc
+++ b/lite/core/mir/generate_program_pass.cc
--- a/lite/core/mir/generate_program_pass.h
+++ b/lite/core/mir/generate_program_pass.h
--- a/lite/core/mir/graph_visualize_pass.cc
+++ b/lite/core/mir/graph_visualize_pass.cc
--- a/lite/core/mir/graph_visualize_pass.h
+++ b/lite/core/mir/graph_visualize_pass.h
--- a/lite/core/mir/io_copy_kernel_pick_pass.cc
+++ b/lite/core/mir/io_copy_kernel_pick_pass.cc
--- a/lite/core/mir/node.cc
+++ b/lite/core/mir/node.cc
--- a/lite/core/mir/node.h
+++ b/lite/core/mir/node.h
--- a/lite/core/mir/pass.cc
+++ b/lite/core/mir/pass.cc
--- a/lite/core/mir/pass.h
+++ b/lite/core/mir/pass.h
--- a/lite/core/mir/pass_manager.cc
+++ b/lite/core/mir/pass_manager.cc
--- a/lite/core/mir/pass_manager.h
+++ b/lite/core/mir/pass_manager.h
--- a/lite/core/mir/pass_manager_test.cc
+++ b/lite/core/mir/pass_manager_test.cc
--- a/lite/core/mir/pass_registry.cc
+++ b/lite/core/mir/pass_registry.cc
--- a/lite/core/mir/pass_registry.h
+++ b/lite/core/mir/pass_registry.h
--- a/lite/core/mir/pattern_matcher.cc
+++ b/lite/core/mir/pattern_matcher.cc
--- a/lite/core/mir/pattern_matcher.h
+++ b/lite/core/mir/pattern_matcher.h
--- a/lite/core/mir/pattern_matcher_high_api.cc
+++ b/lite/core/mir/pattern_matcher_high_api.cc
--- a/lite/core/mir/pattern_matcher_high_api.h
+++ b/lite/core/mir/pattern_matcher_high_api.h
--- a/lite/core/mir/pattern_matcher_high_api_test.cc
+++ b/lite/core/mir/pattern_matcher_high_api_test.cc
--- a/lite/core/mir/pattern_matcher_test.cc
+++ b/lite/core/mir/pattern_matcher_test.cc
--- a/lite/core/mir/pattern_matcher_tester.cc
+++ b/lite/core/mir/pattern_matcher_tester.cc
--- a/lite/core/mir/runtime_context_assign_pass.cc
+++ b/lite/core/mir/runtime_context_assign_pass.cc
--- a/lite/core/mir/ssa_graph.cc
+++ b/lite/core/mir/ssa_graph.cc
--- a/lite/core/mir/ssa_graph.h
+++ b/lite/core/mir/ssa_graph.h
--- a/lite/core/mir/ssa_graph_test.cc
+++ b/lite/core/mir/ssa_graph_test.cc
--- a/lite/core/mir/static_kernel_pick_pass.cc
+++ b/lite/core/mir/static_kernel_pick_pass.cc
--- a/lite/core/mir/static_kernel_pick_pass.h
+++ b/lite/core/mir/static_kernel_pick_pass.h
--- a/lite/core/mir/subgraph/CMakeLists.txt
+++ b/lite/core/mir/subgraph/CMakeLists.txt
--- a/lite/core/mir/subgraph/generate_npu_program_pass.cc
+++ b/lite/core/mir/subgraph/generate_npu_program_pass.cc
--- a/lite/core/mir/subgraph/generate_npu_program_pass.h
+++ b/lite/core/mir/subgraph/generate_npu_program_pass.h
--- a/lite/core/mir/subgraph/generate_npu_program_pass_test.cc
+++ b/lite/core/mir/subgraph/generate_npu_program_pass_test.cc
--- a/lite/core/mir/subgraph/subgraph_program_pass.cc
+++ b/lite/core/mir/subgraph/subgraph_program_pass.cc
--- a/lite/core/mir/subgraph/subgraph_program_pass.h
+++ b/lite/core/mir/subgraph/subgraph_program_pass.h
--- a/lite/core/mir/subgraph/subgraph_program_pass_test.cc
+++ b/lite/core/mir/subgraph/subgraph_program_pass_test.cc
--- a/lite/core/mir/type_layout_cast_pass.cc
+++ b/lite/core/mir/type_layout_cast_pass.cc
--- a/lite/core/mir/type_layout_cast_pass.h
+++ b/lite/core/mir/type_layout_cast_pass.h
--- a/lite/core/mir/type_precision_cast_pass.cc
+++ b/lite/core/mir/type_precision_cast_pass.cc
--- a/lite/core/mir/type_precision_cast_pass.h
+++ b/lite/core/mir/type_precision_cast_pass.h
--- a/lite/core/mir/type_target_cast_pass.cc
+++ b/lite/core/mir/type_target_cast_pass.cc
--- a/lite/core/mir/type_target_cast_pass.h
+++ b/lite/core/mir/type_target_cast_pass.h
--- a/lite/core/mir/variable_place_inference_pass.cc
+++ b/lite/core/mir/variable_place_inference_pass.cc
--- a/lite/core/mir/variable_place_inference_pass.h
+++ b/lite/core/mir/variable_place_inference_pass.h
--- a/lite/core/mir/variable_place_inference_pass_test.cc
+++ b/lite/core/mir/variable_place_inference_pass_test.cc
--- a/lite/core/naive_test_model.py
+++ b/lite/core/naive_test_model.py
--- a/lite/core/op_lite.cc
+++ b/lite/core/op_lite.cc
--- a/lite/core/op_lite.h
+++ b/lite/core/op_lite.h
--- a/lite/core/op_lite_test.cc
+++ b/lite/core/op_lite_test.cc
--- a/lite/core/op_registry.cc
+++ b/lite/core/op_registry.cc
--- a/lite/core/op_registry.h
+++ b/lite/core/op_registry.h
--- a/lite/core/optimizer.cc
+++ b/lite/core/optimizer.cc
--- a/lite/core/optimizer.h
+++ b/lite/core/optimizer.h
--- a/lite/core/optimizer_test.cc
+++ b/lite/core/optimizer_test.cc
--- a/lite/core/profile/CMakeLists.txt
+++ b/lite/core/profile/CMakeLists.txt
--- a/lite/core/profile/basic_profiler.cc
+++ b/lite/core/profile/basic_profiler.cc
--- a/lite/core/profile/basic_profiler.h
+++ b/lite/core/profile/basic_profiler.h
--- a/lite/core/profile/basic_profiler_test.cc
+++ b/lite/core/profile/basic_profiler_test.cc
--- a/lite/core/profile/precision_profiler.h
+++ b/lite/core/profile/precision_profiler.h
--- a/lite/core/program.cc
+++ b/lite/core/program.cc
--- a/lite/core/program.h
+++ b/lite/core/program.h
--- a/lite/core/program_fake_utils.cc
+++ b/lite/core/program_fake_utils.cc
--- a/lite/core/program_fake_utils.h
+++ b/lite/core/program_fake_utils.h
--- a/lite/core/scope.cc
+++ b/lite/core/scope.cc
--- a/lite/core/scope.h
+++ b/lite/core/scope.h
--- a/lite/core/scope_test.cc
+++ b/lite/core/scope_test.cc
--- a/lite/core/target_wrapper.cc
+++ b/lite/core/target_wrapper.cc
--- a/lite/core/target_wrapper.h
+++ b/lite/core/target_wrapper.h
--- a/lite/core/tensor.cc
+++ b/lite/core/tensor.cc
--- a/lite/core/tensor.h
+++ b/lite/core/tensor.h
--- a/lite/core/type_system.cc
+++ b/lite/core/type_system.cc
--- a/lite/core/type_system.h
+++ b/lite/core/type_system.h
--- a/lite/core/type_system_test.cc
+++ b/lite/core/type_system_test.cc
--- a/lite/core/types.cc
+++ b/lite/core/types.cc
--- a/lite/core/types.h
+++ b/lite/core/types.h
--- a/lite/core/types_test.cc
+++ b/lite/core/types_test.cc
--- a/lite/core/variable.cc
+++ b/lite/core/variable.cc
--- a/lite/core/variable.h
+++ b/lite/core/variable.h
--- a/lite/core/workspace.cc
+++ b/lite/core/workspace.cc
--- a/lite/core/workspace.h
+++ b/lite/core/workspace.h
--- a/lite/demo/cxx/Makefile.def
+++ b/lite/demo/cxx/Makefile.def
--- a/lite/demo/cxx/README.md
+++ b/lite/demo/cxx/README.md
--- a/lite/demo/cxx/makefiles/mobile_full/Makefile.android.armv7
+++ b/lite/demo/cxx/makefiles/mobile_full/Makefile.android.armv7
--- a/lite/demo/cxx/makefiles/mobile_full/Makefile.android.armv8
+++ b/lite/demo/cxx/makefiles/mobile_full/Makefile.android.armv8
--- a/lite/demo/cxx/makefiles/mobile_light/Makefile.android.armv7
+++ b/lite/demo/cxx/makefiles/mobile_light/Makefile.android.armv7
--- a/lite/demo/cxx/makefiles/mobile_light/Makefile.android.armv8
+++ b/lite/demo/cxx/makefiles/mobile_light/Makefile.android.armv8
--- a/lite/demo/cxx/mobile_full/mobilenetv1_full_api.cc
+++ b/lite/demo/cxx/mobile_full/mobilenetv1_full_api.cc
--- a/lite/demo/cxx/mobile_light/mobilenetv1_light_api.cc
+++ b/lite/demo/cxx/mobile_light/mobilenetv1_light_api.cc
--- a/lite/demo/java/README.md
+++ b/lite/demo/java/README.md
--- a/lite/demo/java/android/PaddlePredictor/.gitignore
+++ b/lite/demo/java/android/PaddlePredictor/.gitignore
--- a/lite/demo/java/android/PaddlePredictor/app/.gitignore
+++ b/lite/demo/java/android/PaddlePredictor/app/.gitignore
--- a/lite/demo/java/android/PaddlePredictor/app/build.gradle
+++ b/lite/demo/java/android/PaddlePredictor/app/build.gradle
--- a/lite/demo/java/android/PaddlePredictor/app/proguard-rules.pro
+++ b/lite/demo/java/android/PaddlePredictor/app/proguard-rules.pro
--- a/lite/demo/java/android/PaddlePredictor/app/src/androidTest/java/com/baidu/paddle/lite/ExampleInstrumentedTest.java
+++ b/lite/demo/java/android/PaddlePredictor/app/src/androidTest/java/com/baidu/paddle/lite/ExampleInstrumentedTest.java
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/AndroidManifest.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/AndroidManifest.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/assets/README.txt
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/assets/README.txt
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/java/com/baidu/paddle/lite/MainActivity.java
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/java/com/baidu/paddle/lite/MainActivity.java
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/drawable-v24/ic_launcher_foreground.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/drawable-v24/ic_launcher_foreground.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/drawable/ic_launcher_background.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/drawable/ic_launcher_background.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/layout/activity_main.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/layout/activity_main.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-anydpi-v26/ic_launcher.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-anydpi-v26/ic_launcher.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-anydpi-v26/ic_launcher_round.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-anydpi-v26/ic_launcher_round.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-hdpi/ic_launcher.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-hdpi/ic_launcher.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-hdpi/ic_launcher_round.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-hdpi/ic_launcher_round.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-mdpi/ic_launcher.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-mdpi/ic_launcher.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-mdpi/ic_launcher_round.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-mdpi/ic_launcher_round.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xhdpi/ic_launcher.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xhdpi/ic_launcher.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xhdpi/ic_launcher_round.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xhdpi/ic_launcher_round.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxhdpi/ic_launcher.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxhdpi/ic_launcher.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxhdpi/ic_launcher_round.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxhdpi/ic_launcher_round.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxxhdpi/ic_launcher.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxxhdpi/ic_launcher.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxxhdpi/ic_launcher_round.png
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/mipmap-xxxhdpi/ic_launcher_round.png
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/colors.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/colors.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/strings.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/strings.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/styles.xml
+++ b/lite/demo/java/android/PaddlePredictor/app/src/main/res/values/styles.xml
--- a/lite/demo/java/android/PaddlePredictor/app/src/test/java/com/baidu/paddle/lite/ExampleUnitTest.java
+++ b/lite/demo/java/android/PaddlePredictor/app/src/test/java/com/baidu/paddle/lite/ExampleUnitTest.java
--- a/lite/demo/java/android/PaddlePredictor/build.gradle
+++ b/lite/demo/java/android/PaddlePredictor/build.gradle
--- a/lite/demo/java/android/PaddlePredictor/gradle.properties
+++ b/lite/demo/java/android/PaddlePredictor/gradle.properties
--- a/lite/demo/java/android/PaddlePredictor/gradle/wrapper/gradle-wrapper.jar
+++ b/lite/demo/java/android/PaddlePredictor/gradle/wrapper/gradle-wrapper.jar
--- a/lite/demo/java/android/PaddlePredictor/gradle/wrapper/gradle-wrapper.properties
+++ b/lite/demo/java/android/PaddlePredictor/gradle/wrapper/gradle-wrapper.properties
--- a/lite/demo/java/android/PaddlePredictor/gradlew
+++ b/lite/demo/java/android/PaddlePredictor/gradlew
--- a/lite/demo/java/android/PaddlePredictor/gradlew.bat
+++ b/lite/demo/java/android/PaddlePredictor/gradlew.bat
--- a/lite/demo/java/android/PaddlePredictor/settings.gradle
+++ b/lite/demo/java/android/PaddlePredictor/settings.gradle
--- a/lite/demo/java/android/prepare_demo.bash
+++ b/lite/demo/java/android/prepare_demo.bash
--- a/lite/fluid/CMakeLists.txt
+++ b/lite/fluid/CMakeLists.txt
--- a/lite/fluid/data_type.cc
+++ b/lite/fluid/data_type.cc
--- a/lite/fluid/data_type.h
+++ b/lite/fluid/data_type.h
--- a/lite/fluid/data_type_test.cc
+++ b/lite/fluid/data_type_test.cc
--- a/lite/fluid/eigen.h
+++ b/lite/fluid/eigen.h
--- a/lite/fluid/float16.h
+++ b/lite/fluid/float16.h
--- a/lite/fluid/lod.h
+++ b/lite/fluid/lod.h
--- a/lite/fluid/math.h
+++ b/lite/fluid/math.h
--- a/lite/gen_code/CMakeLists.txt
+++ b/lite/gen_code/CMakeLists.txt
--- a/lite/gen_code/gen_code.cc
+++ b/lite/gen_code/gen_code.cc
--- a/lite/gen_code/gen_code.h
+++ b/lite/gen_code/gen_code.h
--- a/lite/gen_code/gen_code_test.cc
+++ b/lite/gen_code/gen_code_test.cc
--- a/lite/gen_code/generated_code_test.cc
+++ b/lite/gen_code/generated_code_test.cc
--- a/lite/gen_code/paddle_code_generator.cc
+++ b/lite/gen_code/paddle_code_generator.cc
--- a/lite/gen_code/paddle_infer.cc
+++ b/lite/gen_code/paddle_infer.cc
--- a/lite/gen_code/paddle_infer.h
+++ b/lite/gen_code/paddle_infer.h
--- a/lite/kernels/CMakeLists.txt
+++ b/lite/kernels/CMakeLists.txt
--- a/lite/kernels/arm/CMakeLists.txt
+++ b/lite/kernels/arm/CMakeLists.txt
--- a/lite/kernels/arm/activation_compute.cc
+++ b/lite/kernels/arm/activation_compute.cc
--- a/lite/kernels/arm/activation_compute.h
+++ b/lite/kernels/arm/activation_compute.h
--- a/lite/kernels/arm/affine_channel_compute.cc
+++ b/lite/kernels/arm/affine_channel_compute.cc
--- a/lite/kernels/arm/affine_channel_compute.h
+++ b/lite/kernels/arm/affine_channel_compute.h
--- a/lite/kernels/arm/anchor_generator_compute.cc
+++ b/lite/kernels/arm/anchor_generator_compute.cc
--- a/lite/kernels/arm/anchor_generator_compute.h
+++ b/lite/kernels/arm/anchor_generator_compute.h
--- a/lite/kernels/arm/argmax_compute.cc
+++ b/lite/kernels/arm/argmax_compute.cc
--- a/lite/kernels/arm/argmax_compute.h
+++ b/lite/kernels/arm/argmax_compute.h
--- a/lite/kernels/arm/argmax_compute_test.cc
+++ b/lite/kernels/arm/argmax_compute_test.cc
--- a/lite/kernels/arm/assign_compute.cc
+++ b/lite/kernels/arm/assign_compute.cc
--- a/lite/kernels/arm/assign_compute.h
+++ b/lite/kernels/arm/assign_compute.h
--- a/lite/kernels/arm/assign_value_compute.cc
+++ b/lite/kernels/arm/assign_value_compute.cc
--- a/lite/kernels/arm/assign_value_compute.h
+++ b/lite/kernels/arm/assign_value_compute.h
--- a/lite/kernels/arm/axpy_compute.cc
+++ b/lite/kernels/arm/axpy_compute.cc
--- a/lite/kernels/arm/axpy_compute.h
+++ b/lite/kernels/arm/axpy_compute.h
--- a/lite/kernels/arm/axpy_compute_test.cc
+++ b/lite/kernels/arm/axpy_compute_test.cc
--- a/lite/kernels/arm/batch_norm_compute.cc
+++ b/lite/kernels/arm/batch_norm_compute.cc
--- a/lite/kernels/arm/batch_norm_compute.h
+++ b/lite/kernels/arm/batch_norm_compute.h
--- a/lite/kernels/arm/batch_norm_compute_test.cc
+++ b/lite/kernels/arm/batch_norm_compute_test.cc
--- a/lite/kernels/arm/beam_search_compute.cc
+++ b/lite/kernels/arm/beam_search_compute.cc
--- a/lite/kernels/arm/beam_search_compute.h
+++ b/lite/kernels/arm/beam_search_compute.h
--- a/lite/kernels/arm/beam_search_decode_compute.cc
+++ b/lite/kernels/arm/beam_search_decode_compute.cc
--- a/lite/kernels/arm/beam_search_decode_compute.h
+++ b/lite/kernels/arm/beam_search_decode_compute.h
--- a/lite/kernels/arm/box_clip_compute.cc
+++ b/lite/kernels/arm/box_clip_compute.cc
--- a/lite/kernels/arm/box_clip_compute.h
+++ b/lite/kernels/arm/box_clip_compute.h
--- a/lite/kernels/arm/box_coder_compute.cc
+++ b/lite/kernels/arm/box_coder_compute.cc
--- a/lite/kernels/arm/box_coder_compute.h
+++ b/lite/kernels/arm/box_coder_compute.h
--- a/lite/kernels/arm/calib_compute.cc
+++ b/lite/kernels/arm/calib_compute.cc
--- a/lite/kernels/arm/calib_compute.h
+++ b/lite/kernels/arm/calib_compute.h
--- a/lite/kernels/arm/calib_compute_test.cc
+++ b/lite/kernels/arm/calib_compute_test.cc
--- a/lite/kernels/arm/cast_compute.cc
+++ b/lite/kernels/arm/cast_compute.cc
--- a/lite/kernels/arm/cast_compute.h
+++ b/lite/kernels/arm/cast_compute.h
--- a/lite/kernels/arm/compare_compute.cc
+++ b/lite/kernels/arm/compare_compute.cc
--- a/lite/kernels/arm/compare_compute.h
+++ b/lite/kernels/arm/compare_compute.h
--- a/lite/kernels/arm/concat_compute.cc
+++ b/lite/kernels/arm/concat_compute.cc
--- a/lite/kernels/arm/concat_compute.h
+++ b/lite/kernels/arm/concat_compute.h
--- a/lite/kernels/arm/concat_compute_test.cc
+++ b/lite/kernels/arm/concat_compute_test.cc
--- a/lite/kernels/arm/conv_compute.cc
+++ b/lite/kernels/arm/conv_compute.cc
--- a/lite/kernels/arm/conv_compute.h
+++ b/lite/kernels/arm/conv_compute.h
--- a/lite/kernels/arm/conv_compute_test.cc
+++ b/lite/kernels/arm/conv_compute_test.cc
--- a/lite/kernels/arm/conv_transpose_compute.cc
+++ b/lite/kernels/arm/conv_transpose_compute.cc
--- a/lite/kernels/arm/conv_transpose_compute.h
+++ b/lite/kernels/arm/conv_transpose_compute.h
--- a/lite/kernels/arm/conv_transpose_compute_test.cc
+++ b/lite/kernels/arm/conv_transpose_compute_test.cc
--- a/lite/kernels/arm/crop_compute.cc
+++ b/lite/kernels/arm/crop_compute.cc
--- a/lite/kernels/arm/crop_compute.h
+++ b/lite/kernels/arm/crop_compute.h
--- a/lite/kernels/arm/decode_bboxes_compute.cc
+++ b/lite/kernels/arm/decode_bboxes_compute.cc
--- a/lite/kernels/arm/decode_bboxes_compute.h
+++ b/lite/kernels/arm/decode_bboxes_compute.h
--- a/lite/kernels/arm/decode_bboxes_compute_test.cc
+++ b/lite/kernels/arm/decode_bboxes_compute_test.cc
--- a/lite/kernels/arm/density_prior_box_compute.cc
+++ b/lite/kernels/arm/density_prior_box_compute.cc
--- a/lite/kernels/arm/density_prior_box_compute.h
+++ b/lite/kernels/arm/density_prior_box_compute.h
--- a/lite/kernels/arm/dropout_compute.cc
+++ b/lite/kernels/arm/dropout_compute.cc
--- a/lite/kernels/arm/dropout_compute.h
+++ b/lite/kernels/arm/dropout_compute.h
--- a/lite/kernels/arm/dropout_compute_test.cc
+++ b/lite/kernels/arm/dropout_compute_test.cc
--- a/lite/kernels/arm/elementwise_compute.cc
+++ b/lite/kernels/arm/elementwise_compute.cc
--- a/lite/kernels/arm/elementwise_compute.h
+++ b/lite/kernels/arm/elementwise_compute.h
--- a/lite/kernels/arm/elementwise_compute_test.cc
+++ b/lite/kernels/arm/elementwise_compute_test.cc
--- a/lite/kernels/arm/expand_compute.cc
+++ b/lite/kernels/arm/expand_compute.cc
--- a/lite/kernels/arm/expand_compute.h
+++ b/lite/kernels/arm/expand_compute.h
--- a/lite/kernels/arm/fc_compute.cc
+++ b/lite/kernels/arm/fc_compute.cc
--- a/lite/kernels/arm/fc_compute.h
+++ b/lite/kernels/arm/fc_compute.h
--- a/lite/kernels/arm/fc_compute_test.cc
+++ b/lite/kernels/arm/fc_compute_test.cc
--- a/lite/kernels/arm/fill_constant_compute.cc
+++ b/lite/kernels/arm/fill_constant_compute.cc
--- a/lite/kernels/arm/generate_proposals_compute.cc
+++ b/lite/kernels/arm/generate_proposals_compute.cc
--- a/lite/kernels/arm/generate_proposals_compute.h
+++ b/lite/kernels/arm/generate_proposals_compute.h
--- a/lite/kernels/arm/gru_compute.cc
+++ b/lite/kernels/arm/gru_compute.cc
--- a/lite/kernels/arm/gru_compute.h
+++ b/lite/kernels/arm/gru_compute.h
--- a/lite/kernels/arm/gru_unit_compute.cc
+++ b/lite/kernels/arm/gru_unit_compute.cc
--- a/lite/kernels/arm/gru_unit_compute.h
+++ b/lite/kernels/arm/gru_unit_compute.h
--- a/lite/kernels/arm/im2sequence_compute.cc
+++ b/lite/kernels/arm/im2sequence_compute.cc
--- a/lite/kernels/arm/im2sequence_compute.h
+++ b/lite/kernels/arm/im2sequence_compute.h
--- a/lite/kernels/arm/increment_compute.cc
+++ b/lite/kernels/arm/increment_compute.cc
--- a/lite/kernels/arm/increment_compute.h
+++ b/lite/kernels/arm/increment_compute.h
--- a/lite/kernels/arm/interpolate_compute.cc
+++ b/lite/kernels/arm/interpolate_compute.cc
--- a/lite/kernels/arm/interpolate_compute.h
+++ b/lite/kernels/arm/interpolate_compute.h
--- a/lite/kernels/arm/is_empty_compute.cc
+++ b/lite/kernels/arm/is_empty_compute.cc
--- a/lite/kernels/arm/is_empty_compute.h
+++ b/lite/kernels/arm/is_empty_compute.h
--- a/lite/kernels/arm/lod_reset_compute.cc
+++ b/lite/kernels/arm/lod_reset_compute.cc
--- a/lite/kernels/arm/lod_reset_compute.h
+++ b/lite/kernels/arm/lod_reset_compute.h
--- a/lite/kernels/arm/logical_compute.cc
+++ b/lite/kernels/arm/logical_compute.cc
--- a/lite/kernels/arm/logical_compute.h
+++ b/lite/kernels/arm/logical_compute.h
--- a/lite/kernels/arm/lookup_table_compute.cc
+++ b/lite/kernels/arm/lookup_table_compute.cc
--- a/lite/kernels/arm/lookup_table_compute.h
+++ b/lite/kernels/arm/lookup_table_compute.h
--- a/lite/kernels/arm/lrn_compute.cc
+++ b/lite/kernels/arm/lrn_compute.cc
--- a/lite/kernels/arm/lrn_compute.h
+++ b/lite/kernels/arm/lrn_compute.h
--- a/lite/kernels/arm/lrn_compute_test.cc
+++ b/lite/kernels/arm/lrn_compute_test.cc
--- a/lite/kernels/arm/matmul_compute.cc
+++ b/lite/kernels/arm/matmul_compute.cc
--- a/lite/kernels/arm/matmul_compute.h
+++ b/lite/kernels/arm/matmul_compute.h
--- a/lite/kernels/arm/mul_compute.cc
+++ b/lite/kernels/arm/mul_compute.cc
--- a/lite/kernels/arm/mul_compute.h
+++ b/lite/kernels/arm/mul_compute.h
--- a/lite/kernels/arm/mul_compute_test.cc
+++ b/lite/kernels/arm/mul_compute_test.cc
--- a/lite/kernels/arm/negative_compute.cc
+++ b/lite/kernels/arm/negative_compute.cc
--- a/lite/kernels/arm/negative_compute.h
+++ b/lite/kernels/arm/negative_compute.h
--- a/lite/kernels/arm/norm_compute.cc
+++ b/lite/kernels/arm/norm_compute.cc
--- a/lite/kernels/arm/norm_compute.h
+++ b/lite/kernels/arm/norm_compute.h
--- a/lite/kernels/arm/pad2d_compute.cc
+++ b/lite/kernels/arm/pad2d_compute.cc
--- a/lite/kernels/arm/pad2d_compute.h
+++ b/lite/kernels/arm/pad2d_compute.h
--- a/lite/kernels/arm/pool_compute.cc
+++ b/lite/kernels/arm/pool_compute.cc
--- a/lite/kernels/arm/pool_compute.h
+++ b/lite/kernels/arm/pool_compute.h
--- a/lite/kernels/arm/pool_compute_test.cc
+++ b/lite/kernels/arm/pool_compute_test.cc
--- a/lite/kernels/arm/power_compute.cc
+++ b/lite/kernels/arm/power_compute.cc
--- a/lite/kernels/arm/power_compute.h
+++ b/lite/kernels/arm/power_compute.h
--- a/lite/kernels/arm/prior_box_compute.cc
+++ b/lite/kernels/arm/prior_box_compute.cc
--- a/lite/kernels/arm/prior_box_compute.h
+++ b/lite/kernels/arm/prior_box_compute.h
--- a/lite/kernels/arm/read_from_array_compute.cc
+++ b/lite/kernels/arm/read_from_array_compute.cc
--- a/lite/kernels/arm/read_from_array_compute.h
+++ b/lite/kernels/arm/read_from_array_compute.h
--- a/lite/kernels/arm/reduce_max_compute.cc
+++ b/lite/kernels/arm/reduce_max_compute.cc
--- a/lite/kernels/arm/reduce_max_compute.h
+++ b/lite/kernels/arm/reduce_max_compute.h
--- a/lite/kernels/arm/reduce_mean_compute.cc
+++ b/lite/kernels/arm/reduce_mean_compute.cc
--- a/lite/kernels/arm/reduce_mean_compute.h
+++ b/lite/kernels/arm/reduce_mean_compute.h
--- a/lite/kernels/arm/roi_align_compute.cc
+++ b/lite/kernels/arm/roi_align_compute.cc
--- a/lite/kernels/arm/roi_align_compute.h
+++ b/lite/kernels/arm/roi_align_compute.h
--- a/lite/kernels/arm/scale_compute.cc
+++ b/lite/kernels/arm/scale_compute.cc
--- a/lite/kernels/arm/scale_compute.h
+++ b/lite/kernels/arm/scale_compute.h
--- a/lite/kernels/arm/scale_compute_test.cc
+++ b/lite/kernels/arm/scale_compute_test.cc
--- a/lite/kernels/arm/sequence_expand_compute.cc
+++ b/lite/kernels/arm/sequence_expand_compute.cc
--- a/lite/kernels/arm/sequence_expand_compute.h
+++ b/lite/kernels/arm/sequence_expand_compute.h
--- a/lite/kernels/arm/sequence_pool_compute.cc
+++ b/lite/kernels/arm/sequence_pool_compute.cc
--- a/lite/kernels/arm/sequence_pool_compute.h
+++ b/lite/kernels/arm/sequence_pool_compute.h
--- a/lite/kernels/arm/sequence_softmax_compute.cc
+++ b/lite/kernels/arm/sequence_softmax_compute.cc
--- a/lite/kernels/arm/sequence_softmax_compute.h
+++ b/lite/kernels/arm/sequence_softmax_compute.h
--- a/lite/kernels/arm/shape_compute.cc
+++ b/lite/kernels/arm/shape_compute.cc
--- a/lite/kernels/arm/shape_compute.h
+++ b/lite/kernels/arm/shape_compute.h
--- a/lite/kernels/arm/shuffle_channel_compute.cc
+++ b/lite/kernels/arm/shuffle_channel_compute.cc
--- a/lite/kernels/arm/shuffle_channel_compute.h
+++ b/lite/kernels/arm/shuffle_channel_compute.h
--- a/lite/kernels/arm/slice_compute.cc
+++ b/lite/kernels/arm/slice_compute.cc
--- a/lite/kernels/arm/slice_compute.h
+++ b/lite/kernels/arm/slice_compute.h
--- a/lite/kernels/arm/softmax_compute.cc
+++ b/lite/kernels/arm/softmax_compute.cc
--- a/lite/kernels/arm/softmax_compute.h
+++ b/lite/kernels/arm/softmax_compute.h
--- a/lite/kernels/arm/softmax_compute_test.cc
+++ b/lite/kernels/arm/softmax_compute_test.cc
--- a/lite/kernels/arm/split_compute.cc
+++ b/lite/kernels/arm/split_compute.cc
--- a/lite/kernels/arm/split_compute.h
+++ b/lite/kernels/arm/split_compute.h
--- a/lite/kernels/arm/split_compute_test.cc
+++ b/lite/kernels/arm/split_compute_test.cc
--- a/lite/kernels/arm/squeeze_compute.cc
+++ b/lite/kernels/arm/squeeze_compute.cc
--- a/lite/kernels/arm/squeeze_compute.h
+++ b/lite/kernels/arm/squeeze_compute.h
--- a/lite/kernels/arm/stack_compute.cc
+++ b/lite/kernels/arm/stack_compute.cc
--- a/lite/kernels/arm/stack_compute.h
+++ b/lite/kernels/arm/stack_compute.h
--- a/lite/kernels/arm/topk_compute.cc
+++ b/lite/kernels/arm/topk_compute.cc
--- a/lite/kernels/arm/topk_compute.h
+++ b/lite/kernels/arm/topk_compute.h
--- a/lite/kernels/arm/transpose_compute.cc
+++ b/lite/kernels/arm/transpose_compute.cc
--- a/lite/kernels/arm/transpose_compute.h
+++ b/lite/kernels/arm/transpose_compute.h
--- a/lite/kernels/arm/transpose_compute_test.cc
+++ b/lite/kernels/arm/transpose_compute_test.cc
--- a/lite/kernels/arm/while_compute.cc
+++ b/lite/kernels/arm/while_compute.cc
--- a/lite/kernels/arm/while_compute.h
+++ b/lite/kernels/arm/while_compute.h
--- a/lite/kernels/arm/write_to_array_compute.cc
+++ b/lite/kernels/arm/write_to_array_compute.cc
--- a/lite/kernels/arm/write_to_array_compute.h
+++ b/lite/kernels/arm/write_to_array_compute.h
--- a/lite/kernels/arm/yolo_box_compute.cc
+++ b/lite/kernels/arm/yolo_box_compute.cc
--- a/lite/kernels/arm/yolo_box_compute.h
+++ b/lite/kernels/arm/yolo_box_compute.h
--- a/lite/kernels/cuda/CMakeLists.txt
+++ b/lite/kernels/cuda/CMakeLists.txt
--- a/lite/kernels/cuda/calib_compute.cu
+++ b/lite/kernels/cuda/calib_compute.cu
--- a/lite/kernels/cuda/calib_compute.h
+++ b/lite/kernels/cuda/calib_compute.h
--- a/lite/kernels/cuda/calib_compute_cuda_test.cc
+++ b/lite/kernels/cuda/calib_compute_cuda_test.cc
--- a/lite/kernels/cuda/concat_compute.cu
+++ b/lite/kernels/cuda/concat_compute.cu
--- a/lite/kernels/cuda/concat_compute.h
+++ b/lite/kernels/cuda/concat_compute.h
--- a/lite/kernels/cuda/concat_compute_test.cc
+++ b/lite/kernels/cuda/concat_compute_test.cc
--- a/lite/kernels/cuda/conv_compute.cc
+++ b/lite/kernels/cuda/conv_compute.cc
--- a/lite/kernels/cuda/conv_compute.h
+++ b/lite/kernels/cuda/conv_compute.h
--- a/lite/kernels/cuda/conv_compute_test.cc
+++ b/lite/kernels/cuda/conv_compute_test.cc
--- a/lite/kernels/cuda/elementwise_add_compute.cu
+++ b/lite/kernels/cuda/elementwise_add_compute.cu
--- a/lite/kernels/cuda/elementwise_add_compute.h
+++ b/lite/kernels/cuda/elementwise_add_compute.h
--- a/lite/kernels/cuda/elementwise_add_compute_test.cc
+++ b/lite/kernels/cuda/elementwise_add_compute_test.cc
--- a/lite/kernels/cuda/io_copy_compute.cc
+++ b/lite/kernels/cuda/io_copy_compute.cc
--- a/lite/kernels/cuda/leaky_relu_compute.cu
+++ b/lite/kernels/cuda/leaky_relu_compute.cu
--- a/lite/kernels/cuda/leaky_relu_compute.h
+++ b/lite/kernels/cuda/leaky_relu_compute.h
--- a/lite/kernels/cuda/leaky_relu_compute_test.cc
+++ b/lite/kernels/cuda/leaky_relu_compute_test.cc
--- a/lite/kernels/cuda/mul_compute.cc
+++ b/lite/kernels/cuda/mul_compute.cc
--- a/lite/kernels/cuda/mul_compute.h
+++ b/lite/kernels/cuda/mul_compute.h
--- a/lite/kernels/cuda/nearest_interp_compute.cu
+++ b/lite/kernels/cuda/nearest_interp_compute.cu
--- a/lite/kernels/cuda/nearest_interp_compute.h
+++ b/lite/kernels/cuda/nearest_interp_compute.h
--- a/lite/kernels/cuda/nearest_interp_compute_test.cc
+++ b/lite/kernels/cuda/nearest_interp_compute_test.cc
--- a/lite/kernels/cuda/transpose_compute.cu
+++ b/lite/kernels/cuda/transpose_compute.cu
--- a/lite/kernels/cuda/transpose_compute.h
+++ b/lite/kernels/cuda/transpose_compute.h
--- a/lite/kernels/cuda/transpose_compute_test.cc
+++ b/lite/kernels/cuda/transpose_compute_test.cc
--- a/lite/kernels/cuda/use_kernels.h
+++ b/lite/kernels/cuda/use_kernels.h
--- a/lite/kernels/cuda/yolo_box_compute.cu
+++ b/lite/kernels/cuda/yolo_box_compute.cu
--- a/lite/kernels/cuda/yolo_box_compute.h
+++ b/lite/kernels/cuda/yolo_box_compute.h
--- a/lite/kernels/cuda/yolo_box_compute_test.cc
+++ b/lite/kernels/cuda/yolo_box_compute_test.cc
--- a/lite/kernels/fpga/CMakeLists.txt
+++ b/lite/kernels/fpga/CMakeLists.txt
--- a/lite/kernels/fpga/activation_compute.cc
+++ b/lite/kernels/fpga/activation_compute.cc
--- a/lite/kernels/fpga/activation_compute.h
+++ b/lite/kernels/fpga/activation_compute.h
--- a/lite/kernels/fpga/activation_compute_test.cc
+++ b/lite/kernels/fpga/activation_compute_test.cc
--- a/lite/kernels/fpga/calib_compute.cc
+++ b/lite/kernels/fpga/calib_compute.cc
--- a/lite/kernels/fpga/calib_compute.h
+++ b/lite/kernels/fpga/calib_compute.h
--- a/lite/kernels/fpga/conv_compute.cc
+++ b/lite/kernels/fpga/conv_compute.cc
--- a/lite/kernels/fpga/conv_compute.h
+++ b/lite/kernels/fpga/conv_compute.h
--- a/lite/kernels/fpga/conv_compute_test.cc
+++ b/lite/kernels/fpga/conv_compute_test.cc
--- a/lite/kernels/fpga/elementwise_compute.cc
+++ b/lite/kernels/fpga/elementwise_compute.cc
--- a/lite/kernels/fpga/elementwise_compute.h
+++ b/lite/kernels/fpga/elementwise_compute.h
--- a/lite/kernels/fpga/elementwise_compute_test.cc
+++ b/lite/kernels/fpga/elementwise_compute_test.cc
--- a/lite/kernels/fpga/fc_compute.cc
+++ b/lite/kernels/fpga/fc_compute.cc
--- a/lite/kernels/fpga/fc_compute.h
+++ b/lite/kernels/fpga/fc_compute.h
--- a/lite/kernels/fpga/fc_compute_test.cc
+++ b/lite/kernels/fpga/fc_compute_test.cc
--- a/lite/kernels/fpga/feed_compute.cc
+++ b/lite/kernels/fpga/feed_compute.cc
--- a/lite/kernels/fpga/feed_compute.h
+++ b/lite/kernels/fpga/feed_compute.h
--- a/lite/kernels/fpga/fetch_compute.cc
+++ b/lite/kernels/fpga/fetch_compute.cc
--- a/lite/kernels/fpga/fetch_compute.h
+++ b/lite/kernels/fpga/fetch_compute.h
--- a/lite/kernels/fpga/io_copy_compute.cc
+++ b/lite/kernels/fpga/io_copy_compute.cc
--- a/lite/kernels/fpga/layout_compute.cc
+++ b/lite/kernels/fpga/layout_compute.cc
--- a/lite/kernels/fpga/pooling_compute.cc
+++ b/lite/kernels/fpga/pooling_compute.cc
--- a/lite/kernels/fpga/pooling_compute.h
+++ b/lite/kernels/fpga/pooling_compute.h
--- a/lite/kernels/fpga/pooling_compute_test.cc
+++ b/lite/kernels/fpga/pooling_compute_test.cc
--- a/lite/kernels/fpga/scale_compute.cc
+++ b/lite/kernels/fpga/scale_compute.cc
--- a/lite/kernels/fpga/scale_compute.h
+++ b/lite/kernels/fpga/scale_compute.h
--- a/lite/kernels/fpga/softmax_compute.cc
+++ b/lite/kernels/fpga/softmax_compute.cc
--- a/lite/kernels/fpga/softmax_compute.h
+++ b/lite/kernels/fpga/softmax_compute.h
--- a/lite/kernels/fpga/softmax_compute_test.cc
+++ b/lite/kernels/fpga/softmax_compute_test.cc
--- a/lite/kernels/host/CMakeLists.txt
+++ b/lite/kernels/host/CMakeLists.txt
--- a/lite/kernels/host/feed_compute.cc
+++ b/lite/kernels/host/feed_compute.cc
--- a/lite/kernels/host/fetch_compute.cc
+++ b/lite/kernels/host/fetch_compute.cc
--- a/lite/kernels/host/multiclass_nms_compute.cc
+++ b/lite/kernels/host/multiclass_nms_compute.cc
--- a/lite/kernels/host/multiclass_nms_compute.h
+++ b/lite/kernels/host/multiclass_nms_compute.h
--- a/lite/kernels/host/multiclass_nms_compute_test.cc
+++ b/lite/kernels/host/multiclass_nms_compute_test.cc
--- a/lite/kernels/host/reshape_compute.cc
+++ b/lite/kernels/host/reshape_compute.cc
--- a/lite/kernels/host/reshape_compute.h
+++ b/lite/kernels/host/reshape_compute.h
--- a/lite/kernels/host/reshape_compute_test.cc
+++ b/lite/kernels/host/reshape_compute_test.cc
--- a/lite/kernels/host/use_kernels.h
+++ b/lite/kernels/host/use_kernels.h
--- a/lite/kernels/npu/CMakeLists.txt
+++ b/lite/kernels/npu/CMakeLists.txt
--- a/lite/kernels/npu/graph_compute.cc
+++ b/lite/kernels/npu/graph_compute.cc
--- a/lite/kernels/npu/graph_compute.h
+++ b/lite/kernels/npu/graph_compute.h
--- a/lite/kernels/opencl/CMakeLists.txt
+++ b/lite/kernels/opencl/CMakeLists.txt
--- a/lite/kernels/opencl/conv_compute.cc
+++ b/lite/kernels/opencl/conv_compute.cc
--- a/lite/kernels/opencl/conv_compute.h
+++ b/lite/kernels/opencl/conv_compute.h
--- a/lite/kernels/opencl/conv_compute_test.cc
+++ b/lite/kernels/opencl/conv_compute_test.cc
--- a/lite/kernels/opencl/depthwise_conv2d_compute.cc
+++ b/lite/kernels/opencl/depthwise_conv2d_compute.cc
--- a/lite/kernels/opencl/depthwise_conv2d_compute_test.cc
+++ b/lite/kernels/opencl/depthwise_conv2d_compute_test.cc
--- a/lite/kernels/opencl/elementwise_add_compute.cc
+++ b/lite/kernels/opencl/elementwise_add_compute.cc
--- a/lite/kernels/opencl/elementwise_add_compute.h
+++ b/lite/kernels/opencl/elementwise_add_compute.h
--- a/lite/kernels/opencl/elementwise_add_compute_test.cc
+++ b/lite/kernels/opencl/elementwise_add_compute_test.cc
--- a/lite/kernels/opencl/fc_compute.cc
+++ b/lite/kernels/opencl/fc_compute.cc
--- a/lite/kernels/opencl/fc_compute_test.cc
+++ b/lite/kernels/opencl/fc_compute_test.cc
--- a/lite/kernels/opencl/fusion_elementwise_add_activation_compute.cc
+++ b/lite/kernels/opencl/fusion_elementwise_add_activation_compute.cc
--- a/lite/kernels/opencl/io_copy_compute.cc
+++ b/lite/kernels/opencl/io_copy_compute.cc
--- a/lite/kernels/opencl/io_copy_compute_test.cc
+++ b/lite/kernels/opencl/io_copy_compute_test.cc
--- a/lite/kernels/opencl/mul_compute.cc
+++ b/lite/kernels/opencl/mul_compute.cc
--- a/lite/kernels/opencl/mul_compute_test.cc
+++ b/lite/kernels/opencl/mul_compute_test.cc
--- a/lite/kernels/opencl/pool_compute.cc
+++ b/lite/kernels/opencl/pool_compute.cc
--- a/lite/kernels/opencl/pool_compute_test.cc
+++ b/lite/kernels/opencl/pool_compute_test.cc
--- a/lite/kernels/opencl/relu_compute.cc
+++ b/lite/kernels/opencl/relu_compute.cc
--- a/lite/kernels/opencl/relu_compute_test.cc
+++ b/lite/kernels/opencl/relu_compute_test.cc
--- a/lite/kernels/x86/CMakeLists.txt
+++ b/lite/kernels/x86/CMakeLists.txt
--- a/lite/kernels/x86/activation_compute.cc
+++ b/lite/kernels/x86/activation_compute.cc
--- a/lite/kernels/x86/batch_norm_compute.cc
+++ b/lite/kernels/x86/batch_norm_compute.cc
--- a/lite/kernels/x86/batch_norm_compute.h
+++ b/lite/kernels/x86/batch_norm_compute.h
--- a/lite/kernels/x86/batch_norm_compute_test.cc
+++ b/lite/kernels/x86/batch_norm_compute_test.cc
--- a/lite/kernels/x86/concat_compute.cc
+++ b/lite/kernels/x86/concat_compute.cc
--- a/lite/kernels/x86/concat_compute.h
+++ b/lite/kernels/x86/concat_compute.h
--- a/lite/kernels/x86/concat_compute_test.cc
+++ b/lite/kernels/x86/concat_compute_test.cc
--- a/lite/kernels/x86/conv_compute.cc
+++ b/lite/kernels/x86/conv_compute.cc
--- a/lite/kernels/x86/conv_compute.h
+++ b/lite/kernels/x86/conv_compute.h
--- a/lite/kernels/x86/conv_compute_test.cc
+++ b/lite/kernels/x86/conv_compute_test.cc
--- a/lite/kernels/x86/dropout_compute.cc
+++ b/lite/kernels/x86/dropout_compute.cc
--- a/lite/kernels/x86/dropout_compute.h
+++ b/lite/kernels/x86/dropout_compute.h
--- a/lite/kernels/x86/dropout_compute_test.cc
+++ b/lite/kernels/x86/dropout_compute_test.cc
--- a/lite/kernels/x86/elementwise_compute.cc
+++ b/lite/kernels/x86/elementwise_compute.cc
--- a/lite/kernels/x86/elementwise_compute.h
+++ b/lite/kernels/x86/elementwise_compute.h
--- a/lite/kernels/x86/elementwise_compute_test.cc
+++ b/lite/kernels/x86/elementwise_compute_test.cc
--- a/lite/kernels/x86/fc_compute.cc
+++ b/lite/kernels/x86/fc_compute.cc
--- a/lite/kernels/x86/fc_compute.h
+++ b/lite/kernels/x86/fc_compute.h
--- a/lite/kernels/x86/fc_compute_test.cc
+++ b/lite/kernels/x86/fc_compute_test.cc
--- a/lite/kernels/x86/fill_constant_compute.cc
+++ b/lite/kernels/x86/fill_constant_compute.cc
--- a/lite/kernels/x86/mean_compute.cc
+++ b/lite/kernels/x86/mean_compute.cc
--- a/lite/kernels/x86/mul_compute.cc
+++ b/lite/kernels/x86/mul_compute.cc
--- a/lite/kernels/x86/mul_compute.h
+++ b/lite/kernels/x86/mul_compute.h
--- a/lite/kernels/x86/mul_compute_test.cc
+++ b/lite/kernels/x86/mul_compute_test.cc
--- a/lite/kernels/x86/pool_compute.cc
+++ b/lite/kernels/x86/pool_compute.cc
--- a/lite/kernels/x86/pool_compute.h
+++ b/lite/kernels/x86/pool_compute.h
--- a/lite/kernels/x86/pool_compute_test.cc
+++ b/lite/kernels/x86/pool_compute_test.cc
--- a/lite/kernels/x86/relu_compute.cc
+++ b/lite/kernels/x86/relu_compute.cc
--- a/lite/kernels/x86/relu_compute.h
+++ b/lite/kernels/x86/relu_compute.h