Merge branch 'develop' into develop

915bcaac · Jiawei Wang · GitHub · a4c7141b · fcb3160c · 915bcaac
102 changed file
--- a/README.md
+++ b/README.md
@@ -53,7 +53,7 @@ We consider deploying deep learning inference service online to be a user-facing
 <h2 align="center">AIStudio Turorial</h2>
-Here we provide tutorial on AIStudio(Chinese Version) [AIStudio教程-Paddle Serving服务化部署框架](https://aistudio.baidu.com/aistudio/projectdetail/1550674)
+Here we provide tutorial on AIStudio(Chinese Version) [AIStudio教程-Paddle Serving服务化部署框架](https://www.paddlepaddle.org.cn/tutorials/projectdetail/1555945)
 The tutorial provides 
 <ul>

--- a/README_CN.md
+++ b/README_CN.md
@@ -53,7 +53,7 @@ Paddle Serving 旨在帮助深度学习开发者轻易部署在线预测服务
 <h2 align="center">教程</h2>
-Paddle Serving开发者为您提供了简单易用的[AIStudio教程-Paddle Serving服务化部署框架](https://aistudio.baidu.com/aistudio/projectdetail/1550674)
+Paddle Serving开发者为您提供了简单易用的[AIStudio教程-Paddle Serving服务化部署框架](https://www.paddlepaddle.org.cn/tutorials/projectdetail/1555945)
 教程提供了如下内容

--- a/cmake/paddlepaddle.cmake
+++ b/cmake/paddlepaddle.cmake
@@ -18,7 +18,7 @@ SET(PADDLE_SOURCES_DIR ${THIRD_PARTY_PATH}/Paddle)
 SET(PADDLE_DOWNLOAD_DIR ${PADDLE_SOURCES_DIR}/src/extern_paddle)
 SET(PADDLE_INSTALL_DIR ${THIRD_PARTY_PATH}/install/Paddle/)
 SET(PADDLE_INCLUDE_DIR "${PADDLE_INSTALL_DIR}/include" CACHE PATH "PaddlePaddle include directory." FORCE)
-SET(PADDLE_LIBRARIES "${PADDLE_INSTALL_DIR}/lib/libpaddle_fluid.a" CACHE FILEPATH "Paddle library." FORCE)
+SET(PADDLE_LIBRARIES "${PADDLE_INSTALL_DIR}/lib/libpaddle_inference.a" CACHE FILEPATH "Paddle library." FORCE)
 message("paddle install dir: " ${PADDLE_INSTALL_DIR})
@@ -31,7 +31,7 @@ message( "WITH_GPU = ${WITH_GPU}")
 # Paddle Version should be one of:
 # latest: latest develop build
 # version number like 1.5.2
-SET(PADDLE_VERSION "2.0.0")
+SET(PADDLE_VERSION "2.0.1")
 if (WITH_GPU)
    if(CUDA_VERSION EQUAL 11.0)
        set(CUDA_SUFFIX "cuda11-cudnn8-avx-mkl")
@@ -55,9 +55,9 @@ if (WITH_GPU)
    SET(PADDLE_LIB_VERSION "${PADDLE_VERSION}-gpu-${CUDA_SUFFIX}")
 elseif (WITH_LITE)
    if (WITH_XPU)
-        SET(PADDLE_LIB_VERSION "${PADDLE_VERSION}-arm-xpu")
+        SET(PADDLE_LIB_VERSION "${PADDLE_VERSION}-${CMAKE_SYSTEM_PROCESSOR}-xpu")
    else()
-        SET(PADDLE_LIB_VERSION "${PADDLE_VERSION}-arm")
+        SET(PADDLE_LIB_VERSION "${PADDLE_VERSION}-${CMAKE_SYSTEM_PROCESSOR}")
    endif()
 else()
    if (WITH_AVX)
@@ -139,8 +139,8 @@ LINK_DIRECTORIES(${PADDLE_INSTALL_DIR}/third_party/install/mkldnn/lib)
 ADD_LIBRARY(openblas STATIC IMPORTED GLOBAL)
 SET_PROPERTY(TARGET openblas PROPERTY IMPORTED_LOCATION ${PADDLE_INSTALL_DIR}/third_party/install/openblas/lib/libopenblas.a)
-ADD_LIBRARY(paddle_fluid STATIC IMPORTED GLOBAL)
+ADD_LIBRARY(paddle_inference STATIC IMPORTED GLOBAL)
-SET_PROPERTY(TARGET paddle_fluid PROPERTY IMPORTED_LOCATION ${PADDLE_INSTALL_DIR}/lib/libpaddle_fluid.a)
+SET_PROPERTY(TARGET paddle_inference PROPERTY IMPORTED_LOCATION ${PADDLE_INSTALL_DIR}/lib/libpaddle_inference.a)
 if (WITH_TRT)
    ADD_LIBRARY(nvinfer SHARED IMPORTED GLOBAL)

--- a/core/configure/CMakeLists.txt
+++ b/core/configure/CMakeLists.txt
 if (SERVER OR CLIENT)
-LIST(APPEND protofiles
+  LIST(APPEND protofiles
-        ${CMAKE_CURRENT_LIST_DIR}/proto/server_configure.proto
+          ${CMAKE_CURRENT_LIST_DIR}/proto/server_configure.proto
-        ${CMAKE_CURRENT_LIST_DIR}/proto/sdk_configure.proto
+          ${CMAKE_CURRENT_LIST_DIR}/proto/sdk_configure.proto
-        ${CMAKE_CURRENT_LIST_DIR}/proto/inferencer_configure.proto
+          ${CMAKE_CURRENT_LIST_DIR}/proto/inferencer_configure.proto
-	${CMAKE_CURRENT_LIST_DIR}/proto/general_model_config.proto
+  	${CMAKE_CURRENT_LIST_DIR}/proto/general_model_config.proto
-)
+  )
-PROTOBUF_GENERATE_CPP(configure_proto_srcs configure_proto_hdrs ${protofiles})
+  PROTOBUF_GENERATE_CPP(configure_proto_srcs configure_proto_hdrs ${protofiles})
-list(APPEND configure_srcs ${configure_proto_srcs})
+  list(APPEND configure_srcs ${configure_proto_srcs})
-list(APPEND configure_srcs ${CMAKE_CURRENT_LIST_DIR}/src/configure_parser.cpp)
+  list(APPEND configure_srcs ${CMAKE_CURRENT_LIST_DIR}/src/configure_parser.cpp)
-add_library(configure ${configure_srcs})
+  add_library(configure ${configure_srcs})
-add_dependencies(configure brpc)
+  add_dependencies(configure brpc)
-install(TARGETS configure 
+  install(TARGETS configure 
-        ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
+          ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
-        )
+          )
-install(FILES ${CMAKE_CURRENT_LIST_DIR}/include/configure_parser.h
+  install(FILES ${CMAKE_CURRENT_LIST_DIR}/include/configure_parser.h
-        DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/include/configure/include)
+          DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/include/configure/include)
-FILE(GLOB inc ${CMAKE_CURRENT_BINARY_DIR}/*.pb.h)
+  FILE(GLOB inc ${CMAKE_CURRENT_BINARY_DIR}/*.pb.h)
-install(FILES ${inc}
+  install(FILES ${inc}
-        DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/include/configure)
+          DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/include/configure)
 endif()
 if (WITH_PYTHON)
-py_proto_compile(general_model_config_py_proto SRCS proto/general_model_config.proto)
+  py_proto_compile(general_model_config_py_proto SRCS proto/general_model_config.proto)
-add_custom_target(general_model_config_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
+  add_custom_target(general_model_config_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
-add_dependencies(general_model_config_py_proto general_model_config_py_proto_init)
+  add_dependencies(general_model_config_py_proto general_model_config_py_proto_init)
-py_grpc_proto_compile(multi_lang_general_model_service_py_proto SRCS proto/multi_lang_general_model_service.proto)
+  py_grpc_proto_compile(multi_lang_general_model_service_py_proto SRCS proto/multi_lang_general_model_service.proto)
-add_custom_target(multi_lang_general_model_service_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
+  add_custom_target(multi_lang_general_model_service_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
-add_dependencies(multi_lang_general_model_service_py_proto multi_lang_general_model_service_py_proto_init)
+  add_dependencies(multi_lang_general_model_service_py_proto multi_lang_general_model_service_py_proto_init)
-if (CLIENT)
+  if (CLIENT)
-py_proto_compile(sdk_configure_py_proto SRCS proto/sdk_configure.proto)
+    py_proto_compile(sdk_configure_py_proto SRCS proto/sdk_configure.proto)
-add_custom_target(sdk_configure_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
+    add_custom_target(sdk_configure_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
-add_dependencies(sdk_configure_py_proto sdk_configure_py_proto_init)
+    add_dependencies(sdk_configure_py_proto sdk_configure_py_proto_init)
-add_custom_command(TARGET sdk_configure_py_proto POST_BUILD
+    add_custom_command(TARGET sdk_configure_py_proto POST_BUILD
-		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+    		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+    		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-		COMMENT "Copy generated python proto into directory paddle_serving_client/proto."
+    		COMMENT "Copy generated python proto into directory paddle_serving_client/proto."
-		WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+    		WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-add_custom_command(TARGET general_model_config_py_proto POST_BUILD
+    add_custom_command(TARGET general_model_config_py_proto POST_BUILD
-                COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+                    COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-                COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+                    COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-                COMMENT "Copy generated general_model_config proto file into directory paddle_serving_client/proto."
+                    COMMENT "Copy generated general_model_config proto file into directory paddle_serving_client/proto."
-                WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+                    WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-add_custom_command(TARGET multi_lang_general_model_service_py_proto POST_BUILD
+    add_custom_command(TARGET multi_lang_general_model_service_py_proto POST_BUILD
-                COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+                    COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-                COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
+                    COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/proto
-                COMMENT "Copy generated multi_lang_general_model_service proto file into directory paddle_serving_client/proto."
+                    COMMENT "Copy generated multi_lang_general_model_service proto file into directory paddle_serving_client/proto."
-                WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+                    WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-endif()
+  endif()
-if (APP)
+  if (APP)
-add_custom_command(TARGET general_model_config_py_proto POST_BUILD
+    add_custom_command(TARGET general_model_config_py_proto POST_BUILD
-                COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_app/proto
+                    COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_app/proto
-                COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_app/proto
+                    COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_app/proto
-                COMMENT "Copy generated general_model_config proto file into directory paddle_serving_app/proto."
+                    COMMENT "Copy generated general_model_config proto file into directory paddle_serving_app/proto."
-                WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+                    WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-endif()
+  endif()
-if (SERVER)
+  if (SERVER)
-py_proto_compile(server_config_py_proto SRCS proto/server_configure.proto)
+    py_proto_compile(server_config_py_proto SRCS proto/server_configure.proto)
-add_custom_target(server_config_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
+    add_custom_target(server_config_py_proto_init ALL COMMAND ${CMAKE_COMMAND} -E touch __init__.py)
-add_dependencies(server_config_py_proto server_config_py_proto_init)
+    add_dependencies(server_config_py_proto server_config_py_proto_init)
-if (NOT WITH_GPU AND NOT WITH_LITE)
+    add_custom_command(TARGET server_config_py_proto POST_BUILD
-add_custom_command(TARGET server_config_py_proto POST_BUILD
+    		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+    		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+    		COMMENT "Copy generated python proto into directory paddle_serving_server/proto."
-		COMMENT "Copy generated python proto into directory paddle_serving_server/proto."
+    		WORKING_DIRECTORY ${CMAKE_CURRENT_BINRARY_DIR})
-		WORKING_DIRECTORY ${CMAKE_CURRENT_BINRARY_DIR})
+    add_custom_command(TARGET general_model_config_py_proto POST_BUILD
-add_custom_command(TARGET general_model_config_py_proto POST_BUILD
+    		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-		COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+    		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-		COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+    		COMMENT "Copy generated general_model_config proto file into directory paddle_serving_server/proto."
-		COMMENT "Copy generated general_model_config proto file into directory paddle_serving_server/proto."
+    		WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-		WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+    add_custom_command(TARGET multi_lang_general_model_service_py_proto POST_BUILD
-add_custom_command(TARGET multi_lang_general_model_service_py_proto POST_BUILD
+                    COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-                COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+                    COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
-                COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server/proto
+                    COMMENT "Copy generated multi_lang_general_model_service proto file into directory paddle_serving_server/proto."
-                COMMENT "Copy generated multi_lang_general_model_service proto file into directory paddle_serving_server/proto."
+                    WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-                WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
+  endif()
-else()
-add_custom_command(TARGET server_config_py_proto POST_BUILD
-		COMMAND ${CMAKE_COMMAND} -E make_directory
-        ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-		COMMAND cp -f *.py
-        ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-		COMMENT "Copy generated python proto into directory
-        paddle_serving_server_gpu/proto."
-		WORKING_DIRECTORY ${CMAKE_CURRENT_BINRARY_DIR})
-add_custom_command(TARGET general_model_config_py_proto POST_BUILD
-		COMMAND ${CMAKE_COMMAND} -E make_directory
-        ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-		COMMAND cp -f *.py
-        ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-		COMMENT "Copy generated general_model_config proto file into directory
-        paddle_serving_server_gpu/proto."
-		WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-add_custom_command(TARGET multi_lang_general_model_service_py_proto POST_BUILD
-                COMMAND ${CMAKE_COMMAND} -E make_directory ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-                COMMAND cp -f *.py ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_server_gpu/proto
-                COMMENT "Copy generated multi_lang_general_model_service proto file into directory paddle_serving_server_gpu/proto."
-                WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR})
-endif()
-endif()
 endif()
--- a/core/configure/proto/server_configure.proto
+++ b/core/configure/proto/server_configure.proto
@@ -20,7 +20,7 @@ message EngineDesc {
  required string type = 2;
  required string reloadable_meta = 3;
  required string reloadable_type = 4;
-  required string model_data_path = 5;
+  required string model_dir = 5;
  required int32 runtime_thread_num = 6;
  required int32 batch_infer_size = 7;
  required int32 enable_batch_align = 8;
@@ -41,12 +41,13 @@ message EngineDesc {
  optional SparseParamServiceType sparse_param_service_type = 11;
  optional string sparse_param_service_table_name = 12;
  optional bool enable_memory_optimization = 13;
-  optional bool static_optimization = 14;
+  optional bool enable_ir_optimization = 14;
-  optional bool force_update_static_cache = 15;
+  optional bool use_trt = 15;
-  optional bool enable_ir_optimization = 16;
+  optional bool use_lite = 16;
-  optional bool use_trt = 17;
+  optional bool use_xpu = 17;
-  optional bool use_lite = 18;
+  optional bool use_gpu = 18;
-  optional bool use_xpu = 19;
+  optional bool combined_model = 19;
+  optional bool encrypted_model = 20;
 };
 // model_toolkit conf

--- a/core/configure/tests/test_configure.cpp
+++ b/core/configure/tests/test_configure.cpp
@@ -69,8 +69,6 @@ int test_write_conf() {
  engine->set_sparse_param_service_type(EngineDesc::LOCAL);
  engine->set_sparse_param_service_table_name("local_kv");
  engine->set_enable_memory_optimization(true);
-  engine->set_static_optimization(false);
-  engine->set_force_update_static_cache(false);
  int ret = baidu::paddle_serving::configure::write_proto_conf(
      &model_toolkit_conf, output_dir, model_toolkit_conf_file);

--- a/core/general-server/CMakeLists.txt
+++ b/core/general-server/CMakeLists.txt
@@ -2,33 +2,25 @@ include_directories(SYSTEM  ${CMAKE_CURRENT_LIST_DIR}/../../)
 include(op/CMakeLists.txt)
 include(proto/CMakeLists.txt)
 add_executable(serving ${serving_srcs})
-add_dependencies(serving pdcodegen fluid_cpu_engine pdserving paddle_fluid cube-api utils)
+add_dependencies(serving pdcodegen paddle_inference_engine pdserving paddle_inference cube-api utils)
 if (WITH_GPU)
-    add_dependencies(serving fluid_gpu_engine)
+    add_dependencies(serving paddle_inference_engine)
 endif()
 if (WITH_LITE)
-    add_dependencies(serving fluid_arm_engine)
+    add_dependencies(serving paddle_inference_engine)
 endif()
 target_include_directories(serving PUBLIC
        ${CMAKE_CURRENT_BINARY_DIR}/../../core/predictor
-        )
+)
-    include_directories(${CUDNN_ROOT}/include/)
+include_directories(${CUDNN_ROOT}/include/)
-if(WITH_GPU)
-    target_link_libraries(serving -Wl,--whole-archive fluid_gpu_engine
-            -Wl,--no-whole-archive)
-endif()
-if(WITH_LITE)
-    target_link_libraries(serving -Wl,--whole-archive fluid_arm_engine
-            -Wl,--no-whole-archive)
-endif()
-target_link_libraries(serving -Wl,--whole-archive fluid_cpu_engine
+target_link_libraries(serving -Wl,--whole-archive paddle_inference_engine
        -Wl,--no-whole-archive)
-target_link_libraries(serving paddle_fluid ${paddle_depend_libs})
+target_link_libraries(serving paddle_inference ${paddle_depend_libs})
 target_link_libraries(serving brpc)
 target_link_libraries(serving protobuf)
 target_link_libraries(serving pdserving)

--- a/core/predictor/CMakeLists.txt
+++ b/core/predictor/CMakeLists.txt
@@ -12,12 +12,12 @@ set_source_files_properties(
        ${pdserving_srcs}
        PROPERTIES
        COMPILE_FLAGS  "-Wno-strict-aliasing -Wno-unused-variable -Wno-non-virtual-dtor -Wno-error=non-virtual-dtor -Wno-error=delete-non-virtual-dtor")
-add_dependencies(pdserving protobuf boost brpc leveldb pdcodegen configure extern_paddle paddle_fluid)
+add_dependencies(pdserving protobuf boost brpc leveldb pdcodegen configure extern_paddle paddle_inference)
 if (WITH_TRT)
    add_definitions(-DWITH_TRT)
 endif()
 target_link_libraries(pdserving
-        brpc protobuf boost leveldb configure -lpthread -lcrypto -lm -lrt -lssl -ldl -lz paddle_fluid ${paddle_depend_libs})
+        brpc protobuf boost leveldb configure -lpthread -lcrypto -lm -lrt -lssl -ldl -lz paddle_inference ${paddle_depend_libs})
 # install
 install(TARGETS pdserving
        RUNTIME DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/bin

--- a/core/predictor/common/utils.h
+++ b/core/predictor/common/utils.h
@@ -14,6 +14,7 @@
 #pragma once
 #include <string>
+#include <fstream>
 #include "core/predictor/common/inner_common.h"
 #include "core/predictor/common/macros.h"
@@ -148,6 +149,16 @@ class IsDerivedFrom {
  }
 };
+static void ReadBinaryFile(const std::string& filename, std::string* contents) {
+  std::ifstream fin(filename, std::ios::in | std::ios::binary);
+  fin.seekg(0, std::ios::end);
+  contents->clear();
+  contents->resize(fin.tellg());
+  fin.seekg(0, std::ios::beg);
+  fin.read(&(contents->at(0)), contents->size());
+  fin.close();
+}
 }  // namespace predictor
 }  // namespace paddle_serving
 }  // namespace baidu
--- a/core/predictor/framework/infer.h
+++ b/core/predictor/framework/infer.h
@@ -16,6 +16,7 @@
 #include <sys/stat.h>
 #include <sys/types.h>
 #include <unistd.h>
+#include <pthread.h>
 #include <string>
 #include <utility>
 #include <vector>
@@ -29,83 +30,29 @@ namespace predictor {
 using configure::ModelToolkitConf;
-class InferEngineCreationParams {
+class AutoLock {
 public:
-  InferEngineCreationParams() {
+  explicit AutoLock(pthread_mutex_t& mutex) : _mut(mutex) {
-    _path = "";
+    pthread_mutex_lock(&mutex);
-    _enable_memory_optimization = false;
-    _enable_ir_optimization = false;
-    _static_optimization = false;
-    _force_update_static_cache = false;
-    _use_trt = false;
-    _use_lite = false;
-    _use_xpu = false;
  }
+  ~AutoLock() { pthread_mutex_unlock(&_mut); }
-  void set_path(const std::string& path) { _path = path; }
+ private:
+  pthread_mutex_t& _mut;
-  void set_enable_memory_optimization(bool enable_memory_optimization) {
+};
-    _enable_memory_optimization = enable_memory_optimization;
-  }
-  void set_enable_ir_optimization(bool enable_ir_optimization) {
-    _enable_ir_optimization = enable_ir_optimization;
-  }
-  void set_use_trt(bool use_trt) { _use_trt = use_trt; }
-  void set_use_lite(bool use_lite) { _use_lite = use_lite; }
-  void set_use_xpu(bool use_xpu) { _use_xpu = use_xpu; }
-  bool enable_memory_optimization() const {
-    return _enable_memory_optimization;
-  }
-  bool enable_ir_optimization() const { return _enable_ir_optimization; }
-  bool use_trt() const { return _use_trt; }
-  bool use_lite() const { return _use_lite; }
-  bool use_xpu() const { return _use_xpu; }
-  void set_static_optimization(bool static_optimization = false) {
-    _static_optimization = static_optimization;
-  }
-  void set_force_update_static_cache(bool force_update_static_cache = false) {
-    _force_update_static_cache = force_update_static_cache;
-  }
-  bool static_optimization() const { return _static_optimization; }
-  bool force_update_static_cache() const { return _force_update_static_cache; }
-  std::string get_path() const { return _path; }
+class GlobalCreateMutex {
+ public:
+  pthread_mutex_t& mutex() { return _mut; }
-  void dump() const {
+  static pthread_mutex_t& instance() {
-    LOG(INFO) << "InferEngineCreationParams: "
+    static GlobalCreateMutex gmutex;
-              << "model_path = " << _path << ", "
+    return gmutex.mutex();
-              << "enable_memory_optimization = " << _enable_memory_optimization
-              << ", "
-              << "enable_tensorrt = " << _use_trt << ", "
-              << "enable_lite = " << _use_lite << ", "
-              << "enable_xpu = " << _use_xpu << ", "
-              << "enable_ir_optimization = " << _enable_ir_optimization << ", "
-              << "static_optimization = " << _static_optimization << ", "
-              << "force_update_static_cache = " << _force_update_static_cache;
  }
 private:
-  std::string _path;
+  GlobalCreateMutex() { pthread_mutex_init(&_mut, NULL); }
-  bool _enable_memory_optimization;
+  pthread_mutex_t _mut;
-  bool _enable_ir_optimization;
-  bool _static_optimization;
-  bool _force_update_static_cache;
-  bool _use_trt;
-  bool _use_lite;
-  bool _use_xpu;
 };
 class InferEngine {
@@ -152,57 +99,19 @@ class ReloadableInferEngine : public InferEngine {
    uint64_t last_revision;
  };
-  virtual int load(const InferEngineCreationParams& params) = 0;
+  virtual int load(const configure::EngineDesc& conf) = 0;
  int proc_initialize_impl(const configure::EngineDesc& conf, bool version) {
    _reload_tag_file = conf.reloadable_meta();
    _reload_mode_tag = conf.reloadable_type();
-    _model_data_path = conf.model_data_path();
+    _model_data_path = conf.model_dir();
    _infer_thread_num = conf.runtime_thread_num();
    _infer_batch_size = conf.batch_infer_size();
    _infer_batch_align = conf.enable_batch_align();
-    bool enable_memory_optimization = false;
+    _conf = conf;
-    if (conf.has_enable_memory_optimization()) {
-      enable_memory_optimization = conf.enable_memory_optimization();
-    }
-    bool static_optimization = false;
-    if (conf.has_static_optimization()) {
-      static_optimization = conf.static_optimization();
-    }
-    bool force_update_static_cache = false;
-    if (conf.has_force_update_static_cache()) {
-      force_update_static_cache = conf.force_update_static_cache();
-    }
-    if (conf.has_enable_ir_optimization()) {
+    if (!check_need_reload() || load(conf) != 0) {
-      _infer_engine_params.set_enable_ir_optimization(
-          conf.enable_ir_optimization());
-    }
-    _infer_engine_params.set_path(_model_data_path);
-    if (enable_memory_optimization) {
-      _infer_engine_params.set_enable_memory_optimization(true);
-      _infer_engine_params.set_static_optimization(static_optimization);
-      _infer_engine_params.set_force_update_static_cache(
-          force_update_static_cache);
-    }
-    if (conf.has_use_trt()) {
-      _infer_engine_params.set_use_trt(conf.use_trt());
-    }
-    if (conf.has_use_lite()) {
-      _infer_engine_params.set_use_lite(conf.use_lite());
-    }
-    if (conf.has_use_xpu()) {
-      _infer_engine_params.set_use_xpu(conf.use_xpu());
-    }
-    if (!check_need_reload() || load(_infer_engine_params) != 0) {
      LOG(ERROR) << "Failed load model_data_path" << _model_data_path;
      return -1;
    }
@@ -230,7 +139,6 @@ class ReloadableInferEngine : public InferEngine {
    if (_infer_thread_num > 0) {
      return 0;
    }
    return thrd_initialize_impl();
  }
@@ -254,13 +162,13 @@ class ReloadableInferEngine : public InferEngine {
  int reload() {
    if (check_need_reload()) {
      LOG(WARNING) << "begin reload model[" << _model_data_path << "].";
-      return load(_infer_engine_params);
+      return load(_conf);
    }
    return 0;
  }
  uint64_t version() const { return _version; }
  uint32_t thread_num() const { return _infer_thread_num; }
 private:
@@ -322,7 +230,7 @@ class ReloadableInferEngine : public InferEngine {
 protected:
  std::string _model_data_path;
-  InferEngineCreationParams _infer_engine_params;
+  configure::EngineDesc _conf;
 private:
  std::string _reload_tag_file;
@@ -361,25 +269,25 @@ class DBReloadableInferEngine : public ReloadableInferEngine {
    return ReloadableInferEngine::proc_initialize(conf, version);
  }
-  virtual int load(const InferEngineCreationParams& params) {
+  virtual int load(const configure::EngineDesc& conf) {
    if (_reload_vec.empty()) {
      return 0;
    }
    for (uint32_t ti = 0; ti < _reload_vec.size(); ++ti) {
-      if (load_data(_reload_vec[ti], params) != 0) {
+      if (load_data(_reload_vec[ti], conf) != 0) {
        LOG(ERROR) << "Failed reload engine model: " << ti;
        return -1;
      }
    }
-    LOG(WARNING) << "Succ load engine, path: " << params.get_path();
+    LOG(WARNING) << "Succ load engine, path: " << conf.model_dir();
    return 0;
  }
  int load_data(ModelData<EngineCore>* md,
-                const InferEngineCreationParams& params) {
+                const configure::EngineDesc& conf) {
    uint32_t next_idx = (md->current_idx + 1) % 2;
    if (md->cores[next_idx]) {
      delete md->cores[next_idx];
@@ -387,9 +295,9 @@ class DBReloadableInferEngine : public ReloadableInferEngine {
    md->cores[next_idx] = new (std::nothrow) EngineCore;
-    params.dump();
+    //params.dump();
-    if (!md->cores[next_idx] || md->cores[next_idx]->create(params) != 0) {
+    if (!md->cores[next_idx] || md->cores[next_idx]->create(conf) != 0) {
-      LOG(ERROR) << "Failed create model, path: " << params.get_path();
+      LOG(ERROR) << "Failed create model, path: " << conf.model_dir();
      return -1;
    }
    md->current_idx = next_idx;
@@ -400,9 +308,9 @@ class DBReloadableInferEngine : public ReloadableInferEngine {
    // memory pool to be inited in non-serving-threads
    ModelData<EngineCore>* md = new (std::nothrow) ModelData<EngineCore>;
-    if (!md || load_data(md, _infer_engine_params) != 0) {
+    if (!md || load_data(md, _conf) != 0) {
      LOG(ERROR) << "Failed create thread data from "
-                 << _infer_engine_params.get_path();
+                 << _conf.model_dir();
      return -1;
    }
@@ -458,16 +366,16 @@ class CloneDBReloadableInferEngine
    return DBReloadableInferEngine<EngineCore>::proc_initialize(conf, version);
  }
-  virtual int load(const InferEngineCreationParams& params) {
+  virtual int load(const configure::EngineDesc& conf) {
    // 加载进程级模型数据
    if (!_pd ||
-        DBReloadableInferEngine<EngineCore>::load_data(_pd, params) != 0) {
+        DBReloadableInferEngine<EngineCore>::load_data(_pd, conf) != 0) {
-      LOG(ERROR) << "Failed to create common model from [" << params.get_path()
+      LOG(ERROR) << "Failed to create common model from [" << conf.model_dir()
                 << "].";
      return -1;
    }
    LOG(WARNING) << "Succ load common model[" << _pd->cores[_pd->current_idx]
-                 << "], path[" << params.get_path() << "].";
+                 << "], path[" << conf.model_dir() << "].";
    if (DBReloadableInferEngine<EngineCore>::_reload_vec.empty()) {
      return 0;
@@ -483,7 +391,7 @@ class CloneDBReloadableInferEngine
      }
    }
-    LOG(WARNING) << "Succ load clone model, path[" << params.get_path() << "]";
+    LOG(WARNING) << "Succ load clone model, path[" << conf.model_dir() << "]";
    return 0;
  }
@@ -527,18 +435,18 @@ class CloneDBReloadableInferEngine
      _pd;  // 进程级EngineCore，多个线程级EngineCore共用该对象的模型数据
 };
-template <typename FluidFamilyCore>
+template <typename PaddleInferenceCore>
 #ifdef WITH_TRT
-class FluidInferEngine : public DBReloadableInferEngine<FluidFamilyCore> {
+class FluidInferEngine : public DBReloadableInferEngine<PaddleInferenceCore> {
 #else
-class FluidInferEngine : public CloneDBReloadableInferEngine<FluidFamilyCore> {
+class FluidInferEngine : public CloneDBReloadableInferEngine<PaddleInferenceCore> {
 #endif
 public:  // NOLINT
  FluidInferEngine() {}
  ~FluidInferEngine() {}
  std::vector<std::string> GetInputNames() {
-    FluidFamilyCore* core =
+    PaddleInferenceCore* core =
-        DBReloadableInferEngine<FluidFamilyCore>::get_core();
+        DBReloadableInferEngine<PaddleInferenceCore>::get_core();
    if (!core || !core->get()) {
      LOG(ERROR) << "Failed get fluid core in GetInputHandle()";
    }
@@ -546,8 +454,8 @@ class FluidInferEngine : public CloneDBReloadableInferEngine<FluidFamilyCore> {
  }
  std::vector<std::string> GetOutputNames() {
-    FluidFamilyCore* core =
+    PaddleInferenceCore* core =
-        DBReloadableInferEngine<FluidFamilyCore>::get_core();
+        DBReloadableInferEngine<PaddleInferenceCore>::get_core();
    if (!core || !core->get()) {
      LOG(ERROR) << "Failed get fluid core in GetInputHandle()";
    }
@@ -556,8 +464,8 @@ class FluidInferEngine : public CloneDBReloadableInferEngine<FluidFamilyCore> {
  std::unique_ptr<paddle_infer::Tensor> GetInputHandle(
      const std::string& name) {
-    FluidFamilyCore* core =
+    PaddleInferenceCore* core =
-        DBReloadableInferEngine<FluidFamilyCore>::get_core();
+        DBReloadableInferEngine<PaddleInferenceCore>::get_core();
    if (!core || !core->get()) {
      LOG(ERROR) << "Failed get fluid core in GetInputHandle()";
    }
@@ -566,8 +474,8 @@ class FluidInferEngine : public CloneDBReloadableInferEngine<FluidFamilyCore> {
  std::unique_ptr<paddle_infer::Tensor> GetOutputHandle(
      const std::string& name) {
-    FluidFamilyCore* core =
+    PaddleInferenceCore* core =
-        DBReloadableInferEngine<FluidFamilyCore>::get_core();
+        DBReloadableInferEngine<PaddleInferenceCore>::get_core();
    if (!core || !core->get()) {
      LOG(ERROR) << "Failed get fluid core in GetOutputHandle()";
    }
@@ -575,8 +483,8 @@ class FluidInferEngine : public CloneDBReloadableInferEngine<FluidFamilyCore> {
  }
  int infer_impl() {
-    FluidFamilyCore* core =
+    PaddleInferenceCore* core =
-        DBReloadableInferEngine<FluidFamilyCore>::get_core();
+        DBReloadableInferEngine<PaddleInferenceCore>::get_core();
    if (!core || !core->get()) {
      LOG(ERROR) << "Failed get fluid core in infer_impl()";
      return -1;

--- a/doc/FAQ.md
+++ b/doc/FAQ.md
@@ -6,17 +6,17 @@
 #### Q: Paddle Serving 、Paddle Inference、PaddleHub Serving三者的区别及联系？
-**A:** paddle serving是远程服务，即发起预测的设备（手机、浏览器、客户端等）与实际预测的硬件不在一起。	paddle inference是一个library，适合嵌入到一个大系统中保证预测效率，paddle serving调用了paddle       inference做远程服务。paddlehub serving可以认为是一个示例，都会使用paddle serving作为统一预测服务入口。如果在web端交互，一般是调用远程服务的形式，可以使用paddle serving的web service搭建。
+**A:** paddle serving是远程服务，即发起预测的设备（手机、浏览器、客户端等）与实际预测的硬件不在一起。   paddle inference是一个library，适合嵌入到一个大系统中保证预测效率，paddle serving调用了paddle       inference做远程服务。paddlehub serving可以认为是一个示例，都会使用paddle serving作为统一预测服务入口。如果在web端交互，一般是调用远程服务的形式，可以使用paddle serving的web service搭建。
 #### Q: paddle-serving是否支持Int32支持
 **A:** 在protobuf定feed_type和fetch_type编号与数据类型对应如下
     0-int64
-	  1-float32
+      1-float32
-	  2-int32
+      2-int32
 #### Q: paddle-serving是否支持windows和Linux环境下的多线程调用 
@@ -37,6 +37,7 @@
 ## 安装问题
 #### Q: pip install安装whl包过程，报错信息如下：
 ```
 Collecting opencv-python
  Using cached opencv-python-4.3.0.38.tar.gz (88.0 MB)
@@ -69,9 +70,11 @@ Collecting opencv-python
      s = list(pattern)
  TypeError: 'NoneType' object is not iterable
 ```
 **A:** 指定opencv-python版本安装，pip install opencv-python==4.2.0.32，再安装whl包
 #### Q: pip3 install whl包过程报错信息如下：
 ```
    Complete output from command python setup.py egg_info:
    Found cython-generated files...
@@ -80,13 +83,16 @@ Collecting opencv-python
    ----------------------------------------
 Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install-taoxz02y/grpcio/
 ```
 **A:** 需要升级pip3，再重新执行安装命令。
 ```
 pip3 install --upgrade pip
 pip3 install --upgrade setuptools
 ```
 #### Q: 运行过程中报错，信息如下：
 ```
 Traceback (most recent call last):
  File "../../deploy/serving/test_client.py", line 18, in <module>
@@ -97,7 +103,9 @@ Traceback (most recent call last):
    from shapely.geometry import Polygon
 ImportError: No module named shapely.geometry
 ```
 **A:** 有2种方法，第一种通过pip/pip3安装shapely，第二种通过pip/pip3安装所有依赖组件。
 ```
 方法1：
 pip install shapely==1.7.0
@@ -116,7 +124,69 @@ pip install -r python/requirements.txt
 **A:** 没有安装JDK，或者JAVA_HOME路径配置错误（正确配置是JDK路径，常见错误配置成JRE路径，例如正确路径参考JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.262.b10-0.el7_8.x86_64/"）。Java JDK安装参考https://segmentfault.com/a/1190000015389941
+## 环境问题
+#### Q：使用过程中出现CXXABI错误。
+这个问题出现的原因是Python使用的gcc版本和Serving所需的gcc版本对不上。对于Docker用户，推荐使用[Docker容器](./RUN_IN_DOCKER_CN.md)，由于Docker容器内的Python版本与Serving在发布前都做过适配，这样就不会出现类似的错误。如果是其他开发环境，首先需要确保开发环境中具备GCC 8.2，如果没有gcc 8.2，参考安装方式
+```bash
+wget -q https://paddle-ci.gz.bcebos.com/gcc-8.2.0.tar.xz 
+tar -xvf gcc-8.2.0.tar.xz && \
+cd gcc-8.2.0 && \
+unset LIBRARY_PATH CPATH C_INCLUDE_PATH PKG_CONFIG_PATH CPLUS_INCLUDE_PATH INCLUDE && \
+./contrib/download_prerequisites && \
+cd .. && mkdir temp_gcc82 && cd temp_gcc82 && \
+../gcc-8.2.0/configure --prefix=/usr/local/gcc-8.2 --enable-threads=posix --disable-checking --disable-multilib && \
+make -j8 && make install
+cd .. && rm -rf temp_gcc82
+cp ${lib_so_6} ${lib_so_6}.bak  && rm -f ${lib_so_6} && 
+ln -s /usr/local/gcc-8.2/lib64/libgfortran.so.5 ${lib_so_5} && \
+ln -s /usr/local/gcc-8.2/lib64/libstdc++.so.6 ${lib_so_6} && \
+cp /usr/local/gcc-8.2/lib64/libstdc++.so.6.0.25 ${lib_path}
+```
+假如已经有了GCC 8.2，可以自行安装Python，此外我们也提供了两个GCC 8.2编译的[Python2.7](https://paddle-serving.bj.bcebos.com/others/Python2.7.17-gcc82.tar) 和 [Python3.6](https://paddle-serving.bj.bcebos.com/others/Python3.6.10-gcc82.tar) 。下载解压后，需要将对应的目录设置为`PYTHONROOT`，并设置`PATH`和`LD_LIBRARY_PATH`。
+```bash
+export PYTHONROOT=/path/of/python # 对应解压后的Python目录
+export PATH=$PYTHONROOT/bin:$PATH
+export LD_LIBRARY_PATH=$PYTHONROOT/lib:$LD_LIBRARY_PATH
+```
+#### Q：遇到libstdc++.so.6的版本不够的问题
+触发该问题的原因在于，编译Paddle Serving相关可执行程序和动态库，所采用的是GCC 8.2(Cuda 9.0和10.0的Server可执行程序受限Cuda兼容性采用GCC 4.8编译)。Python在调用的过程中，有可能链接到了其他GCC版本的 `libstdc++.so`。 需要做的就是受限确保所在环境具备GCC 8.2，其次将GCC8.2的`libstdc++.so.*`拷贝到某个目录例如`/home/libstdcpp`下。最后`export LD_LIBRARY_PATH=/home/libstdcpp:$LD_LIBRARY_PATH` 即可。
+#### Q: 遇到OPENSSL_1.0.1EC 符号找不到的问题。
+目前Serving的可执行程序和客户端动态库需要链接1.0.2k版本的openssl动态库。如果环境当中没有，可以执行
+```bash
+wget https://paddle-serving.bj.bcebos.com/others/centos_ssl.tar && \
+    tar xf centos_ssl.tar && rm -rf centos_ssl.tar && \
+    mv libcrypto.so.1.0.2k /usr/lib/libcrypto.so.1.0.2k && mv libssl.so.1.0.2k /usr/lib/libssl.so.1.0.2k && \
+    ln -sf /usr/lib/libcrypto.so.1.0.2k /usr/lib/libcrypto.so.10 && \
+    ln -sf /usr/lib/libssl.so.1.0.2k /usr/lib/libssl.so.10 && \
+    ln -sf /usr/lib/libcrypto.so.10 /usr/lib/libcrypto.so && \
+    ln -sf /usr/lib/libssl.so.10 /usr/lib/libssl.so
+```
+其中`/usr/lib` 可以换成其他目录，并确保该目录在`LD_LIBRARY_PATH`下。
+### GPU相关环境问题
+#### Q：需要做哪些检查确保Serving可以运行在GPU环境
+**注：如果是使用Serving提供的镜像不需要做下列检查，如果是其他开发环境可以参考以下指导。**
+首先需要确保`nvidia-smi`可用，其次需要确保所需的动态库so文件在`LD_LIBRARY_PATH`所在的目录（包括系统lib库）。
+（1）Cuda显卡驱动：文件名通常为 `libcuda.so.$DRIVER_VERSION` 例如驱动版本为440.10.15，文件名就是`libcuda.so.440.10.15`。
+（2）Cuda和Cudnn动态库：文件名通常为 `libcudart.so.$CUDA_VERSION`，和 `libcudnn.so.$CUDNN_VERSION`。例如Cuda9就是 `libcudart.so.9.0`，Cudnn7就是 `libcudnn.so.7`。Cuda和Cudnn与Serving的版本匹配参见[Serving所有镜像列表](DOCKER_IMAGES_CN.md#%E9%99%84%E5%BD%95%E6%89%80%E6%9C%89%E9%95%9C%E5%83%8F%E5%88%97%E8%A1%A8).
+  (3) Cuda10.1及更高版本需要TensorRT。安装TensorRT相关文件的脚本参考 [install_trt.sh](../tools/dockerfile/build_scripts/install_trt.sh).
 ## 部署问题
@@ -154,7 +224,7 @@ InvalidArgumentError: Device id must be less than GPU count, but received id is:
 **A:**:1)使用[GPU docker](https://github.com/PaddlePaddle/Serving/blob/develop/doc/RUN_IN_DOCKER.md#gpunvidia-docker)解决环境问题
-	   2)修改anaconda的虚拟环境下安装的python的gcc版本[参考](https://www.jianshu.com/p/c498b3d86f77) 
+       2)修改anaconda的虚拟环境下安装的python的gcc版本[参考](https://www.jianshu.com/p/c498b3d86f77) 
 #### Q: paddle-serving是否支持本地离线安装 
@@ -221,9 +291,10 @@ client端的日志直接打印到标准输出。
 **A:** 1)警告是glog组件打印的，告知glog初始化之前日志打印在STDERR
-	   2)一般采用GLOG_v方式启动服务同时设置日志级别。
+       2)一般采用GLOG_v方式启动服务同时设置日志级别。
 例如：
 ```
 GLOG_v=2 python -m paddle_serving_server.serve --model xxx_conf/ --port 9999 
 ```

--- a/paddle_inference/CMakeLists.txt
+++ b/paddle_inference/CMakeLists.txt
@@ -13,13 +13,5 @@
 # limitations under the License
 if (NOT CLIENT_ONLY)
-    add_subdirectory(inferencer-fluid-cpu)
+    add_subdirectory(paddle)
-    if (WITH_GPU)
-        add_subdirectory(inferencer-fluid-gpu)
-    endif()
-    if (WITH_LITE)
-        add_subdirectory(inferencer-fluid-arm)
-    endif()
 endif()
--- a/paddle_inference/inferencer-fluid-arm/CMakeLists.txt
+++ b/paddle_inference/inferencer-fluid-arm/CMakeLists.txt
-FILE(GLOB fluid_arm_engine_srcs ${CMAKE_CURRENT_LIST_DIR}/src/*.cpp)
-add_library(fluid_arm_engine ${fluid_arm_engine_srcs})
-target_include_directories(fluid_arm_engine PUBLIC
-        ${CMAKE_BINARY_DIR}/Paddle/fluid_install_dir/)
-add_dependencies(fluid_arm_engine pdserving extern_paddle configure)
-target_link_libraries(fluid_arm_engine pdserving paddle_fluid -lpthread -lcrypto -lm -lrt -lssl -ldl -lz)
-install(TARGETS fluid_arm_engine 
-        ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
-        )
--- a/paddle_inference/inferencer-fluid-cpu/CMakeLists.txt
+++ b/paddle_inference/inferencer-fluid-cpu/CMakeLists.txt
-FILE(GLOB fluid_cpu_engine_srcs ${CMAKE_CURRENT_LIST_DIR}/src/*.cpp)
-add_library(fluid_cpu_engine ${fluid_cpu_engine_srcs})
-target_include_directories(fluid_cpu_engine PUBLIC
-        ${CMAKE_BINARY_DIR}/Paddle/fluid_install_dir/)
-add_dependencies(fluid_cpu_engine pdserving extern_paddle configure)
-target_link_libraries(fluid_cpu_engine pdserving paddle_fluid -lpthread -lcrypto -lm -lrt -lssl -ldl -lz)
-install(TARGETS fluid_cpu_engine 
-        ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
-        )
--- a/paddle_inference/inferencer-fluid-cpu/include/fluid_cpu_engine.h
+++ b/paddle_inference/inferencer-fluid-cpu/include/fluid_cpu_engine.h
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-//
-// Licensed under the Apache License, Version 2.0 (the "License");
-// you may not use this file except in compliance with the License.
-// You may obtain a copy of the License at
-//
-//     http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-#pragma once
-#include <pthread.h>
-#include <fstream>
-#include <map>
-#include <string>
-#include <vector>
-#include "core/configure/include/configure_parser.h"
-#include "core/configure/inferencer_configure.pb.h"
-#include "core/predictor/framework/infer.h"
-#include "paddle_inference_api.h"  // NOLINT
-namespace baidu {
-namespace paddle_serving {
-namespace fluid_cpu {
-class AutoLock {
- public:
-  explicit AutoLock(pthread_mutex_t& mutex) : _mut(mutex) {
-    pthread_mutex_lock(&mutex);
-  }
-  ~AutoLock() { pthread_mutex_unlock(&_mut); }
- private:
-  pthread_mutex_t& _mut;
-};
-class GlobalPaddleCreateMutex {
- public:
-  pthread_mutex_t& mutex() { return _mut; }
-  static pthread_mutex_t& instance() {
-    static GlobalPaddleCreateMutex gmutex;
-    return gmutex.mutex();
-  }
- private:
-  GlobalPaddleCreateMutex() { pthread_mutex_init(&_mut, NULL); }
-  pthread_mutex_t _mut;
-};
-using paddle_infer::Config;
-using paddle_infer::Predictor;
-using paddle_infer::Tensor;
-using paddle_infer::CreatePredictor;
-// data interface
-class FluidFamilyCore {
- public:
-  virtual ~FluidFamilyCore() {}
-  virtual std::vector<std::string> GetInputNames() {
-    return _core->GetInputNames();
-  }
-  virtual std::unique_ptr<Tensor> GetInputHandle(const std::string& name) {
-    return _core->GetInputHandle(name);
-  }
-  virtual std::vector<std::string> GetOutputNames() {
-    return _core->GetOutputNames();
-  }
-  virtual std::unique_ptr<Tensor> GetOutputHandle(const std::string& name) {
-    return _core->GetOutputHandle(name);
-  }
-  virtual bool Run() {
-    if (!_core->Run()) {
-      LOG(ERROR) << "Failed call Run with paddle predictor";
-      return false;
-    }
-    return true;
-  }
-  virtual int create(const predictor::InferEngineCreationParams& params) = 0;
-  virtual int clone(void* origin_core) {
-    if (origin_core == NULL) {
-      LOG(ERROR) << "origin paddle Predictor is null.";
-      return -1;
-    }
-    Predictor* p_predictor = (Predictor*)origin_core;
-    _core = p_predictor->Clone();
-    if (_core.get() == NULL) {
-      LOG(ERROR) << "fail to clone paddle predictor: " << origin_core;
-      return -1;
-    }
-    return 0;
-  }
-  virtual void* get() { return _core.get(); }
- protected:
-  std::shared_ptr<Predictor> _core;
-};
-// infer interface
-class FluidCpuAnalysisCore : public FluidFamilyCore {
- public:
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path not exits: "
-                 << data_path;
-      return -1;
-    }
-    Config config;
-    config.SetParamsFile(data_path + "/__params__");
-    config.SetProgFile(data_path + "/__model__");
-    config.DisableGpu();
-    config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    config.SwitchSpecifyInputNames(true);
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    _core = CreatePredictor(config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-class FluidCpuAnalysisDirCore : public FluidFamilyCore {
- public:
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path not exits: "
-                 << data_path;
-      return -1;
-    }
-    Config config;
-    config.SetModel(data_path);
-    config.DisableGpu();
-    config.SwitchSpecifyInputNames(true);
-    config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    if (params.enable_ir_optimization()) {
-      config.SwitchIrOptim(true);
-    } else {
-      config.SwitchIrOptim(false);
-    }
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    _core = CreatePredictor(config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-class Parameter {
- public:
-  Parameter() : _row(0), _col(0), _params(NULL) {}
-  ~Parameter() {
-    VLOG(2) << "before destroy Parameter, file_name[" << _file_name << "]";
-    destroy();
-  }
-  int init(int row, int col, const char* file_name) {
-    destroy();
-    _file_name = file_name;
-    _row = row;
-    _col = col;
-    _params = reinterpret_cast<float*>(malloc(_row * _col * sizeof(float)));
-    if (_params == NULL) {
-      LOG(ERROR) << "Load " << _file_name << " malloc error.";
-      return -1;
-    }
-    VLOG(2) << "Load parameter file[" << _file_name << "] success.";
-    return 0;
-  }
-  void destroy() {
-    _row = 0;
-    _col = 0;
-    if (_params != NULL) {
-      free(_params);
-      _params = NULL;
-    }
-  }
-  int load() {
-    if (_params == NULL || _row <= 0 || _col <= 0) {
-      LOG(ERROR) << "load parameter error [not inited].";
-      return -1;
-    }
-    FILE* fs = fopen(_file_name.c_str(), "rb");
-    if (fs == NULL) {
-      LOG(ERROR) << "load " << _file_name << " fopen error.";
-      return -1;
-    }
-    static const uint32_t MODEL_FILE_HEAD_LEN = 16;
-    char head[MODEL_FILE_HEAD_LEN] = {0};
-    if (fread(head, 1, MODEL_FILE_HEAD_LEN, fs) != MODEL_FILE_HEAD_LEN) {
-      destroy();
-      LOG(ERROR) << "Load " << _file_name << " read head error.";
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      return -1;
-    }
-    uint32_t matrix_size = _row * _col;
-    if (matrix_size == fread(_params, sizeof(float), matrix_size, fs)) {
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      VLOG(2) << "load " << _file_name << " read ok.";
-      return 0;
-    } else {
-      LOG(ERROR) << "load " << _file_name << " read error.";
-      destroy();
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      return -1;
-    }
-    return 0;
-  }
- public:
-  std::string _file_name;
-  int _row;
-  int _col;
-  float* _params;
-};
-class FluidCpuAnalysisEncryptCore : public FluidFamilyCore {
- public:
-  void ReadBinaryFile(const std::string& filename, std::string* contents) {
-    std::ifstream fin(filename, std::ios::in | std::ios::binary);
-    fin.seekg(0, std::ios::end);
-    contents->clear();
-    contents->resize(fin.tellg());
-    fin.seekg(0, std::ios::beg);
-    fin.read(&(contents->at(0)), contents->size());
-    fin.close();
-  }
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path note exits: "
-                 << data_path;
-      return -1;
-    }
-    std::string model_buffer, params_buffer, key_buffer;
-    ReadBinaryFile(data_path + "encrypt_model", &model_buffer);
-    ReadBinaryFile(data_path + "encrypt_params", &params_buffer);
-    ReadBinaryFile(data_path + "key", &key_buffer);
-    VLOG(2) << "prepare for encryption model";
-    auto cipher = paddle::MakeCipher("");
-    std::string real_model_buffer = cipher->Decrypt(model_buffer, key_buffer);
-    std::string real_params_buffer = cipher->Decrypt(params_buffer, key_buffer);
-    Config analysis_config;
-    // paddle::AnalysisConfig analysis_config;
-    analysis_config.SetModelBuffer(&real_model_buffer[0],
-                                   real_model_buffer.size(),
-                                   &real_params_buffer[0],
-                                   real_params_buffer.size());
-    analysis_config.DisableGpu();
-    analysis_config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      analysis_config.EnableMemoryOptim();
-    }
-    analysis_config.SwitchSpecifyInputNames(true);
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    VLOG(2) << "decrypt model file sucess";
-    _core = CreatePredictor(analysis_config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-}  // namespace fluid_cpu
-}  // namespace paddle_serving
-}  // namespace baidu
--- a/paddle_inference/inferencer-fluid-cpu/src/fluid_cpu_engine.cpp
+++ b/paddle_inference/inferencer-fluid-cpu/src/fluid_cpu_engine.cpp
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-//
-// Licensed under the Apache License, Version 2.0 (the "License");
-// you may not use this file except in compliance with the License.
-// You may obtain a copy of the License at
-//
-//     http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-#include "paddle_inference/inferencer-fluid-cpu/include/fluid_cpu_engine.h"
-#include "core/predictor/framework/factory.h"
-namespace baidu {
-namespace paddle_serving {
-namespace fluid_cpu {
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<FluidCpuAnalysisCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_CPU_ANALYSIS");
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<
-        FluidCpuAnalysisDirCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_CPU_ANALYSIS_DIR");
-#if 1
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<
-        FluidCpuAnalysisEncryptCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_CPU_ANALYSIS_ENCRYPT");
-#endif
-}  // namespace fluid_cpu
-}  // namespace paddle_serving
-}  // namespace baidu
--- a/paddle_inference/inferencer-fluid-gpu/CMakeLists.txt
+++ b/paddle_inference/inferencer-fluid-gpu/CMakeLists.txt
-FILE(GLOB fluid_gpu_engine_srcs ${CMAKE_CURRENT_LIST_DIR}/src/*.cpp)
-add_library(fluid_gpu_engine ${fluid_gpu_engine_srcs})
-target_include_directories(fluid_gpu_engine PUBLIC
-        ${CMAKE_BINARY_DIR}/Paddle/fluid_install_dir/)
-add_dependencies(fluid_gpu_engine pdserving extern_paddle configure)
-target_link_libraries(fluid_gpu_engine pdserving paddle_fluid iomp5 mklml_intel -lpthread -lcrypto -lm -lrt -lssl -ldl -lz)
-install(TARGETS fluid_gpu_engine 
-        ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
-        )
--- a/paddle_inference/inferencer-fluid-gpu/include/fluid_gpu_engine.h
+++ b/paddle_inference/inferencer-fluid-gpu/include/fluid_gpu_engine.h
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-//
-// Licensed under the Apache License, Version 2.0 (the "License");
-// you may not use this file except in compliance with the License.
-// You may obtain a copy of the License at
-//
-//     http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-#pragma once
-#include <pthread.h>
-#include <fstream>
-#include <map>
-#include <memory>
-#include <string>
-#include <utility>
-#include <vector>
-#include "core/configure/include/configure_parser.h"
-#include "core/configure/inferencer_configure.pb.h"
-#include "core/predictor/framework/infer.h"
-#include "paddle_inference_api.h"  // NOLINT
-DECLARE_int32(gpuid);
-namespace baidu {
-namespace paddle_serving {
-namespace fluid_gpu {
-using configure::SigmoidConf;
-class AutoLock {
- public:
-  explicit AutoLock(pthread_mutex_t& mutex) : _mut(mutex) {
-    pthread_mutex_lock(&mutex);
-  }
-  ~AutoLock() { pthread_mutex_unlock(&_mut); }
- private:
-  pthread_mutex_t& _mut;
-};
-class GlobalPaddleCreateMutex {
- public:
-  pthread_mutex_t& mutex() { return _mut; }
-  static pthread_mutex_t& instance() {
-    static GlobalPaddleCreateMutex gmutex;
-    return gmutex.mutex();
-  }
- private:
-  GlobalPaddleCreateMutex() { pthread_mutex_init(&_mut, NULL); }
-  pthread_mutex_t _mut;
-};
-using paddle_infer::Config;
-using paddle_infer::Predictor;
-using paddle_infer::Tensor;
-using paddle_infer::CreatePredictor;
-// data interface
-class FluidFamilyCore {
- public:
-  virtual ~FluidFamilyCore() {}
-  virtual std::vector<std::string> GetInputNames() {
-    return _core->GetInputNames();
-  }
-  virtual std::unique_ptr<Tensor> GetInputHandle(const std::string& name) {
-    return _core->GetInputHandle(name);
-  }
-  virtual std::vector<std::string> GetOutputNames() {
-    return _core->GetOutputNames();
-  }
-  virtual std::unique_ptr<Tensor> GetOutputHandle(const std::string& name) {
-    return _core->GetOutputHandle(name);
-  }
-  virtual bool Run() {
-    if (!_core->Run()) {
-      LOG(ERROR) << "Failed call Run with paddle predictor";
-      return false;
-    }
-    return true;
-  }
-  virtual int create(const predictor::InferEngineCreationParams& params) = 0;
-  virtual int clone(void* origin_core) {
-    if (origin_core == NULL) {
-      LOG(ERROR) << "origin paddle Predictor is null.";
-      return -1;
-    }
-    Predictor* p_predictor = (Predictor*)origin_core;
-    _core = p_predictor->Clone();
-    if (_core.get() == NULL) {
-      LOG(ERROR) << "fail to clone paddle predictor: " << origin_core;
-      return -1;
-    }
-    return 0;
-  }
-  virtual void* get() { return _core.get(); }
- protected:
-  std::shared_ptr<Predictor> _core;
-};
-// infer interface
-class FluidGpuAnalysisCore : public FluidFamilyCore {
- public:
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path not exits: "
-                 << data_path;
-      return -1;
-    }
-    Config config;
-    config.SetParamsFile(data_path + "/__params__");
-    config.SetProgFile(data_path + "/__model__");
-    config.EnableUseGpu(100, FLAGS_gpuid);
-    config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    config.SwitchSpecifyInputNames(true);
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    _core = CreatePredictor(config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-class FluidGpuAnalysisDirCore : public FluidFamilyCore {
- public:
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path not exits: "
-                 << data_path;
-      return -1;
-    }
-    Config config;
-    config.SetModel(data_path);
-    config.EnableUseGpu(1500, FLAGS_gpuid);
-    config.SwitchSpecifyInputNames(true);
-    config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    int max_batch = 32;
-    int min_subgraph_size = 3;
-    if (params.use_trt()) {
-      config.EnableTensorRtEngine(1 << 20,
-                                  max_batch,
-                                  min_subgraph_size,
-                                  Config::Precision::kFloat32,
-                                  false,
-                                  false);
-      LOG(INFO) << "create TensorRT predictor";
-    } else {
-      if (params.enable_memory_optimization()) {
-        config.EnableMemoryOptim();
-      }
-      if (params.enable_ir_optimization()) {
-        config.SwitchIrOptim(true);
-      } else {
-        config.SwitchIrOptim(false);
-      }
-    }
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    _core = CreatePredictor(config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-class Parameter {
- public:
-  Parameter() : _row(0), _col(0), _params(NULL) {}
-  ~Parameter() {
-    LOG(INFO) << "before destroy Parameter, file_name[" << _file_name << "]";
-    destroy();
-  }
-  int init(int row, int col, const char* file_name) {
-    destroy();
-    _file_name = file_name;
-    _row = row;
-    _col = col;
-    _params = reinterpret_cast<float*>(malloc(_row * _col * sizeof(float)));
-    if (_params == NULL) {
-      LOG(ERROR) << "Load " << _file_name << " malloc error.";
-      return -1;
-    }
-    VLOG(2) << "Load parameter file[" << _file_name << "] success.";
-    return 0;
-  }
-  void destroy() {
-    _row = 0;
-    _col = 0;
-    if (_params != NULL) {
-      free(_params);
-      _params = NULL;
-    }
-  }
-  int load() {
-    if (_params == NULL || _row <= 0 || _col <= 0) {
-      LOG(ERROR) << "load parameter error [not inited].";
-      return -1;
-    }
-    FILE* fs = fopen(_file_name.c_str(), "rb");
-    if (fs == NULL) {
-      LOG(ERROR) << "load " << _file_name << " fopen error.";
-      return -1;
-    }
-    static const uint32_t MODEL_FILE_HEAD_LEN = 16;
-    char head[MODEL_FILE_HEAD_LEN] = {0};
-    if (fread(head, 1, MODEL_FILE_HEAD_LEN, fs) != MODEL_FILE_HEAD_LEN) {
-      destroy();
-      LOG(ERROR) << "Load " << _file_name << " read head error.";
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      return -1;
-    }
-    uint32_t matrix_size = _row * _col;
-    if (matrix_size == fread(_params, sizeof(float), matrix_size, fs)) {
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      LOG(INFO) << "load " << _file_name << " read ok.";
-      return 0;
-    } else {
-      LOG(ERROR) << "load " << _file_name << " read error.";
-      destroy();
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      return -1;
-    }
-    return 0;
-  }
- public:
-  std::string _file_name;
-  int _row;
-  int _col;
-  float* _params;
-};
-class FluidGpuAnalysisEncryptCore : public FluidFamilyCore {
- public:
-  void ReadBinaryFile(const std::string& filename, std::string* contents) {
-    std::ifstream fin(filename, std::ios::in | std::ios::binary);
-    fin.seekg(0, std::ios::end);
-    contents->clear();
-    contents->resize(fin.tellg());
-    fin.seekg(0, std::ios::beg);
-    fin.read(&(contents->at(0)), contents->size());
-    fin.close();
-  }
-  int create(const predictor::InferEngineCreationParams& params) {
-    std::string data_path = params.get_path();
-    if (access(data_path.c_str(), F_OK) == -1) {
-      LOG(ERROR) << "create paddle predictor failed, path note exits: "
-                 << data_path;
-      return -1;
-    }
-    std::string model_buffer, params_buffer, key_buffer;
-    ReadBinaryFile(data_path + "encrypt_model", &model_buffer);
-    ReadBinaryFile(data_path + "encrypt_params", &params_buffer);
-    ReadBinaryFile(data_path + "key", &key_buffer);
-    VLOG(2) << "prepare for encryption model";
-    auto cipher = paddle::MakeCipher("");
-    std::string real_model_buffer = cipher->Decrypt(model_buffer, key_buffer);
-    std::string real_params_buffer = cipher->Decrypt(params_buffer, key_buffer);
-    Config analysis_config;
-    analysis_config.SetModelBuffer(&real_model_buffer[0],
-                                   real_model_buffer.size(),
-                                   &real_params_buffer[0],
-                                   real_params_buffer.size());
-    analysis_config.EnableUseGpu(100, FLAGS_gpuid);
-    analysis_config.SetCpuMathLibraryNumThreads(1);
-    if (params.enable_memory_optimization()) {
-      analysis_config.EnableMemoryOptim();
-    }
-    analysis_config.SwitchSpecifyInputNames(true);
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
-    VLOG(2) << "decrypt model file sucess";
-    _core = CreatePredictor(analysis_config);
-    if (NULL == _core.get()) {
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-}  // namespace fluid_gpu
-}  // namespace paddle_serving
-}  // namespace baidu
--- a/paddle_inference/inferencer-fluid-gpu/src/fluid_gpu_engine.cpp
+++ b/paddle_inference/inferencer-fluid-gpu/src/fluid_gpu_engine.cpp
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
-//
-// Licensed under the Apache License, Version 2.0 (the "License");
-// you may not use this file except in compliance with the License.
-// You may obtain a copy of the License at
-//
-//     http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing, software
-// distributed under the License is distributed on an "AS IS" BASIS,
-// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-// See the License for the specific language governing permissions and
-// limitations under the License.
-#include "paddle_inference/inferencer-fluid-gpu/include/fluid_gpu_engine.h"
-#include "core/predictor/framework/factory.h"
-DEFINE_int32(gpuid, 0, "GPU device id to use");
-namespace baidu {
-namespace paddle_serving {
-namespace fluid_gpu {
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<FluidGpuAnalysisCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_GPU_ANALYSIS");
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<
-        FluidGpuAnalysisDirCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_GPU_ANALYSIS_DIR");
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<
-        FluidGpuAnalysisEncryptCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_GPU_ANALYSIS_ENCRPT")
-}  // namespace fluid_gpu
-}  // namespace paddle_serving
-}  // namespace baidu
--- a/paddle_inference/paddle/CMakeLists.txt
+++ b/paddle_inference/paddle/CMakeLists.txt
+FILE(GLOB paddle_inference_engine_srcs ${CMAKE_CURRENT_LIST_DIR}/src/*.cpp)
+add_library(paddle_inference_engine ${paddle_inference_engine_srcs})
+target_include_directories(paddle_inference_engine PUBLIC
+        ${CMAKE_BINARY_DIR}/Paddle/fluid_install_dir/)
+add_dependencies(paddle_inference_engine pdserving extern_paddle configure)
+target_link_libraries(paddle_inference_engine pdserving paddle_inference -lpthread -lcrypto -lm -lrt -lssl -ldl -lz)
+install(TARGETS paddle_inference_engine 
+        ARCHIVE DESTINATION ${PADDLE_SERVING_INSTALL_DIR}/lib
+        )
--- a/paddle_inference/inferencer-fluid-arm/include/fluid_arm_engine.h
+++ b/paddle_inference/inferencer-fluid-arm/include/fluid_arm_engine.h
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
+// Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
@@ -17,275 +17,174 @@
 #include <pthread.h>
 #include <fstream>
 #include <map>
+#include <memory>
 #include <string>
 #include <vector>
 #include "core/configure/include/configure_parser.h"
 #include "core/configure/inferencer_configure.pb.h"
+#include "core/predictor/common/utils.h"
 #include "core/predictor/framework/infer.h"
 #include "paddle_inference_api.h"  // NOLINT
 namespace baidu {
 namespace paddle_serving {
-namespace fluid_arm {
+namespace inference {
-class AutoLock {
- public:
-  explicit AutoLock(pthread_mutex_t& mutex) : _mut(mutex) {
-    pthread_mutex_lock(&mutex);
-  }
-  ~AutoLock() { pthread_mutex_unlock(&_mut); }
- private:
-  pthread_mutex_t& _mut;
-};
-class GlobalPaddleCreateMutex {
- public:
-  pthread_mutex_t& mutex() { return _mut; }
-  static pthread_mutex_t& instance() {
-    static GlobalPaddleCreateMutex gmutex;
-    return gmutex.mutex();
-  }
- private:
-  GlobalPaddleCreateMutex() { pthread_mutex_init(&_mut, NULL); }
-  pthread_mutex_t _mut;
-};
 using paddle_infer::Config;
+using paddle_infer::PrecisionType;
 using paddle_infer::Predictor;
 using paddle_infer::Tensor;
-using paddle_infer::PrecisionType;
 using paddle_infer::CreatePredictor;
-// data interface
+DECLARE_int32(gpuid);
-class FluidFamilyCore {
+static const int max_batch = 32;
+static const int min_subgraph_size = 3;
+// Engine Base
+class PaddleEngineBase {
 public:
-  virtual ~FluidFamilyCore() {}
+  virtual ~PaddleEngineBase() {}
  virtual std::vector<std::string> GetInputNames() {
-    return _core->GetInputNames();
+    return _predictor->GetInputNames();
  }
  virtual std::unique_ptr<Tensor> GetInputHandle(const std::string& name) {
-    return _core->GetInputHandle(name);
+    return _predictor->GetInputHandle(name);
  }
  virtual std::vector<std::string> GetOutputNames() {
-    return _core->GetOutputNames();
+    return _predictor->GetOutputNames();
  }
  virtual std::unique_ptr<Tensor> GetOutputHandle(const std::string& name) {
-    return _core->GetOutputHandle(name);
+    return _predictor->GetOutputHandle(name);
  }
  virtual bool Run() {
-    if (!_core->Run()) {
+    if (!_predictor->Run()) {
      LOG(ERROR) << "Failed call Run with paddle predictor";
      return false;
    }
    return true;
  }
-  virtual int create(const predictor::InferEngineCreationParams& params) = 0;
+  virtual int create(const configure::EngineDesc& conf) = 0;
-  virtual int clone(void* origin_core) {
+  virtual int clone(void* predictor) {
-    if (origin_core == NULL) {
+    if (predictor == NULL) {
      LOG(ERROR) << "origin paddle Predictor is null.";
      return -1;
    }
-    Predictor* p_predictor = (Predictor*)origin_core;
+    Predictor* prep = static_cast<Predictor*>(predictor);
-    _core = p_predictor->Clone();
+    _predictor = prep->Clone();
-    if (_core.get() == NULL) {
+    if (_predictor.get() == NULL) {
-      LOG(ERROR) << "fail to clone paddle predictor: " << origin_core;
+      LOG(ERROR) << "fail to clone paddle predictor: " << predictor;
      return -1;
    }
    return 0;
  }
-  virtual void* get() { return _core.get(); }
+  virtual void* get() { return _predictor.get(); }
 protected:
-  std::shared_ptr<Predictor> _core;
+  std::shared_ptr<Predictor> _predictor;
 };
-// infer interface
+// Paddle Inference Engine
-class FluidArmAnalysisCore : public FluidFamilyCore {
+class PaddleInferenceEngine : public PaddleEngineBase {
 public:
-  int create(const predictor::InferEngineCreationParams& params) {
+  int create(const configure::EngineDesc& engine_conf) {
-    std::string data_path = params.get_path();
+    std::string model_path = engine_conf.model_dir();
-    if (access(data_path.c_str(), F_OK) == -1) {
+    if (access(model_path.c_str(), F_OK) == -1) {
      LOG(ERROR) << "create paddle predictor failed, path not exits: "
-                 << data_path;
+                 << model_path;
      return -1;
    }
    Config config;
-    config.SetParamsFile(data_path + "/__params__");
+    // todo, auto config(zhangjun)
-    config.SetProgFile(data_path + "/__model__");
+    if (engine_conf.has_combined_model()) {
-    config.DisableGpu();
+      if (!engine_conf.combined_model()) {
-    config.SetCpuMathLibraryNumThreads(1);
+        config.SetModel(model_path);
+      } else {
-    if (params.use_lite()) {
+        config.SetParamsFile(model_path + "/__params__");
-      config.EnableLiteEngine(PrecisionType::kFloat32, true);
+        config.SetProgFile(model_path + "/__model__");
-    }
+      }
-    if (params.use_xpu()) {
-      config.EnableXpu(2 * 1024 * 1024);
-    }
-    if (params.enable_memory_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    if (params.enable_ir_optimization()) {
-      config.SwitchIrOptim(true);
    } else {
-      config.SwitchIrOptim(false);
+      config.SetParamsFile(model_path + "/__params__");
+      config.SetProgFile(model_path + "/__model__");
    }
    config.SwitchSpecifyInputNames(true);
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
+    config.SetCpuMathLibraryNumThreads(1);
-    _core = CreatePredictor(config);
+    if (engine_conf.has_use_gpu() && engine_conf.use_gpu()) {
-    if (NULL == _core.get()) {
+      // 2000MB GPU memory
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
+      config.EnableUseGpu(2000, FLAGS_gpuid);
-      return -1;
    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
+    if (engine_conf.has_use_trt() && engine_conf.use_trt()) {
-    return 0;
+      if (!engine_conf.has_use_gpu() || !engine_conf.use_gpu()) {
-  }
+        config.EnableUseGpu(2000, FLAGS_gpuid);
-};
+      }
+      config.EnableTensorRtEngine(1 << 20,
-class FluidArmAnalysisDirCore : public FluidFamilyCore {
+                                  max_batch,
- public:
+                                  min_subgraph_size,
-  int create(const predictor::InferEngineCreationParams& params) {
+                                  Config::Precision::kFloat32,
-    std::string data_path = params.get_path();
+                                  false,
-    if (access(data_path.c_str(), F_OK) == -1) {
+                                  false);
-      LOG(ERROR) << "create paddle predictor failed, path not exits: "
+      LOG(INFO) << "create TensorRT predictor";
-                 << data_path;
-      return -1;
    }
-    Config config;
+    if (engine_conf.has_use_lite() && engine_conf.use_lite()) {
-    config.SetModel(data_path);
-    config.DisableGpu();
-    config.SwitchSpecifyInputNames(true);
-    config.SetCpuMathLibraryNumThreads(1);
-    if (params.use_lite()) {
      config.EnableLiteEngine(PrecisionType::kFloat32, true);
    }
-    if (params.use_xpu()) {
+    if (engine_conf.has_use_xpu() && engine_conf.use_xpu()) {
+      // 2 MB l3 cache
      config.EnableXpu(2 * 1024 * 1024);
    }
+    if (engine_conf.has_enable_ir_optimization() &&
-    if (params.enable_memory_optimization()) {
+        !engine_conf.enable_ir_optimization()) {
-      config.EnableMemoryOptim();
-    }
-    if (params.enable_ir_optimization()) {
-      config.SwitchIrOptim(true);
-    } else {
      config.SwitchIrOptim(false);
+    } else {
+      config.SwitchIrOptim(true);
    }
-    AutoLock lock(GlobalPaddleCreateMutex::instance());
+    if (engine_conf.has_enable_memory_optimization() &&
-    _core = CreatePredictor(config);
+        engine_conf.enable_memory_optimization()) {
-    if (NULL == _core.get()) {
+      config.EnableMemoryOptim();
-      LOG(ERROR) << "create paddle predictor failed, path: " << data_path;
-      return -1;
-    }
-    VLOG(2) << "create paddle predictor sucess, path: " << data_path;
-    return 0;
-  }
-};
-class Parameter {
- public:
-  Parameter() : _row(0), _col(0), _params(NULL) {}
-  ~Parameter() {
-    VLOG(2) << "before destroy Parameter, file_name[" << _file_name << "]";
-    destroy();
-  }
-  int init(int row, int col, const char* file_name) {
-    destroy();
-    _file_name = file_name;
-    _row = row;
-    _col = col;
-    _params = reinterpret_cast<float*>(malloc(_row * _col * sizeof(float)));
-    if (_params == NULL) {
-      LOG(ERROR) << "Load " << _file_name << " malloc error.";
-      return -1;
    }
-    VLOG(2) << "Load parameter file[" << _file_name << "] success.";
-    return 0;
-  }
-  void destroy() {
+    if (engine_conf.has_encrypted_model() && engine_conf.encrypted_model()) {
-    _row = 0;
+      // decrypt model
-    _col = 0;
+      std::string model_buffer, params_buffer, key_buffer;
-    if (_params != NULL) {
+      predictor::ReadBinaryFile(model_path + "encrypt_model", &model_buffer);
-      free(_params);
+      predictor::ReadBinaryFile(model_path + "encrypt_params", &params_buffer);
-      _params = NULL;
+      predictor::ReadBinaryFile(model_path + "key", &key_buffer);
-    }
-  }
-  int load() {
+      auto cipher = paddle::MakeCipher("");
-    if (_params == NULL || _row <= 0 || _col <= 0) {
+      std::string real_model_buffer = cipher->Decrypt(model_buffer, key_buffer);
-      LOG(ERROR) << "load parameter error [not inited].";
+      std::string real_params_buffer =
-      return -1;
+          cipher->Decrypt(params_buffer, key_buffer);
+      config.SetModelBuffer(&real_model_buffer[0],
+                            real_model_buffer.size(),
+                            &real_params_buffer[0],
+                            real_params_buffer.size());
    }
-    FILE* fs = fopen(_file_name.c_str(), "rb");
+    predictor::AutoLock lock(predictor::GlobalCreateMutex::instance());
-    if (fs == NULL) {
+    _predictor = CreatePredictor(config);
-      LOG(ERROR) << "load " << _file_name << " fopen error.";
+    if (NULL == _predictor.get()) {
-      return -1;
+      LOG(ERROR) << "create paddle predictor failed, path: " << model_path;
-    }
-    static const uint32_t MODEL_FILE_HEAD_LEN = 16;
-    char head[MODEL_FILE_HEAD_LEN] = {0};
-    if (fread(head, 1, MODEL_FILE_HEAD_LEN, fs) != MODEL_FILE_HEAD_LEN) {
-      destroy();
-      LOG(ERROR) << "Load " << _file_name << " read head error.";
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
      return -1;
    }
-    uint32_t matrix_size = _row * _col;
+    VLOG(2) << "create paddle predictor sucess, path: " << model_path;
-    if (matrix_size == fread(_params, sizeof(float), matrix_size, fs)) {
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      VLOG(2) << "load " << _file_name << " read ok.";
-      return 0;
-    } else {
-      LOG(ERROR) << "load " << _file_name << " read error.";
-      destroy();
-      if (fs != NULL) {
-        fclose(fs);
-        fs = NULL;
-      }
-      return -1;
-    }
    return 0;
  }
- public:
-  std::string _file_name;
-  int _row;
-  int _col;
-  float* _params;
 };
-}  // namespace fluid_arm
+}  // namespace inference
 }  // namespace paddle_serving
 }  // namespace baidu
--- a/paddle_inference/inferencer-fluid-arm/src/fluid_arm_engine.cpp
+++ b/paddle_inference/inferencer-fluid-arm/src/fluid_arm_engine.cpp
-// Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.
+// Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
 //
 // Licensed under the Apache License, Version 2.0 (the "License");
 // you may not use this file except in compliance with the License.
@@ -12,24 +12,20 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
-#include "paddle_inference/inferencer-fluid-arm/include/fluid_arm_engine.h"
+#include "paddle_inference/paddle/include/paddle_engine.h"
 #include "core/predictor/framework/factory.h"
 namespace baidu {
 namespace paddle_serving {
-namespace fluid_arm {
+namespace inference {
-REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
+DEFINE_int32(gpuid, 0, "GPU device id to use");
-    ::baidu::paddle_serving::predictor::FluidInferEngine<FluidArmAnalysisCore>,
-    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_ARM_ANALYSIS");
 REGIST_FACTORY_OBJECT_IMPL_WITH_NAME(
-    ::baidu::paddle_serving::predictor::FluidInferEngine<
+    ::baidu::paddle_serving::predictor::FluidInferEngine<PaddleInferenceEngine>,
-        FluidArmAnalysisDirCore>,
    ::baidu::paddle_serving::predictor::InferEngine,
-    "FLUID_ARM_ANALYSIS_DIR");
+    "PADDLE_INFER");
-}  // namespace fluid_arm
+}  // namespace inference
 }  // namespace paddle_serving
 }  // namespace baidu
--- a/python/CMakeLists.txt
+++ b/python/CMakeLists.txt
 if (CLIENT)
-    file(INSTALL pipeline DESTINATION paddle_serving_client)
+  file(INSTALL pipeline DESTINATION paddle_serving_client)
-    file(GLOB_RECURSE SERVING_CLIENT_PY_FILES paddle_serving_client/*.py)
+  file(GLOB_RECURSE SERVING_CLIENT_PY_FILES paddle_serving_client/*.py)
-    set(PY_FILES ${SERVING_CLIENT_PY_FILES})
+  set(PY_FILES ${SERVING_CLIENT_PY_FILES})
-    SET(PACKAGE_NAME "serving_client")
+  SET(PACKAGE_NAME "serving_client")
-    set(SETUP_LOG_FILE "setup.py.client.log")
+  set(SETUP_LOG_FILE "setup.py.client.log")
 endif()
 if (SERVER)
-    if (NOT WITH_GPU AND NOT WITH_LITE)
+  SET(SERVER_PACKAGE_NAME "paddle-serving-server")
-        file(INSTALL pipeline DESTINATION paddle_serving_server)
+  if (WITH_GPU) 
-        file(GLOB_RECURSE SERVING_SERVER_PY_FILES paddle_serving_server/*.py)
+    set(SERVER_PACKAGE_NAME "paddle-serving-server-gpu")
-    else()
+  elseif(WITH_XPU)
-        file(INSTALL pipeline DESTINATION paddle_serving_server_gpu)
+    set(SERVER_PACKAGE_NAME "paddle-serving-server-xpu")
-        file(GLOB_RECURSE SERVING_SERVER_PY_FILES paddle_serving_server_gpu/*.py)
+  endif()
-    endif()
+  file(INSTALL pipeline DESTINATION paddle_serving_server)
-        set(PY_FILES ${SERVING_SERVER_PY_FILES})
+  file(GLOB_RECURSE SERVING_SERVER_PY_FILES paddle_serving_server/*.py)
-        SET(PACKAGE_NAME "serving_server")
+  set(PY_FILES ${SERVING_SERVER_PY_FILES})
-        set(SETUP_LOG_FILE "setup.py.server.log")
+  set(SETUP_LOG_FILE "setup.py.server.log")
 endif()
 configure_file(${CMAKE_CURRENT_SOURCE_DIR}/util.py
    ${CMAKE_CURRENT_BINARY_DIR}/util.py)
 if (CLIENT)
-configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.client.in
+  configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.client.in
    ${CMAKE_CURRENT_BINARY_DIR}/setup.py)
-configure_file(${CMAKE_CURRENT_SOURCE_DIR}/../tools/python_tag.py
+  configure_file(${CMAKE_CURRENT_SOURCE_DIR}/../tools/python_tag.py
    ${CMAKE_CURRENT_BINARY_DIR}/python_tag.py)
 endif()
 if (APP)
-configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.app.in
+  configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.app.in
    ${CMAKE_CURRENT_BINARY_DIR}/setup.py)
 endif()
 if (SERVER)
-    if (NOT WITH_GPU AND NOT WITH_LITE)
+  configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.server.in
-        configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.server.in
+    ${CMAKE_CURRENT_BINARY_DIR}/setup.py)
-            ${CMAKE_CURRENT_BINARY_DIR}/setup.py)
-    else()
-        configure_file(${CMAKE_CURRENT_SOURCE_DIR}/setup.py.server_gpu.in
-            ${CMAKE_CURRENT_BINARY_DIR}/setup.py)
-    endif()
 endif()
 configure_file(${CMAKE_CURRENT_SOURCE_DIR}/gen_version.py
@@ -50,108 +45,73 @@ set (SERVING_CLIENT_CORE ${PADDLE_SERVING_BINARY_DIR}/core/general-client/*.so)
 message("python env: " ${py_env})
 if (APP)
-add_custom_command(
+  add_custom_command(
-        OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
+    OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-        COMMAND cp -r ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_app/ ${PADDLE_SERVING_BINARY_DIR}/python/
+    COMMAND cp -r ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_app/ ${PADDLE_SERVING_BINARY_DIR}/python/
-        COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py "app"
+    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py "app"
-        COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
+    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-        DEPENDS ${SERVING_APP_CORE} general_model_config_py_proto ${PY_FILES})
+    DEPENDS ${SERVING_APP_CORE} general_model_config_py_proto ${PY_FILES})
-add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
+  add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
 endif()
 if (CLIENT)
-add_custom_command(
+  add_custom_command(
-	OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
+    OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-	COMMAND cp -r ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_client/ ${PADDLE_SERVING_BINARY_DIR}/python/
+    COMMAND cp -r ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_client/ ${PADDLE_SERVING_BINARY_DIR}/python/
-	COMMAND ${CMAKE_COMMAND} -E copy ${SERVING_CLIENT_CORE} ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/serving_client.so
+    COMMAND ${CMAKE_COMMAND} -E copy ${SERVING_CLIENT_CORE} ${PADDLE_SERVING_BINARY_DIR}/python/paddle_serving_client/serving_client.so
    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} python_tag.py
    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py "client"
-	COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
+    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-	DEPENDS ${SERVING_CLIENT_CORE} sdk_configure_py_proto ${PY_FILES})
+    DEPENDS ${SERVING_CLIENT_CORE} sdk_configure_py_proto ${PY_FILES})
-add_custom_target(paddle_python ALL DEPENDS serving_client ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
+  add_custom_target(paddle_python ALL DEPENDS serving_client ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
 endif()
 if (SERVER)
-    if(NOT WITH_GPU AND NOT WITH_LITE)
+  # todo, generate suffix for cpu、gpu、arm
-        add_custom_command(
+  if(WITH_TRT)
-            OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
+    if(CUDA_VERSION EQUAL 10.1)
-            COMMAND cp -r ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server/ ${PADDLE_SERVING_BINARY_DIR}/python/
+      set(VERSION_SUFFIX 101)
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py "server"
+    elseif(CUDA_VERSION EQUAL 10.2)
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
+      set(VERSION_SUFFIX 102)
-            DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
+    elseif(CUDA_VERSION EQUAL 11.0)
-        add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
+      set(VERSION_SUFFIX 11)
-    elseif(WITH_TRT)
-        if(CUDA_VERSION EQUAL 10.1)
-            set(SUFFIX 101)
-        elseif(CUDA_VERSION EQUAL 10.2)
-            set(SUFFIX 102)
-        elseif(CUDA_VERSION EQUAL 11.0)
-            set(SUFFIX 11)
-        endif()
-        add_custom_command(
-            OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-            COMMAND cp -r
-            ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server_gpu/ ${PADDLE_SERVING_BINARY_DIR}/python/
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py
-            "server_gpu"  ${SUFFIX}
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-            DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
-        add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
-    elseif(WITH_LITE)
-        if(WITH_XPU)
-            add_custom_command(
-                OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-                COMMAND cp -r
-                ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server_gpu/ ${PADDLE_SERVING_BINARY_DIR}/python/
-                COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py
-                "server_gpu" arm-xpu 
-                COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-                DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
-            add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
-        else()
-            add_custom_command(
-                OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-                COMMAND cp -r
-                ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server_gpu/ ${PADDLE_SERVING_BINARY_DIR}/python/
-                COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py
-                "server_gpu" arm 
-                COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-                DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
-            add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
-        endif()
-    else()
-        add_custom_command(
-            OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
-            COMMAND cp -r
-            ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server_gpu/ ${PADDLE_SERVING_BINARY_DIR}/python/
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py
-            "server_gpu" ${CUDA_VERSION_MAJOR}
-            COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
-            DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
-        add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
    endif()
+  endif()
+  if(WITH_LITE)
+    set(VERSION_SUFFIX 2)
+  endif()
+  add_custom_command(
+    OUTPUT ${PADDLE_SERVING_BINARY_DIR}/.timestamp
+    COMMAND cp -r
+    ${CMAKE_CURRENT_SOURCE_DIR}/paddle_serving_server/ ${PADDLE_SERVING_BINARY_DIR}/python/
+    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} gen_version.py
+    "server" ${VERSION_SUFFIX}
+    COMMAND env ${py_env} ${PYTHON_EXECUTABLE} setup.py bdist_wheel
+    DEPENDS ${SERVING_SERVER_CORE} server_config_py_proto ${PY_FILES})
+  add_custom_target(paddle_python ALL DEPENDS ${PADDLE_SERVING_BINARY_DIR}/.timestamp)
 endif()
 set(SERVING_CLIENT_PYTHON_PACKAGE_DIR ${CMAKE_CURRENT_BINARY_DIR}/dist/)
 set(SERVING_SERVER_PYTHON_PACKAGE_DIR ${CMAKE_CURRENT_BINARY_DIR}/dist/)
 if (CLIENT)
-install(DIRECTORY ${SERVING_CLIENT_PYTHON_PACKAGE_DIR}
+  install(DIRECTORY ${SERVING_CLIENT_PYTHON_PACKAGE_DIR}
    DESTINATION opt/serving_client/share/wheels
-)
+  )
 endif()
 if (SERVER)
-install(DIRECTORY ${SERVING_SERVER_PYTHON_PACKAGE_DIR}
+  install(DIRECTORY ${SERVING_SERVER_PYTHON_PACKAGE_DIR}
-    DESTINATION opt/serving_server/share/wheels
+      DESTINATION opt/serving_server/share/wheels
-)
+  )
 endif()
 if (CLIENT OR SERVER)
-find_program(PATCHELF_EXECUTABLE patchelf)
+  find_program(PATCHELF_EXECUTABLE patchelf)
-if (NOT PATCHELF_EXECUTABLE)
+  if (NOT PATCHELF_EXECUTABLE)
-  message(FATAL_ERROR "patchelf not found, please install it.\n"
+    message(FATAL_ERROR "patchelf not found, please install it.\n"
-         "For Ubuntu, the command is: apt-get install -y patchelf.")
+           "For Ubuntu, the command is: apt-get install -y patchelf.")
-endif()
+  endif()
 endif()
--- a/python/examples/bert/README.md
+++ b/python/examples/bert/README.md
@@ -49,7 +49,7 @@ python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292  #c
 ```
 Or,start gpu inference service,Run
 ```
-python -m paddle_serving_server_gpu.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #launch gpu inference service at GPU 0
+python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #launch gpu inference service at GPU 0
 ```
 ### RPC Inference

--- a/python/examples/bert/README_CN.md
+++ b/python/examples/bert/README_CN.md
@@ -48,7 +48,7 @@ python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292  #
 ```
 或者，启动gpu预测服务，执行
 ```
-python -m paddle_serving_server_gpu.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #在gpu 0上启动gpu预测服务
+python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #在gpu 0上启动gpu预测服务
 ```

--- a/python/examples/bert/benchmark.sh
+++ b/python/examples/bert/benchmark.sh
@@ -12,7 +12,7 @@ else
    mkdir utilization
 fi
 #start server
-$PYTHONROOT/bin/python3 -m paddle_serving_server_gpu.serve --model $1 --port 9292 --thread 4 --gpu_ids 0,1,2,3 --mem_optim  --ir_optim >  elog  2>&1 &
+$PYTHONROOT/bin/python3 -m paddle_serving_server.serve --model $1 --port 9292 --thread 4 --gpu_ids 0,1,2,3 --mem_optim  --ir_optim >  elog  2>&1 &
 sleep 5
 #warm up

--- a/python/examples/bert/benchmark_with_profile.sh
+++ b/python/examples/bert/benchmark_with_profile.sh
 export CUDA_VISIBLE_DEVICES=0,1,2,3
-python -m paddle_serving_server_gpu.serve --model bert_seq20_model/ --port 9295 --thread 4 --gpu_ids 0,1,2,3 2> elog > stdlog &
+python -m paddle_serving_server.serve --model bert_seq20_model/ --port 9295 --thread 4 --gpu_ids 0,1,2,3 2> elog > stdlog &
 export FLAGS_profile_client=1
 export FLAGS_profile_server=1
 sleep 5

--- a/python/examples/bert/bert_gpu_server.py
+++ b/python/examples/bert/bert_gpu_server.py
@@ -14,9 +14,9 @@
 import os
 import sys
-from paddle_serving_server_gpu import OpMaker
+from paddle_serving_server import OpMaker
-from paddle_serving_server_gpu import OpSeqMaker
+from paddle_serving_server import OpSeqMaker
-from paddle_serving_server_gpu import Server
+from paddle_serving_server import Server
 op_maker = OpMaker()
 read_op = op_maker.create('general_reader')

--- a/python/examples/bert/bert_web_service_gpu.py
+++ b/python/examples/bert/bert_web_service_gpu.py
@@ -13,7 +13,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # pylint: disable=doc-string-missing
-from paddle_serving_server_gpu.web_service import WebService
+from paddle_serving_server.web_service import WebService
 from paddle_serving_app.reader import ChineseBertReader
 import sys
 import os

--- a/python/examples/cascade_rcnn/README.md
+++ b/python/examples/cascade_rcnn/README.md
@@ -10,7 +10,7 @@ If you want to have more detection models, please refer to [Paddle Detection Mod
 ### Start the service
 ```
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9292 --gpu_id 0
+python -m paddle_serving_server.serve --model serving_server --port 9292 --gpu_id 0
 ```
 ### Perform prediction

--- a/python/examples/cascade_rcnn/README_CN.md
+++ b/python/examples/cascade_rcnn/README_CN.md
@@ -10,7 +10,7 @@ sh get_data.sh
 ### 启动服务
 ```
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9292 --gpu_id 0
+python -m paddle_serving_server.serve --model serving_server --port 9292 --gpu_id 0
 ```
 ### 执行预测

--- a/python/examples/criteo_ctr/README.md
+++ b/python/examples/criteo_ctr/README.md
@@ -20,7 +20,7 @@ the directories like `ctr_serving_model` and `ctr_client_conf` will appear.
 ```
 python -m paddle_serving_server.serve --model ctr_serving_model/ --port 9292 #CPU RPC Service
-python -m paddle_serving_server_gpu.serve --model ctr_serving_model/ --port 9292 --gpu_ids 0 #RPC Service on GPU 0
+python -m paddle_serving_server.serve --model ctr_serving_model/ --port 9292 --gpu_ids 0 #RPC Service on GPU 0
 ```
 ### RPC Infer

--- a/python/examples/criteo_ctr/README_CN.md
+++ b/python/examples/criteo_ctr/README_CN.md
@@ -20,7 +20,7 @@ mv models/ctr_serving_model .
 ```
 python -m paddle_serving_server.serve --model ctr_serving_model/ --port 9292 #启动CPU预测服务
-python -m paddle_serving_server_gpu.serve --model ctr_serving_model/ --port 9292 --gpu_ids 0 #在GPU 0上启动预测服务
+python -m paddle_serving_server.serve --model ctr_serving_model/ --port 9292 --gpu_ids 0 #在GPU 0上启动预测服务
 ```
 ### 执行预测

--- a/python/examples/deeplabv3/README.md
+++ b/python/examples/deeplabv3/README.md
@@ -12,7 +12,7 @@ tar -xzvf deeplabv3.tar.gz
 ### Start Service
 ```
-python -m paddle_serving_server_gpu.serve --model deeplabv3_server --gpu_ids 0 --port 9494
+python -m paddle_serving_server.serve --model deeplabv3_server --gpu_ids 0 --port 9494
 ```
 ### Client Prediction

--- a/python/examples/deeplabv3/README_CN.md
+++ b/python/examples/deeplabv3/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf deeplabv3.tar.gz
 ### 启动服务端
 ```
-python -m paddle_serving_server_gpu.serve --model deeplabv3_server --gpu_ids 0 --port 9494
+python -m paddle_serving_server.serve --model deeplabv3_server --gpu_ids 0 --port 9494
 ```
 ### 客户端预测

--- a/python/examples/detection/faster_rcnn_r50_fpn_1x_coco/README.md
+++ b/python/examples/detection/faster_rcnn_r50_fpn_1x_coco/README.md
@@ -10,7 +10,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### Start the service
 ```
 tar xf faster_rcnn_r50_fpn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 This model support TensorRT, if you want a faster inference, please use `--use_trt`. 

--- a/python/examples/detection/faster_rcnn_r50_fpn_1x_coco/README_CN.md
+++ b/python/examples/detection/faster_rcnn_r50_fpn_1x_coco/README_CN.md
@@ -11,7 +11,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### 启动服务
 ```
 tar xf faster_rcnn_r50_fpn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 该模型支持TensorRT，如果想要更快的预测速度，可以开启`--use_trt`选项。

--- a/python/examples/detection/ppyolo_r50vd_dcn_1x_coco/README.md
+++ b/python/examples/detection/ppyolo_r50vd_dcn_1x_coco/README.md
@@ -10,7 +10,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### Start the service
 ```
 tar xf ppyolo_r50vd_dcn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 This model support TensorRT, if you want a faster inference, please use `--use_trt`.

--- a/python/examples/detection/ppyolo_r50vd_dcn_1x_coco/README_CN.md
+++ b/python/examples/detection/ppyolo_r50vd_dcn_1x_coco/README_CN.md
@@ -11,7 +11,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### 启动服务
 ```
 tar xf ppyolo_r50vd_dcn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 该模型支持TensorRT，如果想要更快的预测速度，可以开启`--use_trt`选项。

--- a/python/examples/detection/ttfnet_darknet53_1x_coco/README.md
+++ b/python/examples/detection/ttfnet_darknet53_1x_coco/README.md
@@ -10,7 +10,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### Start the service
 ```
 tar xf ttfnet_darknet53_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 This model support TensorRT, if you want a faster inference, please use `--use_trt`.

--- a/python/examples/detection/ttfnet_darknet53_1x_coco/README_CN.md
+++ b/python/examples/detection/ttfnet_darknet53_1x_coco/README_CN.md
@@ -11,7 +11,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### 启动服务
 ```
 tar xf ttfnet_darknet53_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 该模型支持TensorRT，如果想要更快的预测速度，可以开启`--use_trt`选项。

--- a/python/examples/detection/yolov3_darknet53_270e_coco/README.md
+++ b/python/examples/detection/yolov3_darknet53_270e_coco/README.md
@@ -10,7 +10,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### Start the service
 ```
 tar xf yolov3_darknet53_270e_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 This model support TensorRT, if you want a faster inference, please use `--use_trt`.

--- a/python/examples/detection/yolov3_darknet53_270e_coco/README_CN.md
+++ b/python/examples/detection/yolov3_darknet53_270e_coco/README_CN.md
@@ -11,7 +11,7 @@ wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/
 ### 启动服务
 ```
 tar xf yolov3_darknet53_270e_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0
 ```
 该模型支持TensorRT，如果想要更快的预测速度，可以开启`--use_trt`选项。

--- a/python/examples/encryption/README.md
+++ b/python/examples/encryption/README.md
@@ -26,7 +26,7 @@ python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_
 ```
 GPU Service
 ```
-python -m paddle_serving_server_gpu.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
+python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
 ```
 ## Prediction

--- a/python/examples/encryption/README_CN.md
+++ b/python/examples/encryption/README_CN.md
@@ -24,7 +24,7 @@ python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_
 ```
 GPU预测服务
 ```
-python -m paddle_serving_server_gpu.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
+python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
 ```
 ## 预测

--- a/python/examples/grpc_impl_example/fit_a_line/test_server_gpu.py
+++ b/python/examples/grpc_impl_example/fit_a_line/test_server_gpu.py
@@ -15,9 +15,9 @@
 import os
 import sys
-from paddle_serving_server_gpu import OpMaker
+from paddle_serving_server import OpMaker
-from paddle_serving_server_gpu import OpSeqMaker
+from paddle_serving_server import OpSeqMaker
-from paddle_serving_server_gpu import MultiLangServer as Server
+from paddle_serving_server import MultiLangServer as Server
 op_maker = OpMaker()
 read_op = op_maker.create('general_reader')

--- a/python/examples/grpc_impl_example/yolov4/README.md
+++ b/python/examples/grpc_impl_example/yolov4/README.md
@@ -12,7 +12,7 @@ tar -xzvf yolov4.tar.gz
 ## Start RPC Service
 ```
-python -m paddle_serving_server_gpu.serve --model yolov4_model --port 9393 --gpu_ids 0 --use_multilang
+python -m paddle_serving_server.serve --model yolov4_model --port 9393 --gpu_ids 0 --use_multilang
 ```
 ## Prediction

--- a/python/examples/grpc_impl_example/yolov4/README_CN.md
+++ b/python/examples/grpc_impl_example/yolov4/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf yolov4.tar.gz
 ## 启动RPC服务
 ```
-python -m paddle_serving_server_gpu.serve --model yolov4_model --port 9393 --gpu_ids 0 --use_multilang
+python -m paddle_serving_server.serve --model yolov4_model --port 9393 --gpu_ids 0 --use_multilang
 ```
 ## 预测

--- a/python/examples/imagenet/README.md
+++ b/python/examples/imagenet/README.md
@@ -39,7 +39,7 @@ python -m paddle_serving_server.serve --model ResNet50_vd_model --port 9696 #cpu
 ```
 ```
-python -m paddle_serving_server_gpu.serve --model ResNet50_vd_model --port 9696 --gpu_ids 0 #gpu inference service
+python -m paddle_serving_server.serve --model ResNet50_vd_model --port 9696 --gpu_ids 0 #gpu inference service
 ```
 client send inference request

--- a/python/examples/imagenet/README_CN.md
+++ b/python/examples/imagenet/README_CN.md
@@ -39,7 +39,7 @@ python -m paddle_serving_server.serve --model ResNet50_vd_model --port 9696 #cpu
 ```
 ```
-python -m paddle_serving_server_gpu.serve --model ResNet50_vd_model --port 9696 --gpu_ids 0 #gpu预测服务
+python -m paddle_serving_server.serve --model ResNet50_vd_model --port 9696 --gpu_ids 0 #gpu预测服务
 ```
 client端进行预测

--- a/python/examples/imagenet/benchmark.sh
+++ b/python/examples/imagenet/benchmark.sh
@@ -2,7 +2,7 @@ rm profile_log*
 export CUDA_VISIBLE_DEVICES=0,1,2,3
 export FLAGS_profile_server=1
 export FLAGS_profile_client=1
-python -m paddle_serving_server_gpu.serve --model $1 --port 9292 --thread 4 --gpu_ids 0,1,2,3 --mem_optim --ir_optim  2> elog > stdlog &
+python -m paddle_serving_server.serve --model $1 --port 9292 --thread 4 --gpu_ids 0,1,2,3 --mem_optim --ir_optim  2> elog > stdlog &
 sleep 5
 gpu_id=0

--- a/python/examples/imagenet/resnet50_web_service.py
+++ b/python/examples/imagenet/resnet50_web_service.py
@@ -25,7 +25,7 @@ device = sys.argv[2]
 if device == "cpu":
    from paddle_serving_server.web_service import WebService
 else:
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 class ImageService(WebService):

--- a/python/examples/mobilenet/README.md
+++ b/python/examples/mobilenet/README.md
@@ -12,7 +12,7 @@ tar -xzvf mobilenet_v2_imagenet.tar.gz
 ### Start Service
 ```
-python -m paddle_serving_server_gpu.serve --model mobilenet_v2_imagenet_model --gpu_ids 0 --port 9393
+python -m paddle_serving_server.serve --model mobilenet_v2_imagenet_model --gpu_ids 0 --port 9393
 ```
 ### Client Prediction

--- a/python/examples/mobilenet/README_CN.md
+++ b/python/examples/mobilenet/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf mobilenet_v2_imagenet.tar.gz
 ### 启动服务端
 ```
-python -m paddle_serving_server_gpu.serve --model mobilenet_v2_imagenet_model --gpu_ids 0 --port 9393
+python -m paddle_serving_server.serve --model mobilenet_v2_imagenet_model --gpu_ids 0 --port 9393
 ```
 ### 客户端预测

--- a/python/examples/ocr/README.md
+++ b/python/examples/ocr/README.md
@@ -26,7 +26,7 @@ tar xf test_imgs.tar
 python -m paddle_serving_server.serve --model ocr_det_model --port 9293
 python ocr_web_server.py cpu
 #for gpu user
-python -m paddle_serving_server_gpu.serve --model ocr_det_model --port 9293 --gpu_id 0
+python -m paddle_serving_server.serve --model ocr_det_model --port 9293 --gpu_id 0
 python ocr_web_server.py gpu
 ```

--- a/python/examples/ocr/README_CN.md
+++ b/python/examples/ocr/README_CN.md
@@ -25,7 +25,7 @@ tar xf test_imgs.tar
 python -m paddle_serving_server.serve --model ocr_det_model --port 9293
 python ocr_web_server.py cpu
 #for gpu user
-python -m paddle_serving_server_gpu.serve --model ocr_det_model --port 9293 --gpu_id 0
+python -m paddle_serving_server.serve --model ocr_det_model --port 9293 --gpu_id 0
 python ocr_web_server.py gpu
 ```

--- a/python/examples/ocr/det_debugger_server.py
+++ b/python/examples/ocr/det_debugger_server.py
@@ -22,7 +22,7 @@ from paddle_serving_app.reader import Sequential, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 import time

--- a/python/examples/ocr/det_web_server.py
+++ b/python/examples/ocr/det_web_server.py
@@ -22,7 +22,7 @@ from paddle_serving_app.reader import Sequential, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 import time

--- a/python/examples/ocr/ocr_debugger_server.py
+++ b/python/examples/ocr/ocr_debugger_server.py
@@ -23,7 +23,7 @@ from paddle_serving_app.reader import Sequential, URL2Image, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes, GetRotateCropImage, SortedBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 from paddle_serving_app.local_predict import LocalPredictor

--- a/python/examples/ocr/ocr_web_server.py
+++ b/python/examples/ocr/ocr_web_server.py
@@ -23,7 +23,7 @@ from paddle_serving_app.reader import Sequential, URL2Image, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes, GetRotateCropImage, SortedBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 import time

--- a/python/examples/ocr/rec_debugger_server.py
+++ b/python/examples/ocr/rec_debugger_server.py
@@ -23,7 +23,7 @@ from paddle_serving_app.reader import Sequential, URL2Image, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes, GetRotateCropImage, SortedBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 import time

--- a/python/examples/ocr/rec_web_server.py
+++ b/python/examples/ocr/rec_web_server.py
@@ -23,7 +23,7 @@ from paddle_serving_app.reader import Sequential, URL2Image, ResizeByFactor
 from paddle_serving_app.reader import Div, Normalize, Transpose
 from paddle_serving_app.reader import DBPostProcess, FilterBoxes, GetRotateCropImage, SortedBoxes
 if sys.argv[1] == 'gpu':
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 elif sys.argv[1] == 'cpu':
    from paddle_serving_server.web_service import WebService
 import time

--- a/python/examples/pipeline/imagenet/pipeline_rpc_client.py
+++ b/python/examples/pipeline/imagenet/pipeline_rpc_client.py
@@ -12,7 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 try:
-    from paddle_serving_server_gpu.pipeline import PipelineClient
+    from paddle_serving_server.pipeline import PipelineClient
 except ImportError:
    from paddle_serving_server.pipeline import PipelineClient
 import numpy as np

--- a/python/examples/pipeline/imagenet/resnet50_web_service.py
+++ b/python/examples/pipeline/imagenet/resnet50_web_service.py
@@ -14,7 +14,7 @@
 import sys
 from paddle_serving_app.reader import Sequential, URL2Image, Resize, CenterCrop, RGB2BGR, Transpose, Div, Normalize, Base64ToImage
 try:
-    from paddle_serving_server_gpu.web_service import WebService, Op
+    from paddle_serving_server.web_service import WebService, Op
 except ImportError:
    from paddle_serving_server.web_service import WebService, Op
 import logging

--- a/python/examples/pipeline/imdb_model_ensemble/test_pipeline_server.py
+++ b/python/examples/pipeline/imdb_model_ensemble/test_pipeline_server.py
@@ -22,7 +22,7 @@ import logging
 try:
    from paddle_serving_server.web_service import WebService
 except ImportError:
-    from paddle_serving_server_gpu.web_service import WebService
+    from paddle_serving_server.web_service import WebService
 _LOGGER = logging.getLogger()
 user_handler = logging.StreamHandler()

--- a/python/examples/pipeline/ocr/pipeline_rpc_client.py
+++ b/python/examples/pipeline/ocr/pipeline_rpc_client.py
@@ -12,7 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 try:
-    from paddle_serving_server_gpu.pipeline import PipelineClient
+    from paddle_serving_server.pipeline import PipelineClient
 except ImportError:
    from paddle_serving_server.pipeline import PipelineClient
 import numpy as np

--- a/python/examples/pipeline/simple_web_service/web_service.py
+++ b/python/examples/pipeline/simple_web_service/web_service.py
@@ -12,7 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 try:
-    from paddle_serving_server_gpu.web_service import WebService, Op
+    from paddle_serving_server.web_service import WebService, Op
 except ImportError:
    from paddle_serving_server.web_service import WebService, Op
 import logging

--- a/python/examples/resnet_v2_50/README.md
+++ b/python/examples/resnet_v2_50/README.md
@@ -12,7 +12,7 @@ tar -xzvf resnet_v2_50_imagenet.tar.gz
 ### Start Service
 ```
-python -m paddle_serving_server_gpu.serve --model resnet_v2_50_imagenet_model --gpu_ids 0 --port 9393
+python -m paddle_serving_server.serve --model resnet_v2_50_imagenet_model --gpu_ids 0 --port 9393
 ```
 ### Client Prediction

--- a/python/examples/resnet_v2_50/README_CN.md
+++ b/python/examples/resnet_v2_50/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf resnet_v2_50_imagenet.tar.gz
 ### 启动服务端
 ```
-python -m paddle_serving_server_gpu.serve --model resnet_v2_50_imagenet_model --gpu_ids 0 --port 9393
+python -m paddle_serving_server.serve --model resnet_v2_50_imagenet_model --gpu_ids 0 --port 9393
 ```
 ### 客户端预测

--- a/python/examples/unet_for_image_seg/README.md
+++ b/python/examples/unet_for_image_seg/README.md
@@ -12,7 +12,7 @@ tar -xzvf unet.tar.gz
 ### Start Service
 ```
-python -m paddle_serving_server_gpu.serve --model unet_model --gpu_ids 0 --port 9494
+python -m paddle_serving_server.serve --model unet_model --gpu_ids 0 --port 9494
 ```
 ### Client Prediction

--- a/python/examples/unet_for_image_seg/README_CN.md
+++ b/python/examples/unet_for_image_seg/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf unet.tar.gz
 ### 启动服务端
 ```
-python -m paddle_serving_server_gpu.serve --model unet_model --gpu_ids 0 --port 9494
+python -m paddle_serving_server.serve --model unet_model --gpu_ids 0 --port 9494
 ```
 ### 客户端预测

--- a/python/examples/xpu/fit_a_line_xpu/README.md
+++ b/python/examples/xpu/fit_a_line_xpu/README.md
@@ -15,7 +15,7 @@ sh get_data.sh
 ### Start server
 ```shell
-python -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 10 --port 9393 --use_lite --use_xpu --ir_optim
+python -m paddle_serving_server.serve --model uci_housing_model --thread 10 --port 9393 --use_lite --use_xpu --ir_optim
 ```
 ### Client prediction

--- a/python/examples/xpu/fit_a_line_xpu/test_server.py
+++ b/python/examples/xpu/fit_a_line_xpu/test_server.py
@@ -13,7 +13,7 @@
 # limitations under the License.
 # pylint: disable=doc-string-missing
-from paddle_serving_server_gpu.web_service import WebService
+from paddle_serving_server.web_service import WebService
 import numpy as np

--- a/python/examples/xpu/resnet_v2_50_xpu/README.md
+++ b/python/examples/xpu/resnet_v2_50_xpu/README.md
@@ -12,7 +12,7 @@ tar -xzvf resnet_v2_50_imagenet.tar.gz
 ### Start Service
 ```
-python -m paddle_serving_server_gpu.serve --model resnet_v2_50_imagenet_model --port 9393 --use_lite --use_xpu --ir_optim
+python -m paddle_serving_server.serve --model resnet_v2_50_imagenet_model --port 9393 --use_lite --use_xpu --ir_optim
 ```
 ### Client Prediction

--- a/python/examples/xpu/resnet_v2_50_xpu/README_CN.md
+++ b/python/examples/xpu/resnet_v2_50_xpu/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf resnet_v2_50_imagenet.tar.gz
 ### 启动服务端
 ```
-python -m paddle_serving_server_gpu.serve --model resnet_v2_50_imagenet_model --port 9393 --use_lite --use_xpu --ir_optim
+python -m paddle_serving_server.serve --model resnet_v2_50_imagenet_model --port 9393 --use_lite --use_xpu --ir_optim
 ```
 ### 客户端预测

--- a/python/examples/yolov4/README.md
+++ b/python/examples/yolov4/README.md
@@ -12,7 +12,7 @@ tar -xzvf yolov4.tar.gz
 ## Start RPC Service
 ```
-python -m paddle_serving_server_gpu.serve --model yolov4_model --port 9393 --gpu_ids 0
+python -m paddle_serving_server.serve --model yolov4_model --port 9393 --gpu_ids 0
 ```
 ## Prediction

--- a/python/examples/yolov4/README_CN.md
+++ b/python/examples/yolov4/README_CN.md
@@ -12,7 +12,7 @@ tar -xzvf yolov4.tar.gz
 ## 启动RPC服务
 ```
-python -m paddle_serving_server_gpu.serve --model yolov4_model --port 9393 --gpu_ids 0
+python -m paddle_serving_server.serve --model yolov4_model --port 9393 --gpu_ids 0
 ```
 ## 预测

--- a/python/gen_version.py
+++ b/python/gen_version.py
@@ -34,10 +34,16 @@ def update_info(file_name, feature, info):
        f.write(new_str)
-if len(sys.argv) > 2:
+if len(sys.argv) > 2 and len(sys.argv[2]) > 0:
-    update_info("paddle_serving_server_gpu/version.py", "cuda_version",
+    update_info("paddle_serving_server/version.py", "version_suffix",
                sys.argv[2])
+package_name = '${SERVER_PACKAGE_NAME}'
+if package_name.endswith('gpu'):
+    update_info("paddle_serving_server/version.py", "device_type", "1")
+elif package_name.endswith('xpu'):
+    update_info("paddle_serving_server/version.py", "device_type", "2")
 path = "paddle_serving_" + sys.argv[1]
 commit_id = subprocess.check_output(['git', 'rev-parse', 'HEAD'])
 update_info(path + "/version.py", "commit_id", commit_id)
--- a/python/paddle_serving_client/__init__.py
+++ b/python/paddle_serving_client/__init__.py
--- a/python/paddle_serving_client/client.py
+++ b/python/paddle_serving_client/client.py
--- a/python/paddle_serving_server/__init__.py
+++ b/python/paddle_serving_server/__init__.py
--- a/python/paddle_serving_server/dag.py
+++ b/python/paddle_serving_server/dag.py
--- a/python/paddle_serving_server/monitor.py
+++ b/python/paddle_serving_server/monitor.py
@@ -28,7 +28,6 @@ import logging
 _LOGGER = logging.getLogger(__name__)
 class Monitor(object):
    '''
    Monitor base class. It is used to monitor the remote model, pull and update the local model.

--- a/python/paddle_serving_server/rpc_service.py
+++ b/python/paddle_serving_server/rpc_service.py
--- a/python/paddle_serving_server/serve.py
+++ b/python/paddle_serving_server/serve.py
--- a/python/paddle_serving_server_gpu/__init__.py
+++ b/python/paddle_serving_server_gpu/__init__.py
--- a/python/paddle_serving_server/version.py
+++ b/python/paddle_serving_server/version.py
@@ -11,8 +11,11 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-""" Paddle Serving Client version string """
+""" Paddle Serving Server version string """
 serving_client_version = "0.0.0"
 serving_server_version = "0.0.0"
 module_proto_version = "0.0.0"
+version_suffix = ""
+device_type = "0"
+cuda_version = "9"
 commit_id = ""
--- a/python/paddle_serving_server/web_service.py
+++ b/python/paddle_serving_server/web_service.py
--- a/python/paddle_serving_server_gpu/monitor.py
+++ b/python/paddle_serving_server_gpu/monitor.py
--- a/python/paddle_serving_server_gpu/serve.py
+++ b/python/paddle_serving_server_gpu/serve.py
--- a/python/paddle_serving_server_gpu/version.py
+++ b/python/paddle_serving_server_gpu/version.py
-# Copyright (c) 2020  PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License"
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-""" Paddle Serving Client version string """
-serving_client_version = "0.0.0"
-serving_server_version = "0.0.0"
-module_proto_version = "0.0.0"
-cuda_version = "9"
-commit_id = ""
--- a/python/paddle_serving_server_gpu/web_service.py
+++ b/python/paddle_serving_server_gpu/web_service.py
--- a/python/pipeline/local_service_handler.py
+++ b/python/pipeline/local_service_handler.py
@@ -15,8 +15,8 @@
 import os
 import logging
 import multiprocessing
-#from paddle_serving_server_gpu import OpMaker, OpSeqMaker
+#from paddle_serving_server import OpMaker, OpSeqMaker
-#from paddle_serving_server_gpu import Server as GpuServer
+#from paddle_serving_server import Server as GpuServer
 #from paddle_serving_server import Server as CpuServer
 from . import util
 #from paddle_serving_app.local_predict import LocalPredictor
@@ -235,7 +235,7 @@ class LocalServiceHandler(object):
            server = Server()
        else:
            #gpu or arm
-            from paddle_serving_server_gpu import OpMaker, OpSeqMaker, Server
+            from paddle_serving_server import OpMaker, OpSeqMaker, Server
            op_maker = OpMaker()
            read_op = op_maker.create('general_reader')
            general_infer_op = op_maker.create('general_infer')

--- a/python/requirements.txt
+++ b/python/requirements.txt
@@ -2,14 +2,15 @@ numpy>=1.12, <=1.16.4 ; python_version<"3.5"
 shapely==1.7.0
 wheel>=0.34.0, <0.35.0
 setuptools>=44.1.0
-opencv-python==4.2.0.32
 google>=2.0.3
-opencv-python==4.2.0.32
 protobuf>=3.12.2
 grpcio-tools>=1.28.1
 grpcio>=1.28.1
 func-timeout>=4.3.5
 pyyaml>=1.3.0
-sentencepiece==0.1.92
 flask>=1.1.2
 ujson>=2.0.3
+sentencepiece==0.1.92; platform_machine !=  "aarch64"
+sentencepiece; platform_machine ==  "aarch64"
+opencv-python==4.2.0.32; platform_machine !=  "aarch64"
+opencv-python; platform_machine == "aarch64"
--- a/python/requirements_mac.txt
+++ b/python/requirements_mac.txt
--- a/python/setup.py.app.in
+++ b/python/setup.py.app.in
--- a/python/setup.py.server.in
+++ b/python/setup.py.server.in
--- a/python/setup.py.server_gpu.in
+++ b/python/setup.py.server_gpu.in
--- a/tools/cpp_examples/demo-serving/CMakeLists.txt
+++ b/tools/cpp_examples/demo-serving/CMakeLists.txt
--- a/tools/cpp_examples/elastic-ctr/serving/CMakeLists.txt
+++ b/tools/cpp_examples/elastic-ctr/serving/CMakeLists.txt
--- a/tools/scripts/ipipe_py2.sh
+++ b/tools/scripts/ipipe_py2.sh
--- a/tools/scripts/ipipe_py3.sh
+++ b/tools/scripts/ipipe_py3.sh