add set_device fix compatibility bug;

update xpu l3 cache size;

add set_device fix compatibility bug;
update xpu l3 cache size;
940b6aa8 · zhangjun · fd5a0c52 · 940b6aa8 · 940b6aa8 · 940b6aa8
6 changed file
--- a/paddle_inference/inferencer-fluid-arm/include/fluid_arm_engine.h
+++ b/paddle_inference/inferencer-fluid-arm/include/fluid_arm_engine.h
@@ -141,7 +141,7 @@ class FluidArmAnalysisCore : public FluidFamilyCore {
    }
    if (params.use_xpu()) {
-      config.EnableXpu(100);
+      config.EnableXpu(2 * 1024 * 1024);
    }
    config.SwitchSpecifyInputNames(true);
@@ -188,7 +188,7 @@ class FluidArmAnalysisDirCore : public FluidFamilyCore {
    }
    if (params.use_xpu()) {
-      config.EnableXpu(100);
+      config.EnableXpu(1 * 1024 * 1024);
    }
    AutoLock lock(GlobalPaddleCreateMutex::instance());

--- a/python/paddle_serving_app/local_predict.py
+++ b/python/paddle_serving_app/local_predict.py
@@ -132,7 +132,8 @@ class LocalPredictor(object):
            )
        if use_xpu:
-            config.enable_xpu(100 * 1024 * 1024)
+            # 2MB l3 cache
+            config.enable_xpu(2 * 1024 * 1024)
        self.predictor = create_paddle_predictor(config)

--- a/python/paddle_serving_server_gpu/__init__.py
+++ b/python/paddle_serving_server_gpu/__init__.py
@@ -212,6 +212,7 @@ class Server(object):
        self.module_path = os.path.dirname(paddle_serving_server.__file__)
        self.cur_path = os.getcwd()
        self.use_local_bin = False
+        self.device = "cpu"
        self.gpuid = 0
        self.use_trt = False
        self.use_lite = False
@@ -279,6 +280,9 @@ class Server(object):
                "GPU not found, please check your environment or use cpu version by \"pip install paddle_serving_server\""
            )
+    def set_device(self, device="cpu"):
+        self.device = device
    def set_gpuid(self, gpuid=0):
        self.gpuid = gpuid
@@ -529,7 +533,8 @@ class Server(object):
        else:
            print("Use local bin : {}".format(self.bin_path))
        #self.check_cuda()
-        if self.use_lite:
+        # Todo: merge CPU and GPU code, remove device to model_toolkit
+        if self.device == "cpu" or self.device == "arm":
            command = "{} " \
                      "-enable_model_toolkit " \
                      "-inferservice_path {} " \

--- a/python/paddle_serving_server_gpu/serve.py
+++ b/python/paddle_serving_server_gpu/serve.py
@@ -73,6 +73,7 @@ def start_gpu_card_model(index, gpuid, args):  # pylint: disable=doc-string-miss
        server.set_lite()
        device = "arm"
+    server.set_device(device)
    if args.use_xpu:
        server.set_xpu()

--- a/python/paddle_serving_server_gpu/web_service.py
+++ b/python/paddle_serving_server_gpu/web_service.py
@@ -107,6 +107,7 @@ class WebService(object):
        server.set_num_threads(thread_num)
        server.set_memory_optimize(mem_optim)
        server.set_ir_optimize(ir_optim)
+        server.set_device(device)
        if use_lite:
            server.set_lite()

--- a/python/pipeline/local_service_handler.py
+++ b/python/pipeline/local_service_handler.py
@@ -201,6 +201,7 @@ class LocalServiceHandler(object):
            op_seq_maker.add_op(general_response_op)
            server = Server()
+            server.set_device(self._device_type)
        else:
            #gpu or arm
            from paddle_serving_server_gpu import OpMaker, OpSeqMaker, Server
@@ -217,6 +218,8 @@ class LocalServiceHandler(object):
            server = Server()
            if gpuid >= 0:
                server.set_gpuid(gpuid)
+            # TODO: support arm or arm + xpu later
+            server.set_device("gpu")
        server.set_op_sequence(op_seq_maker.get_op_sequence())
        server.set_num_threads(thread_num)