diff --git a/doc/BAIDU_KUNLUN_XPU_SERVING.md b/doc/BAIDU_KUNLUN_XPU_SERVING.md
index c57ce515096253678c9222c96a3e57fcd9dd91e7..31a72c9be9da2cd846eafbba34360ae9febfafbc 100644
--- a/doc/BAIDU_KUNLUN_XPU_SERVING.md
+++ b/doc/BAIDU_KUNLUN_XPU_SERVING.md
@@ -80,15 +80,15 @@ The first two deployment methods are recommended。
 
 Start the rpc service, deploying on ARM server with Baidu Kunlun chips，and accelerate with Paddle-Lite and Baidu Kunlun xpu.
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --use_xpu --ir_optim
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --use_xpu --ir_optim
 ```
 Start the rpc service, deploying on ARM server，and accelerate with Paddle-Lite.
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --ir_optim
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --ir_optim
 ```
 Start the rpc service, deploying on ARM server.
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292
 ```
 ## 
 ```
diff --git a/doc/BAIDU_KUNLUN_XPU_SERVING_CN.md b/doc/BAIDU_KUNLUN_XPU_SERVING_CN.md
index 6640533cafee67360e3f8a12b87816f5aad97aa0..d564e4fb736e05ce37dae918a76752bd06b75bef 100644
--- a/doc/BAIDU_KUNLUN_XPU_SERVING_CN.md
+++ b/doc/BAIDU_KUNLUN_XPU_SERVING_CN.md
@@ -76,15 +76,15 @@ tar -xzf uci_housing.tar.gz
 
 启动rpc服务，使用arm cpu+xpu部署，使用Paddle-Lite xpu优化加速能力
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --use_xpu --ir_optim
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --use_xpu --ir_optim
 ```
 启动rpc服务，使用arm cpu部署, 使用Paddle-Lite加速能力
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --ir_optim
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292 --use_lite --ir_optim
 ```
 启动rpc服务，使用arm cpu部署, 不使用Paddle-Lite加速能力
 ```
-python3 -m paddle_serving_server_gpu.serve --model uci_housing_model --thread 6 --port 9292
+python3 -m paddle_serving_server.serve --model uci_housing_model --thread 6 --port 9292
 ```
 ## client调用
 ```
diff --git a/doc/BERT_10_MINS.md b/doc/BERT_10_MINS.md
index 7f2aef671cfca910c4fb07de288fb6ba28bcd451..3857bc555dcd69be96d961f2acc363bac6575c50 100644
--- a/doc/BERT_10_MINS.md
+++ b/doc/BERT_10_MINS.md
@@ -52,7 +52,7 @@ python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292  #c
 ```
 Or,start gpu inference service,Run
 ```
-python -m paddle_serving_server_gpu.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #launch gpu inference service at GPU 0
+python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #launch gpu inference service at GPU 0
 ```
 | Parameters | Meaning                                  |
 | ---------- | ---------------------------------------- |
diff --git a/doc/BERT_10_MINS_CN.md b/doc/BERT_10_MINS_CN.md
index df4e8eb32614df0c8b0c2edeeb47fd1516a70710..3a480b6efc919f9a8af97e537db47ab3eafcbf14 100644
--- a/doc/BERT_10_MINS_CN.md
+++ b/doc/BERT_10_MINS_CN.md
@@ -50,7 +50,7 @@ python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292  #
 ```
 或者，启动gpu预测服务，执行
 ```
-python -m paddle_serving_server_gpu.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #在gpu 0上启动gpu预测服务
+python -m paddle_serving_server.serve --model bert_seq128_model/ --port 9292 --gpu_ids 0 #在gpu 0上启动gpu预测服务
 
 ```
 
diff --git a/doc/ENCRYPTION.md b/doc/ENCRYPTION.md
index b3639bbc6572623f4f0b7af28f44effd665d9f4e..89b2c5f8ed35d2a69cfdb38e2c1c18af22463226 100644
--- a/doc/ENCRYPTION.md
+++ b/doc/ENCRYPTION.md
@@ -25,7 +25,7 @@ python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_
 ```
 GPU Service
 ```
-python -m paddle_serving_server_gpu.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
+python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
 ```
 
 At this point, the server does not really start, but waits for the key。
diff --git a/doc/ENCRYPTION_CN.md b/doc/ENCRYPTION_CN.md
index 87452ea365f2cf3b05a0b356a3e709f882568b88..41713e8aa87229dabb039aae084e2207a27977fc 100644
--- a/doc/ENCRYPTION_CN.md
+++ b/doc/ENCRYPTION_CN.md
@@ -25,7 +25,7 @@ python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_
 ```
 GPU Service
 ```
-python -m paddle_serving_server_gpu.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
+python -m paddle_serving_server.serve --model encrypt_server/ --port 9300 --use_encryption_model --gpu_ids 0
 ```
 
 此时，服务器不会真正启动，而是等待密钥。
diff --git a/doc/MULTI_SERVICE_ON_ONE_GPU_CN.md b/doc/MULTI_SERVICE_ON_ONE_GPU_CN.md
index 7554e6658e1fdc4b7bd6eb7f110b0d67c118e254..1de36af8120c0547d4a5cfd4d939e45b47984886 100644
--- a/doc/MULTI_SERVICE_ON_ONE_GPU_CN.md
+++ b/doc/MULTI_SERVICE_ON_ONE_GPU_CN.md
@@ -5,8 +5,8 @@
 例如：
 
 ```shell
-python -m paddle_serving_server_gpu.serve --model bert_seq128_model --port 9292 --gpu_ids 0
-python -m paddle_serving_server_gpu.serve --model ResNet50_vd_model --port 9393 --gpu_ids 0
+python -m paddle_serving_server.serve --model bert_seq128_model --port 9292 --gpu_ids 0
+python -m paddle_serving_server.serve --model ResNet50_vd_model --port 9393 --gpu_ids 0
 ```
 
 在卡0上，同时部署了bert示例和iamgenet示例。
diff --git a/doc/SAVE.md b/doc/SAVE.md
index 32562fa55af253bdaa6328c9bd02f5d54328161b..9da923bf6df1437923539aba6da99a429082da29 100644
--- a/doc/SAVE.md
+++ b/doc/SAVE.md
@@ -38,7 +38,7 @@ We can see that the `serving_server` and `serving_client` folders hold the serve
 Start the server (GPU)
 
 ```
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9393 --gpu_id 0
+python -m paddle_serving_server.serve --model serving_server --port 9393 --gpu_id 0
 ```
 
 Client (`test_client.py`)
diff --git a/doc/SAVE_CN.md b/doc/SAVE_CN.md
index 1bb3df108275c2587ffc0979beca89d4d0ada4ea..42606372a06bc26591b70d1ae6db119cd5a8749d 100644
--- a/doc/SAVE_CN.md
+++ b/doc/SAVE_CN.md
@@ -37,7 +37,7 @@ python -m paddle_serving_client.convert --dirname . --model_filename dygraph_mod
 
 启动服务端（GPU）
 ```
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9393 --gpu_id 0
+python -m paddle_serving_server.serve --model serving_server --port 9393 --gpu_id 0
 ```
 
 客户端写法，保存为`test_client.py`
diff --git a/doc/TENSOR_RT.md b/doc/TENSOR_RT.md
index 7504646fea750572cde472ebfb6178989b542ec1..a18bc0b0c7c9fb61d57d1d532a719170b79d8047 100644
--- a/doc/TENSOR_RT.md
+++ b/doc/TENSOR_RT.md
@@ -50,7 +50,7 @@ We just need
 ```
 wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/faster_rcnn_r50_fpn_1x_coco.tar
 tar xf faster_rcnn_r50_fpn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0 --use_trt
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0 --use_trt
 ```
 The TensorRT version of the faster_rcnn model server is started
 
diff --git a/doc/TENSOR_RT_CN.md b/doc/TENSOR_RT_CN.md
index 40d525d59b5a21ca22f7a1e4274009bf9ceba987..453a08379196df94a348a13746ed288632d44486 100644
--- a/doc/TENSOR_RT_CN.md
+++ b/doc/TENSOR_RT_CN.md
@@ -50,7 +50,7 @@ pip install paddle-server-server==${VERSION}.post11
 ```
 wget --no-check-certificate https://paddle-serving.bj.bcebos.com/pddet_demo/2.0/faster_rcnn_r50_fpn_1x_coco.tar
 tar xf faster_rcnn_r50_fpn_1x_coco.tar
-python -m paddle_serving_server_gpu.serve --model serving_server --port 9494 --gpu_ids 0 --use_trt
+python -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0 --use_trt
 ```
 TensorRT版本的faster_rcnn模型服务端就启动了
 
diff --git a/doc/WINDOWS_TUTORIAL.md b/doc/WINDOWS_TUTORIAL.md
index 73cf52bb4fab14c213a13f358ed84f1e643b0734..2c1e787a7fe8d640609f344a6dde73fe1f4a42d8 100644
--- a/doc/WINDOWS_TUTORIAL.md
+++ b/doc/WINDOWS_TUTORIAL.md
@@ -54,7 +54,7 @@ Currently Windows supports the Local Predictor of the Web Service framework. The
 ```
 # filename:your_webservice.py
 from paddle_serving_server.web_service import WebService
-# If it is the GPU version, please use from paddle_serving_server_gpu.web_service import WebService
+# If it is the GPU version, please use from paddle_serving_server.web_service import WebService
 class YourWebService(WebService):
     def preprocess(self, feed=[], fetch=[]):
         #Implement pre-processing here
diff --git a/doc/WINDOWS_TUTORIAL_CN.md b/doc/WINDOWS_TUTORIAL_CN.md
index 143d3b22ff0d2a6c9b35542ac301fd2a906a0962..e68373e3e2306761e45102fe67ff15fc089df87d 100644
--- a/doc/WINDOWS_TUTORIAL_CN.md
+++ b/doc/WINDOWS_TUTORIAL_CN.md
@@ -54,7 +54,7 @@ python ocr_web_client.py
 ```
 # filename:your_webservice.py
 from paddle_serving_server.web_service import WebService
-# 如果是GPU版本，请使用 from paddle_serving_server_gpu.web_service import WebService
+# 如果是GPU版本，请使用 from paddle_serving_server.web_service import WebService
 class YourWebService(WebService):
     def preprocess(self, feed=[], fetch=[]):
         #在这里实现前处理