Merge branch 'develop' into develop

777bb2af · ShiningZhang · GitHub · c9eadfc6 · 40a57005 · 777bb2af
5 changed file
--- a/doc/Offical_Docs/Serving_Introduce_CN.md
+++ b/doc/Offical_Docs/Serving_Introduce_CN.md
--- a/doc/Offical_Docs/1-1技术架构.md
+++ b/doc/Offical_Docs/1-1技术架构.md
+# 技术架构
+## 设计目标
+- 实现高性能的在线服务化推理框架。既能满足同步请求低延时快速响应，又能满足异步高吞吐的批量处理，大幅提高计算资源利用率。与同类竞品相比有性能优势。
+- 覆盖工业级 AI 应用场景。工业场景对基础功能和模型有更高的要求，进阶功能包括模型安全、授权访问、适配多种计算硬件和系统环境、云端集群化部署和弹性伸缩能力等；另外，要求服务化框架支持种类型的深度学习模型，如 CV、NLP、推荐系统等
+- 具备良好的服务可靠性。服务可靠性是服务运行稳定程度的一项重要指标，是对服务质量的一种测量，也是满足工业级场景使用的前提。
+- 简单易用。以极低的成本部署模型，能与训练框架无缝打通的预测部署 API。通过参考大量的部署示例快速上手。
+## 技术栈
+Paddle Serving 的技术体系有7个层级，计算硬件、安装部署、操作系统、高性能计算库、推理引擎、Paddle Serving 框架与产业应用。Serving 集成 Paddle Inference 和 Paddle Lite 高性能推理框架，支持在多种异构硬件和多种操作中部署。
+<p align="center">
+    <br>
+<img src='../images/tech_stack.png' >
+    <br>
+<p>
+Paddle Serving 框架提供多种编程语言客户端 SDK 方便调用和系统集成，包括 Python、C++ 和 Java 语言。使用3种协议 HTTP、gRPC 和 bRPC 与服务端交互。
+<p align="center">
+    <br>
+<img src='../images/design_doc.png' >
+    <br>
+<p>
+为了满足不同场景的用户需求，服务端设计了2种框架 C++ Serving 和 Python Pipeline。技术选型方法参见下表：
+| 框架 | 响应时间 | 吞吐 | 开发效率 | 资源利用率 | 应用场景|
+|-----|------|-----|-----|------|------|
+|C++ Serving | 低 | 高 | 低 | 高  | 高并发低延时场景，功能完善，适合大型服务架构|
+|Python Pipeline | 高 | 较高 | 高 | 高 | 开发效率高，吞吐量较高，适合单算子多模型组合场景|
+性能指标说明：
+1. 响应时间（ms）：单次请求平均响应时间，计算50、90、95、99分位响应时长，数值越低越好。
+2. 吞吐（QPS）：服务处理请求的效率，单位时间内处理请求数量，越高越好。
+3. 开发效率：使用不同开发语言完成相同工作时间不同，包括开发、调试、维护的效率等，越高越好。
+4. 资源利用率：部署一个服务对资源利用率，资源利用率低是对资源的浪费，数值越高越好。
+C++ Serving 完整设计与功能参见[C++ Serving 设计与实现](../C++_Serving/Introduction_CN.md)
+Python Pipeline 完整设计与功能参见[Python Pipeline 设计与实现](../Python_Pipeline/Pipeline_Design_CN.md)
--- a/doc/Offical_Docs/1-2Benchmark.md
+++ b/doc/Offical_Docs/1-2Benchmark.md
+# Benchmark
+## C++ Serving 性能测试
+**一.测试环境**
+- 机器型号：4 × Tesla P4-8GB ，48 core Intel(R) Xeon(R) Gold 5117 @ 2.00GHz
+- CUDA：11.0，cuDNN：v8.0.4
+- Serving：v0.7.0
+- Paddle：v2.2.0
+- 模型：ResNet_v2_50
+- batch：1
+- 使用的测试代码和使用的数据集：[resnet_v2_50](../../examples/C++/PaddleClas/resnet_v2_50)
+**二.测试方法**
+- 请求数量递增：不断增加 client 数量，指标稳定后统计 client 的耗时信息
+- 竞品对比：C++ Serving（蓝色） 与 Tenserflow Serving（灰色）都是 C++ 实现，且同为业界主流 Serving 框架
+- 吞吐性能（QPS）：折线图，数值越大表示每秒钟处理的请求数量越大，性能就越好
+- 平均处理时延（ms）：柱状图，数值越大表示单个请求处理时间越长，性能就越差
+- 同步模式：网络线程同步处理，保证显存占用相同的情况下，开启最大线程数
+- 异步模式：异步线程处理方式，保证显存占用相同，最大批量为32，异步线程数为2
+**三.同步模式**
+结论：同步模型默认参数配置情况下，C++ Serving 吞吐和平均时延指标均优于 Tensorflow Serving。
+<p align="center">
+    <br>
+<img src='../images/syn_benchmark.png'">
+    <br>
+<p>
+|client_num |	model_name |	qps(samples/s) |	mean(ms) |	model_name |	qps(samples/s) |	mean(ms) |
+| --- | --- | --- | --- | --- | --- | --- |
+| 10 |	pd-serving |	111.336 |	89.787|	tf-serving|	84.632|	118.13|
+|30	|pd-serving	|165.928	|180.761	|tf-serving	|106.572	|281.473|
+|50|	pd-serving|	207.244|	241.211|	tf-serving|	80.002	|624.959|
+|70	|pd-serving	|214.769	|325.894	|tf-serving	|105.17	|665.561|
+|100|	pd-serving|	235.405|	424.759|	tf-serving|	93.664	|1067.619|
+|150	|pd-serving	|239.114	|627.279	|tf-serving	|86.312	|1737.848|
+**四.异步模式**
+结论：client数据较少时，Tensorflow Serving 性能略优于 C++ Serving ，但当 client 并发数超过70后，Tensorflow Serving 服务出现大量超时，而 C++ Serving 仍能正常运行
+<p align="center">
+    <br>
+<img src='../images/asyn_benchmark.png'">
+    <br>
+<p>
+|client_num |	model_name |	qps(samples/s) |	mean(ms) |	model_name |	qps(samples/s) |	mean(ms) |
+| --- | --- | --- | --- | --- | --- | --- |
+|10|	pd-serving|	130.631|	76.502|	tf-serving	|172.64	|57.916|
+|30|	pd-serving|	201.062|	149.168|	tf-serving|	241.669|	124.128|
+|50|	pd-serving|	286.01|	174.764|	tf-serving	|278.744	|179.367|
+|70|	pd-serving|	313.58|	223.187|	tf-serving|	298.241|	234.7|
+|100|	pd-serving|	323.369|	309.208|	tf-serving|	0|	∞|
+|150|	pd-serving|	328.248|	456.933|	tf-serving|	0|	∞|
--- a/doc/Offical_Docs/Index_CN.md
+++ b/doc/Offical_Docs/Index_CN.md
+# 安装指南
+##  安装说明
+本说明将指导您在64位操作系统编译和安装 PaddleServing。
+**强烈建议**您在**Docker 内构建** Paddle Serving，更多镜像请查看[Docker镜像列表](Docker_Images_CN.md)。
+**一. Python 和 pip 版本：**
+* Python 的版本支持 3.6/3.7/3.8/3.9
+* Python 具有 pip, 且 pip 的版本要求 20.2.2+
+* Python 和 pip 要求是 64 位版本
+**二. PaddleServing 对 GPU 支持情况：**
+* 目前 **PaddleServing** 支持 **NVIDIA** 显卡的 **CUDA** 驱动和 **AMD** 显卡的 **ROCm** 架构
+* 目前支持CUDA 10.1/10.2/11.2
+**第一种安装方式：使用 pip 安装**
+您可以选择“使用 pip 安装”、“从源码编译安装” 两种方式中的任意一种方式进行安装。
+本节将介绍使用 pip 的安装方式。
+以下示例中 GPU 环境均为 cuda10.2-cudnn7
+1. 启动开发镜像
+    **CPU：**
+    ```
+    # 启动 CPU Docker
+    docker pull paddlepaddle/serving:0.8.0-devel
+    docker run -p 9292:9292 --name test -dit paddlepaddle/serving:0.8.0-devel bash
+    docker exec -it test bash
+    git clone https://github.com/PaddlePaddle/Serving
+    ```
+    **GPU：**
+    ```
+    # 启动 GPU Docker
+    docker pull paddlepaddle/serving:0.8.0-cuda10.2-cudnn7-devel
+    nvidia-docker run -p 9292:9292 --name test -dit paddlepaddle/serving:0.8.0-cuda10.2-cudnn7-devel bash
+    nvidia-docker exec -it test bash
+    git clone https://github.com/PaddlePaddle/Serving
+    ```
+2. 检查 Python 的版本
+    使用以下命令确认是 3.6/3.7/3.8/3.9
+        python3 --version
+3. 检查 pip 的版本，确认是 20.2.2+  
+        python3 -m ensurepip 
+        python3 -m pip --version
+4. 安装所需的 pip 依赖
+    ```
+    cd Serving
+    pip3 install -r python/requirements.txt
+    ```
+5. 安装服务 whl 包，共有3种 client、app、server，Server 分为 CPU 和 GPU，GPU 包根据您的环境选择一种安装
+    - post102 = CUDA10.2 + Cudnn7 + TensorRT6（推荐）
+    - post101 = CUDA10.1 + TensorRT6
+    - post112 = CUDA11.2 + TensorRT8
+    ```shell
+    pip3 install paddle-serving-client==0.8.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
+    pip3 install paddle-serving-app==0.8.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
+    # CPU Server
+    pip3 install paddle-serving-server==0.8.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
+    # GPU Server，需要确认环境再选择执行哪一条，推荐使用CUDA 10.2的包
+    pip3 install paddle-serving-server-gpu==0.8.2.post102 -i https://pypi.tuna.tsinghua.edu.cn/simple 
+    pip3 install paddle-serving-server-gpu==0.8.2.post101 -i https://pypi.tuna.tsinghua.edu.cn/simple
+    pip3 install paddle-serving-server-gpu==0.8.2.post112 -i https://pypi.tuna.tsinghua.edu.cn/simple
+    ```
+    默认开启国内清华镜像源来加速下载，如果您使用 HTTP 代理可以关闭(`-i https://pypi.tuna.tsinghua.edu.cn/simple`)
+6. 安装 Paddle 相关 Python 库
+    **当您使用`paddle_serving_client.convert`命令或者`Python Pipeline 框架`时才需要安装。**
+    ```
+    # CPU 环境请执行
+    pip3 install paddlepaddle==2.2.2
+    # GPU CUDA 10.2环境请执行
+    pip3 install paddlepaddle-gpu==2.2.2
+    ```
+    **注意**： 如果您的 Cuda 版本不是10.2，或者您需要在 GPU 环境上使用 TensorRT，请勿直接执行上述命令，需要参考[Paddle-Inference官方文档-下载安装Linux预测库](https://paddleinference.paddlepaddle.org.cn/master/user_guides/download_lib.html#python)选择相应的 GPU 环境的 url 链接并进行安装。
+7. 安装完成后的环境检查
+    当以上步骤均完成后可使用命令行运行环境检查功能，自动运行 Paddle Serving 相关示例，进行环境相关配置校验。
+    ```
+    python3 -m paddle_serving_server.serve check
+    ```
+    详情请参考[环境检查文档](./Check_Env_CN.md)
+8. 更多帮助信息请参考：
+**第二种安装方式：使用源代码编译安装**
+- 如果您只是使用 PaddleServing ，建议使用 **pip** 安装即可。
+- 如果您有开发 PaddleServing 的需求，请参考：[从源码编译]
\ No newline at end of file
--- a/doc/images/tech_stack.png
+++ b/doc/images/tech_stack.png