Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
Serving
提交
567eb06b
S
Serving
项目概览
PaddlePaddle
/
Serving
大约 1 年 前同步成功
通知
185
Star
833
Fork
253
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
105
列表
看板
标记
里程碑
合并请求
10
Wiki
2
Wiki
分析
仓库
DevOps
项目成员
Pages
S
Serving
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
105
Issue
105
列表
看板
标记
里程碑
合并请求
10
合并请求
10
Pages
分析
分析
仓库分析
DevOps
Wiki
2
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
未验证
提交
567eb06b
编写于
11月 15, 2021
作者:
H
huangjianhui
提交者:
GitHub
11月 15, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Create PIPELINE_SERVING_PERFORMANCE_OPTIMIZATION_CN.md
上级
be2dfec7
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
82 addition
and
0 deletion
+82
-0
doc/PIPELINE_SERVING_PERFORMANCE_OPTIMIZATION_CN.md
doc/PIPELINE_SERVING_PERFORMANCE_OPTIMIZATION_CN.md
+82
-0
未找到文件。
doc/PIPELINE_SERVING_PERFORMANCE_OPTIMIZATION_CN.md
0 → 100644
浏览文件 @
567eb06b
# Pipeline Serving 性能优化
(
[
English
](
./PIPELINE_SERVING_PERFORMANCE_OPTIMIZATION_EN.md
)
|简体中文)
## 1.性能分析与优化
### 1.1 如何通过 Timeline 工具进行优化
为了更好地对性能进行优化,PipelineServing 提供了 Timeline 工具,对整个服务的各个阶段时间进行打点。
### 1.2 在 Server 端输出 Profile 信息
Server 端用 yaml 中的
`use_profile`
字段进行控制:
```
yaml
dag
:
use_profile
:
true
```
开启该功能后,Server 端在预测的过程中会将对应的日志信息打印到标准输出,为了更直观地展现各阶段的耗时,提供 Analyst 模块对日志文件做进一步的分析处理。
使用时先将 Server 的输出保存到文件,以
`profile.txt`
为例,脚本将日志中的时间打点信息转换成 json 格式保存到
`trace`
文件,
`trace`
文件可以通过 chrome 浏览器的 tracing 功能进行可视化。
```
python
from
paddle_serving_server.pipeline
import
Analyst
import
json
import
sys
if
__name__
==
"__main__"
:
log_filename
=
"profile.txt"
trace_filename
=
"trace"
analyst
=
Analyst
(
log_filename
)
analyst
.
save_trace
(
trace_filename
)
```
具体操作:打开 chrome 浏览器,在地址栏输入
`chrome://tracing/`
,跳转至 tracing 页面,点击 load 按钮,打开保存的
`trace`
文件,即可将预测服务的各阶段时间信息可视化。
### 1.3 在 Client 端输出 Profile 信息
Client 端在
`predict`
接口设置
`profile=True`
,即可开启 Profile 功能。
开启该功能后,Client 端在预测的过程中会将该次预测对应的日志信息打印到标准输出,后续分析处理同 Server。
### 1.4 分析方法
根据pipeline.tracer日志中的各个阶段耗时,按以下公式逐步分析出主要耗时在哪个阶段。
```
单OP耗时:
op_cost = process(pre + mid + post)
OP期望并发数:
op_concurrency = 单OP耗时(s) * 期望QPS
服务吞吐量:
service_throughput = 1 / 最慢OP的耗时 * 并发数
服务平响:
service_avg_cost = ∑op_concurrency 【关键路径】
Channel堆积:
channel_acc_size = QPS(down - up) * time
批量预测平均耗时:
avg_batch_cost = (N * pre + mid + post) / N
```
### 1.5 优化思路
根据长耗时在不同阶段,采用不同的优化方法.
-
OP推理阶段(mid-process):
-
增加OP并发度
-
开启auto-batching(前提是多个请求的shape一致)
-
若批量数据中某条数据的shape很大,padding很大导致推理很慢,可使用mini-batch
-
开启TensorRT/MKL-DNN优化
-
开启低精度推理
-
OP前处理阶段(pre-process):
-
增加OP并发度
-
优化前处理逻辑
-
in/out耗时长(channel堆积>5)
-
检查channel传递的数据大小和延迟
-
优化传入数据,不传递数据或压缩后再传入
-
增加OP并发度
-
减少上游OP并发度
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录