diff --git a/doc/PIPELINE_SERVING_CN.md b/doc/PIPELINE_SERVING_CN.md index a9510b84cd6335e196e9e8d8fc5a62c0361a7e9f..e3713c782eb0d80976c02292c56075c3b37bcd37 100644 --- a/doc/PIPELINE_SERVING_CN.md +++ b/doc/PIPELINE_SERVING_CN.md @@ -7,7 +7,7 @@ - [典型示例](PIPELINE_SERVING_CN.md#3.典型示例) - [高阶用法](PIPELINE_SERVING_CN.md#4.高阶用法) - [日志追踪](PIPELINE_SERVING_CN.md#5.日志追踪) -- [性能分析与优化](PIPELINE_SERVING_CN.md#6.性能优化) +- [性能分析与优化](PIPELINE_SERVING_CN.md#6性能分析与优化) 在许多深度学习框架中,Serving通常用于单模型的一键部署。在AI工业大生产的背景下,端到端的深度学习模型当前还不能解决所有问题,多个深度学习模型配合起来使用还是解决现实问题的常规手段。但多模型应用设计复杂,为了降低开发和维护难度,同时保证服务的可用性,通常会采用串行或简单的并行方式,但一般这种情况下吞吐量仅达到可用状态,而且GPU利用率偏低。