Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
Serving
提交
7c86fd2b
S
Serving
项目概览
PaddlePaddle
/
Serving
大约 1 年 前同步成功
通知
186
Star
833
Fork
253
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
105
列表
看板
标记
里程碑
合并请求
10
Wiki
2
Wiki
分析
仓库
DevOps
项目成员
Pages
S
Serving
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
105
Issue
105
列表
看板
标记
里程碑
合并请求
10
合并请求
10
Pages
分析
分析
仓库分析
DevOps
Wiki
2
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
7c86fd2b
编写于
1月 13, 2022
作者:
H
huangjianhui
提交者:
GitHub
1月 13, 2022
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'develop' into develop
上级
8c87e0df
ab707fbb
变更
4
隐藏空白更改
内联
并排
Showing
4 changed file
with
19 addition
and
6 deletion
+19
-6
doc/C++_Serving/Request_Cache_CN.md
doc/C++_Serving/Request_Cache_CN.md
+15
-0
doc/Serving_Configure_CN.md
doc/Serving_Configure_CN.md
+1
-0
doc/Serving_Configure_EN.md
doc/Serving_Configure_EN.md
+1
-0
python/paddle_serving_server/server.py
python/paddle_serving_server/server.py
+2
-6
未找到文件。
doc/C++_Serving/Request_Cache_CN.md
0 → 100644
浏览文件 @
7c86fd2b
# Request Cache
本文主要介绍请求缓存功能及实现原理。
服务中请求由张量tensor、结果名称fetch_var_names、调试开关profile_server、标识码log_id组成,预测结果包含输出张量等。这里缓存会保存请求与结果的键值对。当请求命中缓存时,服务不会执行模型预测,而是会直接从缓存中提取结果。对于某些特定场景而言,这能显著降低请求耗时。
缓存可以通过设置
`--request_cache_size`
来开启。该标志默认为0,即不开启缓存。当设置非零值时,服务会以设置大小为存储上限开启缓存。这里设置的内存单位为字节。注意,如果设置
`--request_cache_size`
为0是不能开启缓存的。
缓存中的键为64位整形数,是由请求中的tensor和fetch_var_names数据生成的128位哈希值。如果请求命中,那么对应的处理结果会提取出来用于构建响应数据。如果请求没有命中,服务则会执行模型预测,在返回结果的同时将处理结果放入缓存中。由于缓存设置了存储上限,因此需要淘汰机制来限制缓存容量。当前,服务采用了最近最少使用(LRU)机制用于淘汰缓存数据。
## 注意事项
-
只有预测成功的请求会进行缓存。如果请求失败或者在预测过程中返回错误,则处理结果不会缓存。
-
缓存是基于请求数据的哈希值实现。因此,可能会出现两个不同的请求生成了相同的哈希值即哈希碰撞,这时服务可能会返回错误的响应数据。哈希值为64位数据,发生哈希碰撞的可能性较小。
-
不论使用同步模式还是异步模式,均可以正常使用缓存功能。
doc/Serving_Configure_CN.md
浏览文件 @
7c86fd2b
...
...
@@ -100,6 +100,7 @@ workdir_9393
|
`use_calib`
| bool | False | Use TRT int8 calibration |
|
`gpu_multi_stream`
| bool | False | EnableGpuMultiStream to get larger QPS |
|
`use_ascend_cl`
| bool | False | Enable for ascend910; Use with use_lite for ascend310 |
|
`request_cache_size`
| int |
`0`
| Bytes size of request cache. By default, the cache is disabled |
#### 当您的某个模型想使用多张GPU卡部署时.
```
BASH
...
...
doc/Serving_Configure_EN.md
浏览文件 @
7c86fd2b
...
...
@@ -100,6 +100,7 @@ More flags:
|
`use_calib`
| bool | False | Use TRT int8 calibration |
|
`gpu_multi_stream`
| bool | False | EnableGpuMultiStream to get larger QPS |
|
`use_ascend_cl`
| bool | False | Enable for ascend910; Use with use_lite for ascend310 |
|
`request_cache_size`
| int |
`0`
| Bytes size of request cache. By default, the cache is disabled |
#### Serving model with multiple gpus.
```
BASH
...
...
python/paddle_serving_server/server.py
浏览文件 @
7c86fd2b
...
...
@@ -599,9 +599,7 @@ class Server(object):
"-workflow_path {} "
\
"-workflow_file {} "
\
"-bthread_concurrency {} "
\
"-max_body_size {} "
\
"-enable_prometheus={} "
\
"-prometheus_port {} "
.
format
(
"-max_body_size {} "
.
format
(
self
.
bin_path
,
self
.
workdir
,
self
.
infer_service_fn
,
...
...
@@ -616,9 +614,7 @@ class Server(object):
self
.
workdir
,
self
.
workflow_fn
,
self
.
num_threads
,
self
.
max_body_size
,
self
.
enable_prometheus
,
self
.
prometheus_port
)
self
.
max_body_size
)
if
self
.
enable_prometheus
:
command
=
command
+
\
"-enable_prometheus={} "
\
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录