未验证 提交 7c86fd2b 编写于 作者: H huangjianhui 提交者: GitHub

Merge branch 'develop' into develop

# Request Cache
本文主要介绍请求缓存功能及实现原理。
服务中请求由张量tensor、结果名称fetch_var_names、调试开关profile_server、标识码log_id组成,预测结果包含输出张量等。这里缓存会保存请求与结果的键值对。当请求命中缓存时,服务不会执行模型预测,而是会直接从缓存中提取结果。对于某些特定场景而言,这能显著降低请求耗时。
缓存可以通过设置`--request_cache_size`来开启。该标志默认为0,即不开启缓存。当设置非零值时,服务会以设置大小为存储上限开启缓存。这里设置的内存单位为字节。注意,如果设置`--request_cache_size`为0是不能开启缓存的。
缓存中的键为64位整形数,是由请求中的tensor和fetch_var_names数据生成的128位哈希值。如果请求命中,那么对应的处理结果会提取出来用于构建响应数据。如果请求没有命中,服务则会执行模型预测,在返回结果的同时将处理结果放入缓存中。由于缓存设置了存储上限,因此需要淘汰机制来限制缓存容量。当前,服务采用了最近最少使用(LRU)机制用于淘汰缓存数据。
## 注意事项
- 只有预测成功的请求会进行缓存。如果请求失败或者在预测过程中返回错误,则处理结果不会缓存。
- 缓存是基于请求数据的哈希值实现。因此,可能会出现两个不同的请求生成了相同的哈希值即哈希碰撞,这时服务可能会返回错误的响应数据。哈希值为64位数据,发生哈希碰撞的可能性较小。
- 不论使用同步模式还是异步模式,均可以正常使用缓存功能。
...@@ -100,6 +100,7 @@ workdir_9393 ...@@ -100,6 +100,7 @@ workdir_9393
| `use_calib` | bool | False | Use TRT int8 calibration | | `use_calib` | bool | False | Use TRT int8 calibration |
| `gpu_multi_stream` | bool | False | EnableGpuMultiStream to get larger QPS | | `gpu_multi_stream` | bool | False | EnableGpuMultiStream to get larger QPS |
| `use_ascend_cl` | bool | False | Enable for ascend910; Use with use_lite for ascend310 | | `use_ascend_cl` | bool | False | Enable for ascend910; Use with use_lite for ascend310 |
| `request_cache_size` | int | `0` | Bytes size of request cache. By default, the cache is disabled |
#### 当您的某个模型想使用多张GPU卡部署时. #### 当您的某个模型想使用多张GPU卡部署时.
```BASH ```BASH
......
...@@ -100,6 +100,7 @@ More flags: ...@@ -100,6 +100,7 @@ More flags:
| `use_calib` | bool | False | Use TRT int8 calibration | | `use_calib` | bool | False | Use TRT int8 calibration |
| `gpu_multi_stream` | bool | False | EnableGpuMultiStream to get larger QPS | | `gpu_multi_stream` | bool | False | EnableGpuMultiStream to get larger QPS |
| `use_ascend_cl` | bool | False | Enable for ascend910; Use with use_lite for ascend310 | | `use_ascend_cl` | bool | False | Enable for ascend910; Use with use_lite for ascend310 |
| `request_cache_size` | int | `0` | Bytes size of request cache. By default, the cache is disabled |
#### Serving model with multiple gpus. #### Serving model with multiple gpus.
```BASH ```BASH
......
...@@ -599,9 +599,7 @@ class Server(object): ...@@ -599,9 +599,7 @@ class Server(object):
"-workflow_path {} " \ "-workflow_path {} " \
"-workflow_file {} " \ "-workflow_file {} " \
"-bthread_concurrency {} " \ "-bthread_concurrency {} " \
"-max_body_size {} " \ "-max_body_size {} ".format(
"-enable_prometheus={} " \
"-prometheus_port {} ".format(
self.bin_path, self.bin_path,
self.workdir, self.workdir,
self.infer_service_fn, self.infer_service_fn,
...@@ -616,9 +614,7 @@ class Server(object): ...@@ -616,9 +614,7 @@ class Server(object):
self.workdir, self.workdir,
self.workflow_fn, self.workflow_fn,
self.num_threads, self.num_threads,
self.max_body_size, self.max_body_size)
self.enable_prometheus,
self.prometheus_port)
if self.enable_prometheus: if self.enable_prometheus:
command = command + \ command = command + \
"-enable_prometheus={} " \ "-enable_prometheus={} " \
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册