未验证 提交 73a8c51b 编写于 作者: C ceci3 提交者: GitHub

update nlp data, test=document (#1495)

上级 83585b55
......@@ -31,17 +31,17 @@
| ERNIE 3.0-Medium | 剪枝+量化训练| 74.17 | 56.84 | 59.75 | 80.54 | 76.03 | 76.97 | 80.80 | 72.16 |
模型在不同任务上平均精度以及加速对比如下:
| 模型 |策略| Accuracy(avg) | 时延(ms) | 加速比 |
|:-------:|:--------:|:----------:|:------------:| :------:|
|PP-MiniLM| Base模型| 72.81 | 128.01 | - |
|PP-MiniLM| 剪枝+离线量化 | 72.44 | 17.97 | 7.12 |
|ERNIE 3.0-Medium| Base模型| 73.09 | 29.25(fp16) | - |
|ERNIE 3.0-Medium| 剪枝+量化训练 | 72.16 | 19.61 | 1.49 |
| 模型 |策略| Accuracy(avg) | 预测时延<sup><small>FP32</small><sup><br><sup> | 预测时延<sup><small>FP16</small><sup><br><sup> | 预测时延<sup><small>INT8</small><sup><br><sup> | 加速比 |
|:-------:|:--------:|:----------:|:------------:|:------:|:------:|:------:|
|PP-MiniLM| Base模型| 72.81 | 94.49ms | 23.31ms | - | - |
|PP-MiniLM| 剪枝+离线量化 | 72.44 | - | - | 15.76ms | 5.99x |
|ERNIE 3.0-Medium| Base模型| 73.09 | 89.71ms | 20.76ms | - | - |
|ERNIE 3.0-Medium| 剪枝+量化训练 | 72.16 | - | - | 14.08ms | 6.37x |
性能测试的环境为
- 硬件:NVIDIA Tesla T4 单卡
- 软件:CUDA 11.0, cuDNN 8.0, TensorRT 8.0
- 测试配置:batch_size: 40, max_seq_len: 128
- 软件:CUDA 11.2, cuDNN 8.1, TensorRT 8.4
- 测试配置:batch_size: 32, max_seq_len: 128
## 3. 自动压缩流程
......
......@@ -23,19 +23,19 @@
基于bert-base-cased模型,压缩前后的精度如下:
| 模型 | 策略 | CoLA | MRPC | QNLI | QQP | RTE | SST2 | STSB | AVG |
|:------:|:------:|:------:|:------:|:-----------:|:------:|:------:|:------:|:------:|:------:|
| bert-base-cased | Base模型| 60.06 | 84.31 | 90.68 | 90.84 | 63.53 | 91.63 | 88.46 | 81.35 |
| bert-base-cased |剪枝蒸馏+量化训练| 58.69 | 85.05 | 90.74 | 90.42 | 65.34 | 92.08 | 88.22 | 81.51 |
| bert-base-cased | Base模型 | 60.06 | 84.31 | 90.68 | 90.84 | 63.53 | 91.63 | 88.46 | 81.35 |
| bert-base-cased | 剪枝蒸馏+量化训练 | 58.69 | 85.05 | 90.74 | 90.42 | 65.34 | 92.08 | 88.22 | 81.51 |
模型在多个任务上平均精度以及加速对比如下:
| bert-base-cased | Accuracy(avg) | 时延(ms) | 加速比 |
|:-------:|:----------:|:------------:| :------:|
| 压缩前 | 81.35 | 11.60 | - |
| 压缩后 | 81.51 | 4.83 | 2.40 |
| 模型 |策略| Accuracy(avg) | 预测时延<sup><small>FP32</small><sup><br><sup> | 预测时延<sup><small>FP16</small><sup><br><sup> | 预测时延<sup><small>INT8</small><sup><br><sup> | 加速比 |
|:-------:|:----------:|:------------:|:------:|:------:|:------:|:------:|
| bert-base-cased | Base模型 | 81.35 | 195ms | 51.58ms | - | - |
| bert-base-cased | 剪枝+量化训练 | 81.51 | - | - | 31.33ms | 6.22x |
- Nvidia GPU 测试环境:
- 硬件:NVIDIA Tesla T4 单卡
- 软件:CUDA 11.2, cuDNN 8.0, TensorRT 8.4
- 测试配置:batch_size: 40, seqence length: 128
- 软件:CUDA 11.2, cuDNN 8.1, TensorRT 8.4
- 测试配置:batch_size: 32, seqence length: 128
## 3. 自动压缩流程
#### 3.1 准备环境
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册