From 73a8c51b13ffa67518bd5fafc0a6b40e803413cf Mon Sep 17 00:00:00 2001 From: ceci3 Date: Wed, 2 Nov 2022 13:14:23 +0800 Subject: [PATCH] update nlp data, test=document (#1495) --- example/auto_compression/nlp/README.md | 16 ++++++++-------- .../pytorch_huggingface/README.md | 16 ++++++++-------- 2 files changed, 16 insertions(+), 16 deletions(-) diff --git a/example/auto_compression/nlp/README.md b/example/auto_compression/nlp/README.md index af1a5cf3..5fac6485 100644 --- a/example/auto_compression/nlp/README.md +++ b/example/auto_compression/nlp/README.md @@ -31,17 +31,17 @@ | ERNIE 3.0-Medium | 剪枝+量化训练| 74.17 | 56.84 | 59.75 | 80.54 | 76.03 | 76.97 | 80.80 | 72.16 | 模型在不同任务上平均精度以及加速对比如下: -| 模型 |策略| Accuracy(avg) | 时延(ms) | 加速比 | -|:-------:|:--------:|:----------:|:------------:| :------:| -|PP-MiniLM| Base模型| 72.81 | 128.01 | - | -|PP-MiniLM| 剪枝+离线量化 | 72.44 | 17.97 | 7.12 | -|ERNIE 3.0-Medium| Base模型| 73.09 | 29.25(fp16) | - | -|ERNIE 3.0-Medium| 剪枝+量化训练 | 72.16 | 19.61 | 1.49 | +| 模型 |策略| Accuracy(avg) | 预测时延FP32
| 预测时延FP16
| 预测时延INT8
| 加速比 | +|:-------:|:--------:|:----------:|:------------:|:------:|:------:|:------:| +|PP-MiniLM| Base模型| 72.81 | 94.49ms | 23.31ms | - | - | +|PP-MiniLM| 剪枝+离线量化 | 72.44 | - | - | 15.76ms | 5.99x | +|ERNIE 3.0-Medium| Base模型| 73.09 | 89.71ms | 20.76ms | - | - | +|ERNIE 3.0-Medium| 剪枝+量化训练 | 72.16 | - | - | 14.08ms | 6.37x | 性能测试的环境为 - 硬件:NVIDIA Tesla T4 单卡 -- 软件:CUDA 11.0, cuDNN 8.0, TensorRT 8.0 -- 测试配置:batch_size: 40, max_seq_len: 128 +- 软件:CUDA 11.2, cuDNN 8.1, TensorRT 8.4 +- 测试配置:batch_size: 32, max_seq_len: 128 ## 3. 自动压缩流程 diff --git a/example/auto_compression/pytorch_huggingface/README.md b/example/auto_compression/pytorch_huggingface/README.md index b7cc1437..a7dbff31 100644 --- a/example/auto_compression/pytorch_huggingface/README.md +++ b/example/auto_compression/pytorch_huggingface/README.md @@ -23,19 +23,19 @@ 基于bert-base-cased模型,压缩前后的精度如下: | 模型 | 策略 | CoLA | MRPC | QNLI | QQP | RTE | SST2 | STSB | AVG | |:------:|:------:|:------:|:------:|:-----------:|:------:|:------:|:------:|:------:|:------:| -| bert-base-cased | Base模型| 60.06 | 84.31 | 90.68 | 90.84 | 63.53 | 91.63 | 88.46 | 81.35 | -| bert-base-cased |剪枝蒸馏+量化训练| 58.69 | 85.05 | 90.74 | 90.42 | 65.34 | 92.08 | 88.22 | 81.51 | +| bert-base-cased | Base模型 | 60.06 | 84.31 | 90.68 | 90.84 | 63.53 | 91.63 | 88.46 | 81.35 | +| bert-base-cased | 剪枝蒸馏+量化训练 | 58.69 | 85.05 | 90.74 | 90.42 | 65.34 | 92.08 | 88.22 | 81.51 | 模型在多个任务上平均精度以及加速对比如下: -| bert-base-cased | Accuracy(avg) | 时延(ms) | 加速比 | -|:-------:|:----------:|:------------:| :------:| -| 压缩前 | 81.35 | 11.60 | - | -| 压缩后 | 81.51 | 4.83 | 2.40 | +| 模型 |策略| Accuracy(avg) | 预测时延FP32
| 预测时延FP16
| 预测时延INT8
| 加速比 | +|:-------:|:----------:|:------------:|:------:|:------:|:------:|:------:| +| bert-base-cased | Base模型 | 81.35 | 195ms | 51.58ms | - | - | +| bert-base-cased | 剪枝+量化训练 | 81.51 | - | - | 31.33ms | 6.22x | - Nvidia GPU 测试环境: - 硬件:NVIDIA Tesla T4 单卡 - - 软件:CUDA 11.2, cuDNN 8.0, TensorRT 8.4 - - 测试配置:batch_size: 40, seqence length: 128 + - 软件:CUDA 11.2, cuDNN 8.1, TensorRT 8.4 + - 测试配置:batch_size: 32, seqence length: 128 ## 3. 自动压缩流程 #### 3.1 准备环境 -- GitLab