未验证 提交 6766ad16 编写于 作者: littletomatodonkey's avatar littletomatodonkey 提交者: GitHub

add more distributed training speed-info (#2363)

* add more distributed training speed-info

* fix header
上级 4438acfd
......@@ -52,11 +52,25 @@ python3 -m paddle.distributed.launch \
| PPLCNet_x0_25_ssld | 53.43% | 21.8d | 6.2d | **3.99** |
*4机8卡V100的机器上,基于[SSLD知识蒸馏训练策略](../advanced/ssld.md)(数据量500W)进行模型训练,不同模型的训练耗时以及多机加速比情况如下所示。
*3机8卡V100的机器上进行模型训练,不同模型的精度、训练耗时、多机加速比情况如下所示。
| 模型 | 精度 | 单机8卡耗时 | 4机8卡耗时 | 加速比 |
| 模型 | 数据集 | 单机8卡耗时/精度 | 3机8卡耗时/精度 | 加速比 |
|:---------:|:--------:|:--------:|:--------:|:------:|
| PPHGNet-base_ssld | 85.00% | 18.96d | 4.86d | **3.90** |
| PPLCNetv2-base_ssld | 80.10% | 6.4d | 1.67d | **3.83** |
| PPLCNet_x0_25_ssld | 53.43% | 6.2d | 1.78d | **3.48** |
| GeneralRecognitionV2_PPLCNetV2_base | PP-ShiTuv2数据集 | 2.44d/84.2% | 1.02d/83.0% | **2.39** |
* 在4机8卡V100的机器上进行模型训练,不同模型的精度、训练耗时、多机加速比情况如下所示。
| 模型 | 数据集 | 单机8卡耗时/精度 | 4机8卡耗时/精度 | 加速比 |
|:---------:|:--------:|:--------:|:--------:|:------:|
| PP-HGNet_x_tiny | ImageNet1k | | 8.75d/- | 2.33d/80.80% | **3.75** |
| PPHGNet-base_ssld | ImageNet1k | 18.96d/- | 4.86d/85.00% | **3.90** |
| PPLCNetv2-base_ssld | ImageNet1k | 6.4d/- | 1.67d/80.10% | **3.83** |
| PPLCNet_x0_25_ssld | ImageNet1k | 6.2d/- | 1.78d/53.43% | **3.48** |
| PPHGNet-large | ImageNet22k | 15.16d/- | 4.62d/36.00% | **3.28** |
* 注:在训练的GPU卡数过多时,精度会稍微有所损失(1%左右),此时可以尝试通过添加warmup或者适当增加迭代轮数来弥补精度损失。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册