add more distributed training speed-info (#2363)

* add more distributed training speed-info * fix header

add more distributed training speed-info (#2363)
* add more distributed training speed-info * fix header
6766ad16 · littletomatodonkey · GitHub · 4438acfd · 6766ad16
隐藏空白更改
内联并排

Showing with 19 addition and 5 deletion

docs/zh_CN/training/single_label_classification/distributed_training.md ...ining/single_label_classification/distributed_training.md +19 -5

未找到文件。
--- a/docs/zh_CN/training/single_label_classification/distributed_training.md
+++ b/docs/zh_CN/training/single_label_classification/distributed_training.md
@@ -52,11 +52,25 @@ python3 -m paddle.distributed.launch \
 | PPLCNet_x0_25_ssld  | 53.43% | 21.8d   | 6.2d  | **3.99** |


-* 在4机8卡V100的机器上，基于[SSLD知识蒸馏训练策略](../advanced/ssld.md)（数据量500W）进行模型训练，不同模型的训练耗时以及多机加速比情况如下所示。
+* 在3机8卡V100的机器上进行模型训练，不同模型的精度、训练耗时、多机加速比情况如下所示。


-| 模型    | 精度     | 单机8卡耗时 | 4机8卡耗时 | 加速比  |
+| 模型    | 数据集   | 单机8卡耗时/精度 | 3机8卡耗时/精度 | 加速比  |
 |:---------:|:--------:|:--------:|:--------:|:------:|
-| PPHGNet-base_ssld   | 85.00% | 18.96d | 4.86d  | **3.90** |
-| PPLCNetv2-base_ssld | 80.10% | 6.4d   | 1.67d  | **3.83** |
-| PPLCNet_x0_25_ssld  | 53.43% | 6.2d   | 1.78d  | **3.48** |
+| GeneralRecognitionV2_PPLCNetV2_base   | PP-ShiTuv2数据集  | 2.44d/84.2% | 1.02d/83.0%  | **2.39** |
+
+
+* 在4机8卡V100的机器上进行模型训练，不同模型的精度、训练耗时、多机加速比情况如下所示。
+
+
+| 模型    | 数据集   | 单机8卡耗时/精度 | 4机8卡耗时/精度 | 加速比  |
+|:---------:|:--------:|:--------:|:--------:|:------:|
+| PP-HGNet_x_tiny | ImageNet1k |  | 8.75d/-   | 2.33d/80.80%  | **3.75** |
+| PPHGNet-base_ssld   | ImageNet1k | 18.96d/- | 4.86d/85.00%  | **3.90** |
+| PPLCNetv2-base_ssld | ImageNet1k | 6.4d/-   | 1.67d/80.10%  | **3.83** |
+| PPLCNet_x0_25_ssld  | ImageNet1k | 6.2d/-   | 1.78d/53.43%  | **3.48** |
+| PPHGNet-large   | ImageNet22k | 15.16d/- | 4.62d/36.00%  | **3.28** |
+
+
+
+* 注：在训练的GPU卡数过多时，精度会稍微有所损失（1%左右），此时可以尝试通过添加warmup或者适当增加迭代轮数来弥补精度损失。