update: update the default gpu num to 8 when using AdamW

24372cc6 · gaotingquan · Tingquan Gao · fea9522a · 24372cc6 · 24372cc6
34 changed file
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1.25e-4
+    learning_rate: 2.5e-4
-    eta_min: 1.25e-6
+    eta_min: 2.5e-6
    warmup_epoch: 20
-    warmup_start_lr: 1.25e-7
+    warmup_start_lr: 2.5e-7
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 6.25e-5
+    learning_rate: 1.25e-4
-    eta_min: 6.25e-7
+    eta_min: 1.25e-6
    warmup_epoch: 20
-    warmup_start_lr: 6.25e-8
+    warmup_start_lr: 1.25e-7
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1.25e-4
+    learning_rate: 2.5e-4
-    eta_min: 1.25e-6
+    eta_min: 2.5e-6
    warmup_epoch: 20
-    warmup_start_lr: 1.25e-7
+    warmup_start_lr: 2.5e-7
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 3.125e-5
+    learning_rate: 6.25e-5
-    eta_min: 3.125e-7
+    eta_min: 6.25e-7
    warmup_epoch: 20
-    warmup_start_lr: 3.125e-8
+    warmup_start_lr: 6.25e-8
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 2.5e-4
+    learning_rate: 5e-4
-    eta_min: 2.5e-6
+    eta_min: 5e-6
    warmup_epoch: 20
-    warmup_start_lr: 2.5e-7
+    warmup_start_lr: 5e-7
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
  no_weight_decay_name: pos_embed cls_token .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml
@@ -41,10 +41,10 @@ Optimizer:
  one_dim_param_no_weight_decay: True
  lr:
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token pos_embed dist_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 1e-3
+    learning_rate: 2e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval
 DataLoader:

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml
@@ -44,11 +44,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml
@@ -44,11 +44,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml
@@ -44,11 +44,12 @@ Optimizer:
  no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 5e-6
+    eta_min: 1e-5
    warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
  no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml
@@ -43,11 +43,12 @@ Optimizer:
  no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
  one_dim_param_no_weight_decay: True
  lr:
+    # for 8 cards
    name: Cosine
-    learning_rate: 5e-4
+    learning_rate: 1e-3
-    eta_min: 1e-5
+    eta_min: 2e-5
    warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 # data loader for train and eval

--- a/ppcls/engine/engine.py
+++ b/ppcls/engine/engine.py
@@ -250,12 +250,17 @@ class Engine(object):
                    level=amp_level,
                    save_dtype='float32')
-        # for distributed
+        # check the gpu num
        world_size = dist.get_world_size()
        self.config["Global"]["distributed"] = world_size != 1
-        if world_size != 4 and self.mode == "train":
+        if self.mode == "train":
-            msg = f"The training strategy in config files provided by PaddleClas is based on 4 gpus. But the number of gpus is {world_size} in current training. Please modify the stategy (learning rate, batch size and so on) if use config files in PaddleClas to train."
+            std_gpu_num = 8 if self.config["Optimizer"][
-            logger.warning(msg)
+                "name"] == "AdamW" else 4
+            if world_size != std_gpu_num:
+                msg = f"The training strategy provided by PaddleClas is based on {std_gpu_num} gpus. But the number of gpu is {world_size} in current training. Please modify the stategy (learning rate, batch size and so on) if use this config to train."
+                logger.warning(msg)
+        # for distributed
        if self.config["Global"]["distributed"]:
            dist.init_parallel_env()
            self.model = paddle.DataParallel(self.model)