diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml
index 4655e02b3afb558177b9989276c1d25166a2f4d7..a7697840ea8f1f29bed5d9e2c2226ea18f4e421d 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1.25e-4
-    eta_min: 1.25e-6
+    learning_rate: 2.5e-4
+    eta_min: 2.5e-6
     warmup_epoch: 20
-    warmup_start_lr: 1.25e-7
+    warmup_start_lr: 2.5e-7
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml
index 1e6b1f79f5a86be481920c659d7344d2c0ce182a..a7100289c06b94f211dd3fea6cd0b8f2548b8244 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_base_384.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 6.25e-5
-    eta_min: 6.25e-7
+    learning_rate: 1.25e-4
+    eta_min: 1.25e-6
     warmup_epoch: 20
-    warmup_start_lr: 6.25e-8
+    warmup_start_lr: 1.25e-7
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml
index ddeacadf0cf93bb2941819a218d76fa8eeba92b2..7c96343df5d00f8c7ceeba0f1dabec8ecccdbc57 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1.25e-4
-    eta_min: 1.25e-6
+    learning_rate: 2.5e-4
+    eta_min: 2.5e-6
     warmup_epoch: 20
-    warmup_start_lr: 1.25e-7
+    warmup_start_lr: 2.5e-7
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml
index ab477ef2e7ba4613e0e292c8279c1e077e9dedee..4b682fec60569cd16e6cf81d093d016761f37615 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_large_384.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 3.125e-5
-    eta_min: 3.125e-7
+    learning_rate: 6.25e-5
+    eta_min: 6.25e-7
     warmup_epoch: 20
-    warmup_start_lr: 3.125e-8
+    warmup_start_lr: 6.25e-8
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml
index ec3c5a1452db3b2b224bf888b1015cab10374462..a191f4160fd2922974a14c379a8010f90a698b6c 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_small_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 2.5e-4
-    eta_min: 2.5e-6
+    learning_rate: 5e-4
+    eta_min: 5e-6
     warmup_epoch: 20
-    warmup_start_lr: 2.5e-7
+    warmup_start_lr: 5e-7
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml
index 3e3f9252578e8b3e06d7d858e303fdd39eeded25..3a2be2837891639604cbea15b7179adfb5cda0c7 100644
--- a/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml
+++ b/ppcls/configs/ImageNet/CSWinTransformer/CSWinTransformer_tiny_224.yaml
@@ -42,11 +42,12 @@ Optimizer:
   no_weight_decay_name: pos_embed cls_token .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml
index 979a04a381c67debd81ffc6a509664de8cd71ccd..8c3cc4c3413729e2a5530de23105619ae76e0a15 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml
index 859f57d72b0ee1261e3d06bb1c8dec6e601faada..0b8c2e808c94f09f9a6283a6baa605bd7ac45d85 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_distilled_patch16_384.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml
index 3cdd10202ee8275eeb9d1d1535e414007559fd6d..938916caa3937b2f1ef556e98c3adf9313b4c7b9 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml
index 88a8fbae9394d81438f96a99cc9ac9da243cfba8..4cbe6ffded134bbe52656879b5105f3676c44b64 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_base_patch16_384.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml
index 54d962e689b95d78c56b7c0bd8a0fd44a379364f..d5ba0cee78de68ecccb35ffcbf099ddbdad3271d 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_small_distilled_patch16_224.yaml
@@ -41,10 +41,10 @@ Optimizer:
   one_dim_param_no_weight_decay: True
   lr:
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml
index 05c3ac1f36ad79ffa141eb86d4fceabbe28da98b..a167c896e8be7746d9896cfcd9d3d3a8e7671908 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_small_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml
index f6661761391d65c35152ee222eb7b6cf3273de47..319e17025d758eadce16001863312f773410104c 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_distilled_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml
index 647050a77b181f0ac5ccbf473130415d6b957513..1234d79b6ba68186466edd7c2d1ea4f6bc61eba9 100644
--- a/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml
+++ b/ppcls/configs/ImageNet/DeiT/DeiT_tiny_patch16_224.yaml
@@ -40,11 +40,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token pos_embed dist_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 1e-3
-    eta_min: 1e-5
+    learning_rate: 2e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 # data loader for train and eval
 DataLoader:
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml
index 6c0854cb4a3aed82f8e8897d26e5ad964ceb9cc9..27fc20b99961b29e9ddbcb58363b495f199b8aec 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B0.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml
index 42134c74006042a81a1bd4c9181105034fa56ae0..20fa39773f66d0ffff2786a031f86156c5fc5c41 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B1.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml
index 4d0d5a432dba117fcffc98b2c3f32afcbc7a0969..cda94496e34747468ac3dfe0b474478c0d30cae6 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml
index a5feb260bfdb570a8b0ae5791b74697051546e61..2d48178f05c19bcca34da95087129893fc574bd0 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B2_Linear.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml
index be300aca61832f9886daccb6786af770cc5fcb46..581a7060549607248f967e54b60956722bcb4be0 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B3.yaml
@@ -44,11 +44,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml
index b6a89533949e472ffea26e2b18ae1ea174288afa..92da84d1ef00430a1aab66fb33f84e8016ab2c0c 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B4.yaml
@@ -44,11 +44,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml
index 9d36b28078ff2472913da4cc3101ad39779d6a3d..4bb2449a40bdd605b7d36359437b39324e5b1772 100644
--- a/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml
+++ b/ppcls/configs/ImageNet/PVTV2/PVT_V2_B5.yaml
@@ -44,11 +44,12 @@ Optimizer:
   no_weight_decay_name: pos_embed1 pos_embed2 pos_embed3 pos_embed4 cls_token
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 5e-6
+    learning_rate: 1e-3
+    eta_min: 1e-5
     warmup_epoch: 20
-    warmup_start_lr: 5e-7
+    warmup_start_lr: 1e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml
index 4dd0ac4cfbe3840e39ca46b67b539c3c1a9cf146..afc3fdcd263de26e4864ecafbe46db7afd575ddf 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window12_384.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml
index a42dea1f94b2c34b2d34497861cc8daf6ec757b1..4920fae6c4bab15f16d908d112a618da42aa9b35 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_base_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml
index 36b5e5e38ecc2b70fc82b93dfd8a761c3e40d0b0..a6dd74267eaab84d919ff47d979d4ed863520ff8 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window12_384.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml
index 96a9befd2026b70354dc20682d143c72b5660169..564da72f1fd4dc88b7161d00259a346a25b38c42 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_large_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml
index ffbbcf080b025527035fee353c4ddc6a212c294e..ba42f1efb8460581445e7b5a605971ec64bb0851 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_small_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml
index 066db715da45de4eb85ff4f3c2406be50be99e7e..26fa0ba61ed159ad458f9b0c21e03aa4fcd7f02e 100644
--- a/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml
+++ b/ppcls/configs/ImageNet/SwinTransformer/SwinTransformer_tiny_patch4_window7_224.yaml
@@ -41,11 +41,12 @@ Optimizer:
   no_weight_decay_name: absolute_pos_embed relative_position_bias_table .bias norm 
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 20
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml b/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml
index 74c402ee7cdddba2234ec14f9388f83392c465e0..36e5b086dc43376fe6424ca67eb02b93ac6ce9a4 100644
--- a/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_base.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml b/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml
index ca66e9a33e81c87c7e119094069e36fed44bd608..6e19d64618fa6d1dbb5608558592760f6ad61cb7 100644
--- a/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_large.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml b/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml
index 9e97c0f9994da983a5951d784850096498549ced..66235960a5c6e3fb4c255da86031214856ea761f 100644
--- a/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml
+++ b/ppcls/configs/ImageNet/Twins/alt_gvt_small.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml b/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml
index 7831e9289570a62a60dd72945b2bdf842f9d8f09..96745495a0926bc2767a309e0c3bd71cf4201c0b 100644
--- a/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_base.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml b/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml
index 8e160b3c2100a7a6c2666df89e08a67e93d589ad..ca4baf942a4c0763ee03f4631030a9d2a0752e1d 100644
--- a/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_large.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml b/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml
index 582382d4d0fa38c89db337b0cc7acbcb79a9a544..a5e5f7e0564c9d6c96b51cbda0ff7312a899d6b0 100644
--- a/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml
+++ b/ppcls/configs/ImageNet/Twins/pcpvt_small.yaml
@@ -43,11 +43,12 @@ Optimizer:
   no_weight_decay_name: norm cls_token proj.0.weight proj.1.weight proj.2.weight proj.3.weight pos_block
   one_dim_param_no_weight_decay: True
   lr:
+    # for 8 cards
     name: Cosine
-    learning_rate: 5e-4
-    eta_min: 1e-5
+    learning_rate: 1e-3
+    eta_min: 2e-5
     warmup_epoch: 5
-    warmup_start_lr: 1e-6
+    warmup_start_lr: 2e-6
 
 
 # data loader for train and eval
diff --git a/ppcls/engine/engine.py b/ppcls/engine/engine.py
index b36aeb70cf5ceb1917e50a7c51d4abcc9c8d1a65..aacde2f76187e2a9680df4409ca04ec5b0303165 100644
--- a/ppcls/engine/engine.py
+++ b/ppcls/engine/engine.py
@@ -250,12 +250,17 @@ class Engine(object):
                     level=amp_level,
                     save_dtype='float32')
 
-        # for distributed
+        # check the gpu num
         world_size = dist.get_world_size()
         self.config["Global"]["distributed"] = world_size != 1
-        if world_size != 4 and self.mode == "train":
-            msg = f"The training strategy in config files provided by PaddleClas is based on 4 gpus. But the number of gpus is {world_size} in current training. Please modify the stategy (learning rate, batch size and so on) if use config files in PaddleClas to train."
-            logger.warning(msg)
+        if self.mode == "train":
+            std_gpu_num = 8 if self.config["Optimizer"][
+                "name"] == "AdamW" else 4
+            if world_size != std_gpu_num:
+                msg = f"The training strategy provided by PaddleClas is based on {std_gpu_num} gpus. But the number of gpu is {world_size} in current training. Please modify the stategy (learning rate, batch size and so on) if use this config to train."
+                logger.warning(msg)
+
+        # for distributed
         if self.config["Global"]["distributed"]:
             dist.init_parallel_env()
             self.model = paddle.DataParallel(self.model)