diff --git a/core/trainers/single_trainer.py b/core/trainers/single_trainer.py
index 3c11730b352585efe7b4ed25f6b0017d28242899..2f8fda74b765e2b26cf81d68af7bf07f17432e3f 100755
--- a/core/trainers/single_trainer.py
+++ b/core/trainers/single_trainer.py
@@ -253,6 +253,9 @@ class SingleTrainer(TranspileTrainer):
         _build_strategy = fluid.BuildStrategy()
         _exe_strategy = fluid.ExecutionStrategy()
 
+        # 0: kCoeffNumDevice; 1: One; 2: Customized
+        _build_strategy.gradient_scale_strategy = model_dict.get(
+            "gradient_scale_strategy", 0)
         if "thread_num" in model_dict and model_dict["thread_num"] > 1:
             _build_strategy.reduce_strategy = fluid.BuildStrategy.ReduceStrategy.Reduce
             _exe_strategy.num_threads = model_dict["thread_num"]
diff --git a/models/recall/fasttext/config.yaml b/models/recall/fasttext/config.yaml
index 9203fa7ab94941b7c3bc326b6bcaef7ab15f0d89..e0eb0847344dfb1d2fb007f8184347804c651f70 100755
--- a/models/recall/fasttext/config.yaml
+++ b/models/recall/fasttext/config.yaml
@@ -77,6 +77,7 @@ phase:
   model: "{workspace}/model.py" # user-defined model
   dataset_name: dataset_train # select dataset by name
   thread_num: 1
+  gradient_scale_strategy: 1
 #- name: phase2
 #  model: "{workspace}/model.py" # user-defined model
 #  dataset_name: dataset_infer # select dataset by name