Merge pull request #931 from guoshengCS/fix-transformer-executor-usage

Make Transformer adapt to the latest api of ParallelExecutor

Merge pull request #931 from guoshengCS/fix-transformer-executor-usage
Make Transformer adapt to the latest api of ParallelExecutor
4c32181d · Guo Sheng · GitHub · 840f652d · 056f8c48 · 4c32181d
显示空白变更内容
内联并排

Showing with 6 addition and 2 deletion

fluid/neural_machine_translation/transformer/train.py fluid/neural_machine_translation/transformer/train.py +6 -2

未找到文件。
--- a/fluid/neural_machine_translation/transformer/train.py
+++ b/fluid/neural_machine_translation/transformer/train.py
@@ -291,11 +291,15 @@ def train(args):
        clip_last_batch=False)

    train_data = read_multiple(reader=train_data.batch_generator)
-
+    build_strategy = fluid.BuildStrategy()
+    # Since the token number differs among devices, customize gradient scale to
+    # use token average cost among multi-devices. and the gradient scale is
+    # `1 / token_number` for average cost.
+    build_strategy.gradient_scale_strategy = fluid.BuildStrategy.GradientScaleStrategy.Customized
    train_exe = fluid.ParallelExecutor(
        use_cuda=TrainTaskConfig.use_gpu,
        loss_name=sum_cost.name,
-        use_default_grad_scale=False)
+        build_strategy=build_strategy)

    def test_context():
        # Context to do validation.