add dygraph amp support for transformer (#5187)

* add dygraph amp support for transformer * according params use_amp to decide use dygraph amp

add dygraph amp support for transformer (#5187)
* add dygraph amp support for transformer * according params use_amp to decide use dygraph amp
938ae21f · furnace · GitHub · 969939e7 · 938ae21f
隐藏空白更改
内联并排

Showing with 20 addition and 8 deletion

PaddleNLP/benchmark/transformer/dygraph/train.py PaddleNLP/benchmark/transformer/dygraph/train.py +20 -8

未找到文件。
--- a/PaddleNLP/benchmark/transformer/dygraph/train.py
+++ b/PaddleNLP/benchmark/transformer/dygraph/train.py
@@ -126,14 +126,26 @@ def do_train(args):
            train_reader_cost = time.time() - batch_start
            (src_word, trg_word, lbl_word) = input_data

-            logits = transformer(src_word=src_word, trg_word=trg_word)
-
-            sum_cost, avg_cost, token_num = criterion(logits, lbl_word)
-
-            avg_cost.backward()
-
-            optimizer.step()
-            optimizer.clear_grad()
+            if args.use_amp:
+                scaler = paddle.amp.GradScaler(
+                    init_loss_scaling=args.scale_loss)
+                with paddle.amp.auto_cast():
+                    logits = transformer(src_word=src_word, trg_word=trg_word)
+                    sum_cost, avg_cost, token_num = criterion(logits, lbl_word)
+
+                scaled = scaler.scale(avg_cost)  # scale the loss
+                scaled.backward()  # do backward
+
+                scaler.minimize(optimizer, scaled)  # update parameters
+                optimizer.clear_grad()
+            else:
+                logits = transformer(src_word=src_word, trg_word=trg_word)
+                sum_cost, avg_cost, token_num = criterion(logits, lbl_word)
+
+                avg_cost.backward()
+
+                optimizer.step()
+                optimizer.clear_grad()

            tokens_per_cards = token_num.numpy()