diff --git a/fluid/neural_machine_translation/transformer/train.py b/fluid/neural_machine_translation/transformer/train.py
index a5e03d7c6a9ffc17bbfd2ffb2c6061589e486ab5..3f0c216d6b2d4846d07525695eceb01252baeb96 100644
--- a/fluid/neural_machine_translation/transformer/train.py
+++ b/fluid/neural_machine_translation/transformer/train.py
@@ -92,6 +92,8 @@ def parse_args():
         default='GPU',
         choices=['CPU', 'GPU'],
         help="The device type.")
+    parser.add_argument(
+        '--sync', type=ast.literal_eval, default=True, help="sync mode.")
 
     args = parser.parse_args()
     # Append args related to dict
@@ -256,6 +258,9 @@ def train(args):
             beta2=TrainTaskConfig.beta2,
             epsilon=TrainTaskConfig.eps)
         optimizer.minimize(sum_cost)
+    elif args.sync == False:
+        optimizer = fluid.optimizer.SGD(0.003)
+        optimizer.minimize(sum_cost)
     else:
         lr_decay = fluid.layers\
          .learning_rate_scheduler\