diff --git a/python/paddle/fluid/distribute_transpiler.py b/python/paddle/fluid/distribute_transpiler.py
index d0b36fa90a503f7d79a99259e560ff90ad25c9f7..9565e6f4fd434e8653626084779000be04891fb1 100644
--- a/python/paddle/fluid/distribute_transpiler.py
+++ b/python/paddle/fluid/distribute_transpiler.py
@@ -370,6 +370,8 @@ class DistributeTranspiler:
             else:
                 recv_inputs.append(single_trainer_var)
 
+        # step 3
+        # each optimization op will has a optimize block
         optimize_block = None
 
         # step 4
@@ -433,6 +435,7 @@ class DistributeTranspiler:
         for idx, opt_op in enumerate(opt_op_on_pserver):
             per_opt_block = pserver_program.create_block(pre_block_idx)
             if optimize_block is None:
+                # first optimize block
                 optimize_block = per_opt_block
             for _, op in enumerate(self.optimize_ops):
                 # optimizer is connected to itself