diff --git a/python/paddle/trainer_config_helpers/layers.py b/python/paddle/trainer_config_helpers/layers.py
index 770d6303c1358796c7d9337447b3e79f5b8ad5ba..14035ce3fd8aabe6a6800fa1be95193f053c1bba 100644
--- a/python/paddle/trainer_config_helpers/layers.py
+++ b/python/paddle/trainer_config_helpers/layers.py
@@ -2707,8 +2707,7 @@ def gru_step_layer(input,
     :param gate_act:
     :param bias_attr:
     :param param_attr: the parameter_attribute for transforming the output_mem 
-                       from previous step. It is instead grouped with input due
-                       to backward model compatibility.
+                       from previous step. 
     :param layer_attr:
     :return: LayerOutput object.
     :rtype: LayerOutput
@@ -2719,6 +2718,11 @@ def gru_step_layer(input,
     Layer(
         name=name,
         type=LayerType.GRU_STEP_LAYER,
+        # The parameter here is for transforming the output_mem. The input has 
+        # already been transformed outside this module so it does not need 
+        # parameter associated with it. 
+        # The parameter here is instead grouped with input is due to 
+        # backward model compatibility.
         inputs=[Input(input.name, **param_attr.attr), output_mem.name],
         bias=ParamAttr.to_bias(bias_attr),
         size=size,