diff --git a/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py b/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
index de6e1920bbc6111fa5d6cb2ed865c49dd4a9b6b3..459536fd50a490a2da02b56e8ec53fc8a906470a 100644
--- a/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
+++ b/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
@@ -264,12 +264,12 @@ class PipelineParallel(MetaParallelBase):
 
         act = HOOK_ACTION.ALL_REDUCE if dp else HOOK_ACTION.REDUCE
 
-        fused_parameter_group = {}
-
         for model in models:
             # For virtual pipeline. Will separate parameters in different chunk into
             # different groups to get the best performance.
 
+            fused_parameter_group = {}
+
             parameter_list = [
                 p for p in model.parameters() if not p.stop_gradient
             ]