fix bugs (#43115)

6319dd83 · Haohongxiang · GitHub · a4bb38cb · 6319dd83
隐藏空白更改
内联并排

Showing with 6 addition and 11 deletion

python/paddle/distributed/fleet/utils/hybrid_parallel_util.py ...on/paddle/distributed/fleet/utils/hybrid_parallel_util.py +6 -11

未找到文件。
--- a/python/paddle/distributed/fleet/utils/hybrid_parallel_util.py
+++ b/python/paddle/distributed/fleet/utils/hybrid_parallel_util.py
@@ -140,17 +140,12 @@ def broadcast_dp_parameters(model, hcg):
 def fused_allreduce_gradients(parameter_list, hcg):
-    if _in_legacy_dygraph():
+    data_parallel_group = None if hcg is None else hcg.get_data_parallel_group()
-        data_parallel_group = None if hcg is None else hcg.get_data_parallel_group(
+    logger.debug("dp start fuse allreduce gradients")
-        )
+    apply_func = _apply_collective_grads_eager if in_dygraph_mode(
-        logger.debug("dp start fuse allreduce gradients")
+    ) else _apply_collective_grads
-        with framework.no_grad():
+    with framework.no_grad():
-            _apply_collective_grads(parameter_list, data_parallel_group)
+        apply_func(parameter_list, data_parallel_group)
-    elif in_dygraph_mode():
-        assert hcg is None, "It's not support to use hcg in EagerDygraph now."
-        data_parallel_group = paddle.distributed.collective._get_default_group()
-        with framework.no_grad():
-            _apply_collective_grads_eager(parameter_list, data_parallel_group)
 def sharding_reduce_gradients(parameter_list, hcg):