fix sharding overlap (#54872)

cb1a50f5 · Yuang Liu · GitHub · 19ffd27d · cb1a50f5
隐藏空白更改
内联并排

Showing with 15 addition and 11 deletion

python/paddle/distributed/fleet/meta_parallel/pp_utils/utils.py .../paddle/distributed/fleet/meta_parallel/pp_utils/utils.py +15 -11

未找到文件。
--- a/python/paddle/distributed/fleet/meta_parallel/pp_utils/utils.py
+++ b/python/paddle/distributed/fleet/meta_parallel/pp_utils/utils.py
@@ -246,17 +246,21 @@ class FusedCommBuffer:
    def _comm_grads(self):
        assert self._all_params_checked_in
-        if self._act == HOOK_ACTION.ALL_REDUCE:
+        # Note: after sharding change to reduce operation here also need to be updated
-            task = paddle.distributed.all_reduce(
+        # if self._act == HOOK_ACTION.ALL_REDUCE:
-                self.grad_storage, group=self._comm_group, sync_op=False
+        #     task = paddle.distributed.all_reduce(
-            )
+        #         self.grad_storage, group=self._comm_group, sync_op=False
-        elif self._act == HOOK_ACTION.REDUCE:
+        #     )
-            task = paddle.distributed.reduce(
+        # elif self._act == HOOK_ACTION.REDUCE:
-                self.grad_storage,
+        #     task = paddle.distributed.reduce(
-                dst=self._dst,
+        #         self.grad_storage,
-                group=self._comm_group,
+        #         dst=self._dst,
-                sync_op=False,
+        #         group=self._comm_group,
-            )
+        #         sync_op=False,
+        #     )
+        task = paddle.distributed.all_reduce(
+            self.grad_storage, group=self._comm_group, sync_op=False
+        )
        self._task = task
    @imperative_base.no_grad