[Eager] Fix sharding in eager (#44271)

* fix sharding in eager * support eager sharding

[Eager] Fix sharding in eager (#44271)
* fix sharding in eager * support eager sharding
07c729aa · Jiabin Yang · GitHub · d6d60cbc · 07c729aa
隐藏空白更改
内联并排

Showing with 4 addition and 3 deletion

python/paddle/distributed/fleet/meta_parallel/sharding/group_sharded_stage2.py ...uted/fleet/meta_parallel/sharding/group_sharded_stage2.py +4 -3

未找到文件。
--- a/python/paddle/distributed/fleet/meta_parallel/sharding/group_sharded_stage2.py
+++ b/python/paddle/distributed/fleet/meta_parallel/sharding/group_sharded_stage2.py
@@ -210,9 +210,10 @@ class GroupShardedStage2(nn.Layer):
                    scale=self._world_size_scaling)

        # Scale grads of params
-        for param in self._trainable_params:
-            if param.name in self._param_grads and param.grad is not None:
-                param.grad.scale_(scale=self._world_size_scaling)
+        with paddle.no_grad():
+            for param in self._trainable_params:
+                if param.name in self._param_grads and param.grad is not None:
+                    param.grad.scale_(scale=self._world_size_scaling)
                # param._reset_grad_inplace_version(True)

            # Scale grads of master params with offload strategy