stage3.py: do not scale if gradient_predivide_factor is 1.0 (#3630)

this change also aligns with the logic before reduce_scatter_coalesced Co-authored-by: N Olatunji Ruwase <olruwase@microsoft.com>

stage3.py: do not scale if gradient_predivide_factor is 1.0 (#3630)
this change also aligns with the logic before reduce_scatter_coalesced Co-authored-by: N Olatunji Ruwase <olruwase@microsoft.com>
52907a66 · 郭叶军 · GitHub · 49a73549 · 52907a66
隐藏空白更改
内联并排

Showing with 2 addition and 1 deletion

deepspeed/runtime/zero/stage3.py deepspeed/runtime/zero/stage3.py +2 -1

未找到文件。
--- a/deepspeed/runtime/zero/stage3.py
+++ b/deepspeed/runtime/zero/stage3.py
@@ -1122,7 +1122,8 @@ class DeepSpeedZeroOptimizer_Stage3(ZeROOptimizer):

        grad_partitions_for_rank = reduce_scatter_coalesced(full_grads_for_rank, self.dp_process_group)

-        if self.postscale_gradients and self.gradient_predivide_factor != dist.get_world_size(self.dp_process_group):
+        if self.postscale_gradients and self.gradient_predivide_factor != 1.0 and self.gradient_predivide_factor != dist.get_world_size(
+                self.dp_process_group):
            grad_partitions_for_rank = [g.mul(self.gradient_predivide_factor) for g in grad_partitions_for_rank]

        if self.communication_data_type != self.dtype: