[Eager] Support eager all_reducer return value (#6140)

* support eager all_reducer return value * revert file * fix error logic * support simota head in eager

[Eager] Support eager all_reducer return value (#6140)
* support eager all_reducer return value * revert file * fix error logic * support simota head in eager
8416465e · Jiabin Yang · GitHub · cfb3699c · 8416465e · 8416465e
隐藏空白更改
内联并排

Showing with 36 addition and 7 deletion

ppdet/modeling/heads/gfl_head.py ppdet/modeling/heads/gfl_head.py +6 -1

ppdet/modeling/heads/simota_head.py ppdet/modeling/heads/simota_head.py +30 -6

未找到文件。
--- a/ppdet/modeling/heads/gfl_head.py
+++ b/ppdet/modeling/heads/gfl_head.py
@@ -388,7 +388,12 @@ class GFLHead(nn.Layer):
        avg_factor = sum(avg_factor)
        try:
-            avg_factor = paddle.distributed.all_reduce(avg_factor.clone())
+            avg_factor_clone = avg_factor.clone()
+            tmp_avg_factor = paddle.distributed.all_reduce(avg_factor_clone)
+            if tmp_avg_factor is not None:
+                avg_factor = tmp_avg_factor
+            else:
+                avg_factor = avg_factor_clone
            avg_factor = paddle.clip(
                avg_factor / paddle.distributed.get_world_size(), min=1)
        except:

--- a/ppdet/modeling/heads/simota_head.py
+++ b/ppdet/modeling/heads/simota_head.py
@@ -179,8 +179,15 @@ class OTAHead(GFLHead):
                                                   num_level_anchors)
        num_total_pos = sum(pos_num_l)
        try:
-            num_total_pos = paddle.distributed.all_reduce(num_total_pos.clone(
+            cloned_num_total_pos = num_total_pos.clone()
-            )) / paddle.distributed.get_world_size()
+            reduced_cloned_num_total_pos = paddle.distributed.all_reduce(
+                cloned_num_total_pos)
+            if reduced_cloned_num_total_pos is not None:
+                num_total_pos = reduced_cloned_num_total_pos / paddle.distributed.get_world_size(
+                )
+            else:
+                num_total_pos = cloned_num_total_pos / paddle.distributed.get_world_size(
+                )
        except:
            num_total_pos = max(num_total_pos, 1)
@@ -255,7 +262,12 @@ class OTAHead(GFLHead):
        avg_factor = sum(avg_factor)
        try:
-            avg_factor = paddle.distributed.all_reduce(avg_factor.clone())
+            avg_factor_clone = avg_factor.clone()
+            tmp_avg_factor = paddle.distributed.all_reduce(avg_factor_clone)
+            if tmp_avg_factor is not None:
+                avg_factor = tmp_avg_factor
+            else:
+                avg_factor = avg_factor_clone
            avg_factor = paddle.clip(
                avg_factor / paddle.distributed.get_world_size(), min=1)
        except:
@@ -396,8 +408,15 @@ class OTAVFLHead(OTAHead):
                                                   num_level_anchors)
        num_total_pos = sum(pos_num_l)
        try:
-            num_total_pos = paddle.distributed.all_reduce(num_total_pos.clone(
+            cloned_num_total_pos = num_total_pos.clone()
-            )) / paddle.distributed.get_world_size()
+            reduced_cloned_num_total_pos = paddle.distributed.all_reduce(
+                cloned_num_total_pos)
+            if reduced_cloned_num_total_pos is not None:
+                num_total_pos = reduced_cloned_num_total_pos / paddle.distributed.get_world_size(
+                )
+            else:
+                num_total_pos = cloned_num_total_pos / paddle.distributed.get_world_size(
+                )
        except:
            num_total_pos = max(num_total_pos, 1)
@@ -475,7 +494,12 @@ class OTAVFLHead(OTAHead):
        avg_factor = sum(avg_factor)
        try:
-            avg_factor = paddle.distributed.all_reduce(avg_factor.clone())
+            avg_factor_clone = avg_factor.clone()
+            tmp_avg_factor = paddle.distributed.all_reduce(avg_factor_clone)
+            if tmp_avg_factor is not None:
+                avg_factor = tmp_avg_factor
+            else:
+                avg_factor = avg_factor_clone
            avg_factor = paddle.clip(
                avg_factor / paddle.distributed.get_world_size(), min=1)
        except: