[NPU] Fix the performance problem when 'axis' is not specified (#35116)

91ba86b1 · ronnywang · GitHub · 763b6d91 · 91ba86b1
隐藏空白更改
内联并排

Showing with 8 addition and 13 deletion

paddle/fluid/operators/elementwise/elementwise_add_op_npu.cc paddle/fluid/operators/elementwise/elementwise_add_op_npu.cc +8 -13

未找到文件。
--- a/paddle/fluid/operators/elementwise/elementwise_add_op_npu.cc
+++ b/paddle/fluid/operators/elementwise/elementwise_add_op_npu.cc
@@ -42,27 +42,22 @@ class ElementwiseAddNPUKernel : public framework::OpKernel<T> {
    auto y_dims = y->dims();
    axis = (axis == -1 ? std::abs(x_dims.size() - y_dims.size()) : axis);
    if (x_dims.size() >= y_dims.size()) {
-      direct_compute =
+      direct_compute = x_dims.size() == (y_dims.size() + axis);
-          y_dims == framework::slice_ddim(x_dims, axis, x_dims.size());
    } else {
-      direct_compute =
+      direct_compute = y_dims.size() == (x_dims.size() + axis);
-          x_dims == framework::slice_ddim(y_dims, axis, y_dims.size());
    }
-    Tensor transformed_x, transformed_y;
    if (direct_compute) {
-      transformed_x.ShareDataWith(*x);
+      const auto& runner = NpuOpRunner("Add", {*x, *y}, {*out}, {});
-      transformed_y.ShareDataWith(*y);
+      runner.Run(dev_ctx.stream());
    } else {
+      Tensor transformed_x, transformed_y;
      NpuElementWiseOpBroadcast<T>(dev_ctx, x, y, axis, &transformed_x,
                                   &transformed_y);
+      const auto& runner =
+          NpuOpRunner("Add", {transformed_x, transformed_y}, {*out}, {});
+      runner.Run(dev_ctx.stream());
    }
-    const auto& runner =
-        NpuOpRunner("Add", {transformed_x, transformed_y}, {*out}, {});
-    auto stream =
-        ctx.template device_context<paddle::platform::NPUDeviceContext>()
-            .stream();
-    runner.Run(stream);
  }
 };