[NPU] refine lookup_table_v2_grad npu_kernel (#32497)

* use ZerosLike instead of NPUMemsetAsync * fix compile

[NPU] refine lookup_table_v2_grad npu_kernel (#32497)
* use ZerosLike instead of NPUMemsetAsync * fix compile
fb7590d4 · Leo Chen · GitHub · 136ef09d · fb7590d4
隐藏空白更改
内联并排

Showing with 4 addition and 4 deletion

paddle/fluid/operators/lookup_table_v2_op_npu.cc paddle/fluid/operators/lookup_table_v2_op_npu.cc +4 -4

未找到文件。
--- a/paddle/fluid/operators/lookup_table_v2_op_npu.cc
+++ b/paddle/fluid/operators/lookup_table_v2_op_npu.cc
@@ -55,19 +55,19 @@ class LookupTableV2GradNPUKernel : public framework::OpKernel<T> {
 public:
  void Compute(const framework::ExecutionContext &ctx) const override {
    auto *ids_t = ctx.Input<framework::LoDTensor>("Ids");
-
    auto *output_grad_t =
        ctx.Input<framework::LoDTensor>(framework::GradVarName("Out"));
    auto *table_grad_t =
        ctx.Output<framework::LoDTensor>(framework::GradVarName("W"));
-    auto *p = table_grad_t->mutable_data<T>(ctx.GetPlace());
+    table_grad_t->mutable_data<T>(ctx.GetPlace());

    auto stream =
        ctx.template device_context<paddle::platform::NPUDeviceContext>()
            .stream();

-    platform::NPUMemsetAsync(static_cast<void *>(p), 0,
-                             table_grad_t->numel() * sizeof(T), stream);
+    auto runner_zeros =
+        NpuOpRunner("ZerosLike", {*table_grad_t}, {*table_grad_t});
+    runner_zeros.Run(stream);

    // NOTE(zhiqiu): It seems in cann 20.1, the first input and output
    // can be different tensor, but in cann 20.2+, it does inplace operation.