change d2d copy to api copy in xpu kernel, test=kunlun (#48505)

4f834cb2 · zhangyikun02 · GitHub · bc01d56e · 4f834cb2 · 4f834cb2
3 changed file
--- a/paddle/phi/kernels/xpu/elementwise_add_grad_kernel.cc
+++ b/paddle/phi/kernels/xpu/elementwise_add_grad_kernel.cc
@@ -45,7 +45,11 @@ void AddGradKernel(const Context& dev_ctx,
    T* dx_data = dev_ctx.template Alloc<T>(dx);
    if (dx->dims() == dz_dims) {
      if (dx_data != dz_data) {
-        Copy(dev_ctx, *dz, dev_ctx.GetPlace(), false, dx);
+        int ret = xpu::copy(dev_ctx.x_context(),
+                            reinterpret_cast<const XPUType*>(dz_data),
+                            reinterpret_cast<XPUType*>(dx->data<T>()),
+                            dx->numel());
+        PADDLE_ENFORCE_XDNN_SUCCESS(ret, "copy");
      }
    } else {
      // For inplace strategy, dx will be stored in addr of dz, which makes
@@ -73,7 +77,11 @@ void AddGradKernel(const Context& dev_ctx,
    T* dy_data = dy->mutable_data<T>(dev_ctx.GetPlace());
    if (dy->dims() == dz_dims) {
      if (dy_data != dz_data) {
-        Copy(dev_ctx, *dz, dev_ctx.GetPlace(), false, dy);
+        int ret = xpu::copy(dev_ctx.x_context(),
+                            reinterpret_cast<const XPUType*>(dz_data),
+                            reinterpret_cast<XPUType*>(dy->data<T>()),
+                            dy->numel());
+        PADDLE_ENFORCE_XDNN_SUCCESS(ret, "copy");
      }
    } else {
      std::vector<int> reduce_dims =

--- a/paddle/phi/kernels/xpu/warpctc_kernel.cc
+++ b/paddle/phi/kernels/xpu/warpctc_kernel.cc
@@ -68,6 +68,15 @@ void WarpctcKernel(const Context& dev_ctx,
                        "but received %d. ",
                        sequence_width));
+  int lm_workspace = (max_sequence_length + 1) *
+                         (2 * max_target_seq_length + sequence_width + 1) *
+                         sizeof(T) +
+                     (7 * max_target_seq_length + 3) * sizeof(int);
+  PADDLE_ENFORCE_LE(lm_workspace,
+                    6144,
+                    phi::errors::InvalidArgument(
+                        "Input size is too large for xpu in warpctc kernel"));
  loss->Resize(phi::make_ddim({num_sequences, 1}));
  dev_ctx.template Alloc<T>(loss);

--- a/python/paddle/fluid/tests/unittests/xpu/test_warpctc_op_xpu.py
+++ b/python/paddle/fluid/tests/unittests/xpu/test_warpctc_op_xpu.py
@@ -239,7 +239,6 @@ class XPUTestWarpCTCOp(XPUOpTestWrapper):
            logits = np.random.uniform(
                0.1, 1.0, [sum(self.logits_length), self.num_classes]
            ).astype(self.dtype)
-            print("logits.shape = ", logits.shape)
            softmax = np.apply_along_axis(stable_softmax, 1, logits)
            # labels should not be blank
            labels = np.random.randint(
@@ -416,7 +415,11 @@ class XPUTestWarpCTCOp(XPUOpTestWrapper):
                labels = paddle.to_tensor(labels)
                paddle.nn.functional.ctc_loss(
-                    log_probs=softmax, labels=labels, reduction='none'
+                    log_probs=softmax,
+                    labels=labels,
+                    input_lengths=None,
+                    label_lengths=None,
+                    reduction='none',
                )
            paddle.disable_static()