[NPU] refine npu data_device_transform (#33224)

387f2276 · Leo Chen · GitHub · 4540456b · 387f2276
隐藏空白更改
内联并排

Showing with 7 addition and 0 deletion

paddle/fluid/framework/data_device_transform.cc paddle/fluid/framework/data_device_transform.cc +7 -0

未找到文件。
--- a/paddle/fluid/framework/data_device_transform.cc
+++ b/paddle/fluid/framework/data_device_transform.cc
@@ -26,6 +26,13 @@ void TransDataDevice(const Tensor &in, const platform::Place &dst_place,
      platform::errors::Unavailable("Currently, model parallelism is only "
                                    "supported between CPU and CUDA."));

+  // NOTE(zhiqiu): Special case for CPU->NPU, avoid stream sync.
+  if (platform::is_cpu_place(in.place()) && platform::is_npu_place(dst_place)) {
+    TensorCopy(in, dst_place,
+               *platform::DeviceContextPool::Instance().Get(dst_place), out);
+    return;
+  }
+
  // NOTE(yy): TransDataDevice should wait for computation of input.
  if (!platform::is_cuda_pinned_place(in.place())) {
    platform::DeviceContextPool::Instance().Get(in.place())->Wait();