[inference] CPU-> GPU async io copy for TensorRT using ShareExternalData API (#46636)

c333af2f · Zhang Jun · GitHub · 0c789ae5 · c333af2f
隐藏空白更改
内联并排

Showing with 1 addition and 2 deletion

paddle/fluid/operators/tensorrt/tensorrt_engine_op.h paddle/fluid/operators/tensorrt/tensorrt_engine_op.h +1 -2

未找到文件。
--- a/paddle/fluid/operators/tensorrt/tensorrt_engine_op.h
+++ b/paddle/fluid/operators/tensorrt/tensorrt_engine_op.h
@@ -501,8 +501,7 @@ class TensorRTEngineOp : public framework::OperatorBase {
      // check the input_tensor
      if (!platform::is_gpu_place(t.place())) {
        phi::DenseTensor out;
-        platform::CUDAPlace dst_place;
+        framework::TensorCopy(t, dev_place, dev_ctx, &out);
-        framework::TransDataDevice(t, dst_place, &out);
        t.ShareDataWith(out);
      }
      auto t_shape = phi::vectorize<int64_t>(t.dims());