[Paddle-TRT] slice kernel optimization (#24783)

* parallel move shared data test=develop * test=develop

[Paddle-TRT] slice kernel optimization (#24783)
* parallel move shared data test=develop * test=develop
49e4ee27 · zlsh80826 · GitHub · 1a7fbb73 · 49e4ee27
隐藏空白更改
内联并排

Showing with 2 addition and 4 deletion

paddle/fluid/inference/tensorrt/plugin/slice_op_plugin.cu paddle/fluid/inference/tensorrt/plugin/slice_op_plugin.cu +2 -4

未找到文件。
--- a/paddle/fluid/inference/tensorrt/plugin/slice_op_plugin.cu
+++ b/paddle/fluid/inference/tensorrt/plugin/slice_op_plugin.cu
@@ -35,10 +35,8 @@ __global__ void SliceKernel(int num, int dims, const T *input,
  const int idx = blockIdx.x * blockDim.x + threadIdx.x;
  extern __shared__ int shared_data[];
-  if (threadIdx.x == 0) {
+  for (int i = threadIdx.x; i < dims * 3; i += blockDim.x) {
-    for (int i = 0; i < dims * 3; i++) {
+    shared_data[i] = offsets_info[i];
-      shared_data[i] = offsets_info[i];
-    }
  }
  __syncthreads();