Modify the implementation of BlockYReduce to fit more scenes (#39170)

8d87b3bc · Zhang Zheng · GitHub · b007a031 · 8d87b3bc
隐藏空白更改
内联并排

Showing with 3 addition and 2 deletion

paddle/pten/kernels/primitive/compute_primitives.h paddle/pten/kernels/primitive/compute_primitives.h +3 -2

未找到文件。
--- a/paddle/pten/kernels/primitive/compute_primitives.h
+++ b/paddle/pten/kernels/primitive/compute_primitives.h
@@ -118,7 +118,7 @@ __device__ __forceinline__ T BlockXReduce(T val, ReduceOp reducer) {
 */
 template <typename T, typename ReduceOp>
 __device__ __forceinline__ T BlockYReduce(T val, ReduceOp reducer) {
-  __shared__ T shared_memory[details::kReduceMaxThread];
+  __shared__ T shared_memory[1024];
  shared_memory[SharedMemoryIndex(0)] = val;
  for (int stride = blockDim.y / 2; stride > 0; stride >>= 1) {
    __syncthreads();
@@ -128,7 +128,8 @@ __device__ __forceinline__ T BlockYReduce(T val, ReduceOp reducer) {
    }
    shared_memory[SharedMemoryIndex(0)] = val;
  }
-  return val;
+  __syncthreads();
+  return shared_memory[threadIdx.x];
 }
 }  // namespace details