try to expose cast with ptr function (#38598)

15cbf81b · sneaxiy · GitHub · de26b88b · 15cbf81b
隐藏空白更改
内联并排

Showing with 14 addition and 7 deletion

paddle/pten/kernels/gpu/cast_kernel.cu paddle/pten/kernels/gpu/cast_kernel.cu +14 -7

未找到文件。
--- a/paddle/pten/kernels/gpu/cast_kernel.cu
+++ b/paddle/pten/kernels/gpu/cast_kernel.cu
@@ -54,13 +54,10 @@ __global__ void CastCUDAKernel(const InT* in, const int64_t N, OutT* out) {
 }
 template <typename InT, typename OutT>
-void CastCUDAKernelImpl(const GPUContext& dev_ctx,
+void CastCUDAKernelImplWithPtr(const GPUContext& dev_ctx,
-                        const DenseTensor& x,
+                               const InT* in_data,
-                        DenseTensor* out) {
+                               OutT* out_data,
-  auto* in_data = x.data<InT>();
+                               int64_t size) {
-  auto size = x.numel();
-  auto* out_data = out->mutable_data<OutT>();
  paddle::platform::GpuLaunchConfig config =
      paddle::platform::GetGpuLaunchConfig1D(dev_ctx, size);
  int vec_size = paddle::platform::GetVectorizedSize<OutT>(out_data);
@@ -78,6 +75,16 @@ void CastCUDAKernelImpl(const GPUContext& dev_ctx,
  }
 }
+template <typename InT, typename OutT>
+void CastCUDAKernelImpl(const GPUContext& dev_ctx,
+                        const DenseTensor& x,
+                        DenseTensor* out) {
+  auto* in_data = x.data<InT>();
+  auto size = x.numel();
+  auto* out_data = out->mutable_data<OutT>();
+  CastCUDAKernelImplWithPtr(dev_ctx, in_data, out_data, size);
+}
 template <typename T, typename ContextT>
 void Cast(const ContextT& dev_ctx,
          const DenseTensor& x,