fix cscatter, test=develop (#26554)

faa9b97b · lilong12 · GitHub · ed102ea1 · faa9b97b
隐藏空白更改
内联并排

Showing with 13 addition and 6 deletion

paddle/fluid/operators/collective/c_scatter_op.cu.cc paddle/fluid/operators/collective/c_scatter_op.cu.cc +13 -6

未找到文件。
--- a/paddle/fluid/operators/collective/c_scatter_op.cu.cc
+++ b/paddle/fluid/operators/collective/c_scatter_op.cu.cc
@@ -64,12 +64,19 @@ class CScatterOpCUDAKernel : public framework::OpKernel<T> {
    framework::DDim x_dims = x->dims();
    framework::DDim out_dims(x_dims);
    framework::Tensor temp;
-    auto in_data_ptr = x->data<T>();
+    auto out_ptr = temp.mutable_data<T>(out_dims, place);
-    PADDLE_ENFORCE_CUDA_SUCCESS(platform::dynload::ncclBroadcast(
+    if (root_id == comm->rank()) {
-        reinterpret_cast<const void*>(in_data_ptr),
+      PADDLE_ENFORCE_CUDA_SUCCESS(platform::dynload::ncclBcast(
-        temp.mutable_data<T>(out_dims, place), numel, dtype, root_id,
+          reinterpret_cast<void*>(const_cast<T*>(x->data<T>())), numel, dtype,
-        comm->comm(), stream));
+          root_id, comm->comm(), stream));
-    VLOG(3) << "rank " << comm->rank() << " invoke Scatter.";
+      framework::TensorCopy(*static_cast<const framework::Tensor*>(x), place,
+                            *platform::DeviceContextPool::Instance().Get(place),
+                            static_cast<framework::Tensor*>(&temp));
+    } else {
+      PADDLE_ENFORCE_CUDA_SUCCESS(platform::dynload::ncclBcast(
+          out_ptr, numel, dtype, root_id, comm->comm(), stream));
+    }
    out_dims[0] = out_dims[0] / nranks;
    auto start_index = out_dims[0] * comm->rank();