fix bug of scatter op (#18640)

test=develop

fix bug of scatter op (#18640)
test=develop
f4ec7d54 · chengduo · GitHub · 112cf850 · f4ec7d54 · f4ec7d54
3 changed file
--- a/paddle/fluid/operators/scatter_op.cc
+++ b/paddle/fluid/operators/scatter_op.cc
@@ -58,11 +58,15 @@ class ScatterGradOp : public framework::OperatorWithKernel {
  using framework::OperatorWithKernel::OperatorWithKernel;
  void InferShape(framework::InferShapeContext* ctx) const override {
+    if (ctx->HasOutput(framework::GradVarName("Updates"))) {
      ctx->SetOutputDim(framework::GradVarName("Updates"),
                        ctx->GetInputDim("Updates"));
+    }
+    if (ctx->HasOutput(framework::GradVarName("X"))) {
      ctx->SetOutputDim(framework::GradVarName("X"),
                        ctx->GetInputDim(framework::GradVarName("Out")));
    }
+  }
 protected:
  framework::OpKernelType GetExpectedKernelType(

--- a/paddle/fluid/operators/scatter_op.cu
+++ b/paddle/fluid/operators/scatter_op.cu
@@ -47,13 +47,16 @@ class ScatterGradOpCUDAKernel : public framework::OpKernel<T> {
    auto *dUpdates = ctx.Output<Tensor>(framework::GradVarName("Updates"));
    auto *Ids = ctx.Input<Tensor>("Ids");
    auto *dOut = ctx.Input<Tensor>(framework::GradVarName("Out"));
+    if (dX) {
      // In place gradient: dX = dO
-    dX->ShareDataWith(*dOut);
+      framework::TensorCopy(*dOut, ctx.GetPlace(), dX);
+    }
+    if (dUpdates) {
      dUpdates->mutable_data<T>(ctx.GetPlace());
      // Gradient by Gather: dUpdates = dO[Ids]
      GPUGather<T>(ctx.device_context(), *dOut, *Ids, dUpdates);
    }
+  }
 };
 }  // namespace operators

--- a/paddle/fluid/operators/scatter_op.h
+++ b/paddle/fluid/operators/scatter_op.h
@@ -74,12 +74,16 @@ class ScatterGradientOpKernel : public framework::OpKernel<T> {
    auto *Ids = ctx.Input<Tensor>("Ids");
    auto *dOut = ctx.Input<Tensor>(framework::GradVarName("Out"));
+    if (dX) {
      // In place gradient: dX = dO
      framework::TensorCopySync(*dOut, ctx.GetPlace(), dX);
+    }
+    if (dUpdates) {
      dUpdates->mutable_data<T>(ctx.GetPlace());
      // Gradient by Gather: dUpdates = dO[Ids]
      CPUGather<T>(ctx.device_context(), *dOut, *Ids, dUpdates);
    }
+  }
 };
 }  // namespace operators