Update cuda kernel and doc.

d432b10d · dangqingqing · e03b574e · d432b10d · d432b10d
显示空白变更内容
内联并排

Showing with 7 addition and 3 deletion

paddle/operators/momentum_op.cc paddle/operators/momentum_op.cc +6 -2

paddle/operators/momentum_op.cu paddle/operators/momentum_op.cu +1 -1

未找到文件。
--- a/paddle/operators/momentum_op.cc
+++ b/paddle/operators/momentum_op.cc
@@ -71,8 +71,12 @@ class MomentumOpMaker : public framework::OpProtoAndCheckerMaker {
             "(Tensor, default Tensor<float>) "
             "Input learning rate");
-    AddOutput("ParamOut", "(Tensor) Output updated parameter");
+    AddOutput("ParamOut",
-    AddOutput("VelocityOut", "(Tensor) Output updated velocity");
+              "(Tensor) This output is updated parameter. "
+              "It shared memory with Input(Param).");
+    AddOutput("VelocityOut",
+              "(Tensor) This output is updated velocity. "
+              "It shared memory with Input(Velocity).");
    AddAttr<float>("mu", "(float) Momentum coefficient");
    AddAttr<bool>("use_nesterov",

--- a/paddle/operators/momentum_op.cu
+++ b/paddle/operators/momentum_op.cu
@@ -29,7 +29,7 @@ __global__ void MomentumKernel(const T* p, const T* g, const T* v,
      T g_val = g[i];
      T v_new = v[i] * mu + g_val;
      v_out[i] = v_new;
-      p_out[i] = p[i] - g_val * lr + v_new * mu * lr;
+      p_out[i] = p[i] - (g_val - v_new * mu) * lr;
    }
  } else {
    for (int i = blockIdx.x * blockDim.x + threadIdx.x; i < num;