diff --git a/paddle/operators/elementwise_op.h b/paddle/operators/elementwise_op.h
index b60cf0a985ba247f909a41539c2dbcd712183543..fce4b24a22f40c9cc57738273a758d0d48ff5e91 100644
--- a/paddle/operators/elementwise_op.h
+++ b/paddle/operators/elementwise_op.h
@@ -34,8 +34,6 @@ class ElementwiseOp : public framework::OperatorWithKernel {
 
     auto x_dim = ctx->GetInputDim("X");
     auto y_dim = ctx->GetInputDim("Y");
-    LOG(INFO) << x_dim;
-    LOG(INFO) << y_dim;
     PADDLE_ENFORCE_GE(x_dim.size(), y_dim.size(),
                       "Rank of first input must >= rank of second input.")
     ctx->SetOutputDim("Out", x_dim);
diff --git a/paddle/operators/elementwise_op_function.h b/paddle/operators/elementwise_op_function.h
index 3eb97f60b59848d23bcd15ea1e3d2f21b721f6a4..488a35aafc8600bb8bb252fc3a5161c72a2f6df1 100644
--- a/paddle/operators/elementwise_op_function.h
+++ b/paddle/operators/elementwise_op_function.h
@@ -108,7 +108,7 @@ void ElementwiseCompute(const framework::ExecutionContext& ctx) {
   PADDLE_ENFORCE_GE(x_dims.size(), y_dims.size(),
                     "Rank of first input must >= rank of second input.")
 
-  if (x_dims == y_dims || product(y_dims) == 1) {
+  if (x_dims == y_dims) {
     functor f;
     f.template Run<Place, T>(x, y, z, ctx);
     return;
@@ -174,12 +174,6 @@ void ElementwiseGradCompute(const framework::ExecutionContext& ctx) {
     return;
   }
 
-  if (product(y_dims) == 1) {
-    functor1 f;
-    f(place, x, y, out, dx, dy, dout);
-    return;
-  }
-
   int axis = ctx.Attr<int>("axis");
   axis = (axis == -1 ? x_dims.size() - y_dims.size() : axis);
 
diff --git a/python/paddle/v2/framework/tests/test_elementwise_add_op.py b/python/paddle/v2/framework/tests/test_elementwise_add_op.py
index f3101a709b8bcf58e8682ab3d0ca5217a7f3572d..57daddd5698f77527bc5b78c436065a851867ae0 100644
--- a/python/paddle/v2/framework/tests/test_elementwise_add_op.py
+++ b/python/paddle/v2/framework/tests/test_elementwise_add_op.py
@@ -92,5 +92,33 @@ class TestElementwiseAddOp_broadcast_3(TestElementwiseOp):
         }
 
 
+class TestElementwiseAddOp_rowwise_add_0(TestElementwiseOp):
+    def setUp(self):
+        self.op_type = "elementwise_add"
+        self.inputs = {
+            'X': np.random.rand(2, 3, 4).astype(np.float32),
+            'Y': np.random.rand(3, 4).astype(np.float32)
+        }
+
+        self.attrs = {'axis': 1}
+        self.outputs = {
+            'Out': self.inputs['X'] + self.inputs['Y'].reshape(1, 3, 4)
+        }
+
+
+class TestElementwiseAddOp_rowwise_add_1(TestElementwiseOp):
+    def setUp(self):
+        self.op_type = "elementwise_add"
+        self.inputs = {
+            'X': np.random.rand(2, 1).astype(np.float32),
+            'Y': np.random.rand(1).astype(np.float32)
+        }
+
+        self.attrs = {'axis': 1}
+        self.outputs = {
+            'Out': self.inputs['X'] + self.inputs['Y'].reshape(1, 1)
+        }
+
+
 if __name__ == '__main__':
     unittest.main()
diff --git a/python/paddle/v2/framework/tests/test_fit_a_line.py b/python/paddle/v2/framework/tests/test_fit_a_line.py
index 97837ca8bb0be74bc16796de2bbf8708c9baf833..31bcbfc1b84fd8014e09a6051f5dd305efadf674 100644
--- a/python/paddle/v2/framework/tests/test_fit_a_line.py
+++ b/python/paddle/v2/framework/tests/test_fit_a_line.py
@@ -17,12 +17,12 @@ y = layers.data(name='y', shape=[1], data_type='float32', program=program)
 cost = layers.square_error_cost(input=y_predict, label=y, program=program)
 avg_cost = layers.mean(x=cost, program=program)
 
-sgd_optimizer = optimizer.SGDOptimizer(learning_rate=0.01)
+sgd_optimizer = optimizer.SGDOptimizer(learning_rate=0.005)
 opts = sgd_optimizer.minimize(avg_cost)
 
 # print str(program)
 
-BATCH_SIZE = 2
+BATCH_SIZE = 16
 
 train_reader = paddle.batch(
     paddle.reader.shuffle(
@@ -32,23 +32,17 @@ train_reader = paddle.batch(
 place = core.CPUPlace()
 exe = Executor(place)
 
-PASS_NUM = 1
+PASS_NUM = 5
 for pass_id in range(PASS_NUM):
     for data in train_reader():
         x_data = np.array(map(lambda x: x[0], data)).astype("float32")
         y_data = np.array(map(lambda x: x[1], data)).astype("float32")
-        # y_data = np.expand_dims(y_data, axis=1)
-        # print x_data
-        # print type(x_data)
-        # print y_data
 
         tensor_x = core.LoDTensor()
         tensor_x.set(x_data, place)
-        # print tensor_x.get_dims()
 
         tensor_y = core.LoDTensor()
         tensor_y.set(y_data, place)
-        # print tensor_y.get_dims()
         outs = exe.run(program,
                        feed={'x': tensor_x,
                              'y': tensor_y},