refine test_recognize_digits_mlp and format codes (#5937)

b28b2f17 · QI JUN · Yu Yang · d89ff5b6 · b28b2f17 · b28b2f17
17 changed file
--- a/paddle/capi/Matrix.cpp
+++ b/paddle/capi/Matrix.cpp
--- a/paddle/capi/matrix.h
+++ b/paddle/capi/matrix.h
--- a/paddle/framework/tensor_util.h
+++ b/paddle/framework/tensor_util.h
@@ -135,18 +135,17 @@ inline void CopyToVector(const Tensor& src, const platform::DeviceContext& ctx,
  auto dst_ptr = static_cast<void*>(dst->data());
  if (platform::is_cpu_place(src.place())) {
-    memory::Copy(dst_place, dst_ptr, boost::get<platform::CPUPlace>(src.place()), 
+    memory::Copy(dst_place, dst_ptr,
-		    src_ptr, size);
+                 boost::get<platform::CPUPlace>(src.place()), src_ptr, size);
  }
 #ifdef PADDLE_WITH_CUDA
  else if (platform::is_gpu_place(src.place())) {  // NOLINT
    memory::Copy(
-        dst_place, dst_ptr, boost::get<platform::GPUPlace>(src.place()), src_ptr,
+        dst_place, dst_ptr, boost::get<platform::GPUPlace>(src.place()),
-        size,
+        src_ptr, size,
        reinterpret_cast<const platform::CUDADeviceContext&>(ctx).stream());
  }
 #endif
 }
 }  // namespace framework

--- a/paddle/operators/math/maxouting.cc
+++ b/paddle/operators/math/maxouting.cc
@@ -23,8 +23,7 @@ template <typename T>
 class MaxOutFunctor<platform::CPUPlace, T> {
 public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input,
+                  const framework::Tensor& input, framework::Tensor* output,
-                  framework::Tensor * output,
                  int groups) {
    const int batch_size = input.dims()[0];
    const int input_height = input.dims()[2];
@@ -43,28 +42,24 @@ class MaxOutFunctor<platform::CPUPlace, T> {
        for (int f = 0; f < fea_size; ++f) {
          T ele = static_cast<T>(-FLT_MAX);
          for (int ph = 0; ph < groups; ++ph) {
-            T x = input_data[(new_bindex + new_cindex) * groups
+            T x = input_data[(new_bindex + new_cindex) * groups +
-              + ph * fea_size + f];
+                             ph * fea_size + f];
            ele = ele > x ? ele : x;
          }
-          output_data[(new_bindex+new_cindex+f)] = ele;
+          output_data[(new_bindex + new_cindex + f)] = ele;
        }
      }
    }
  }
 };
 template <class T>
 class MaxOutGradFunctor<platform::CPUPlace, T> {
-public:
+ public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input,
+                  const framework::Tensor& input, framework::Tensor* input_grad,
-                  framework::Tensor * input_grad,
                  const framework::Tensor& output,
-                  const framework::Tensor& output_grad,
+                  const framework::Tensor& output_grad, int groups) {
-                  int groups) {
    const int batch_size = input.dims()[0];
    const int input_height = input.dims()[2];
    const int input_width = input.dims()[3];

--- a/paddle/operators/math/maxouting.cu
+++ b/paddle/operators/math/maxouting.cu
@@ -21,9 +21,9 @@ namespace math {
 template <typename T>
 __global__ void KernelMaxOut(const int nthreads, const T* input_data,
-                            const int channels,
+                             const int channels, const int input_height,
-                             const int input_height, const int input_width,
+                             const int input_width, int groups,
-                             int groups, T* output_data ) {
+                             T* output_data) {
  const int size = input_height * input_width * channels / groups;
  const int feat_len = input_height * input_width;
  int index = blockIdx.x * blockDim.x + threadIdx.x;
@@ -44,10 +44,11 @@ __global__ void KernelMaxOut(const int nthreads, const T* input_data,
  }
 }
 template <typename T>
-__global__ void KernelMaxoutGrad(
+__global__ void KernelMaxoutGrad(const int nthreads, const T* input_data,
-    const int nthreads, const T* input_data, const T* output_data,
+                                 const T* output_data, const T* output_grad,
-    const T* output_grad, T* input_grad, const int channels,
+                                 T* input_grad, const int channels,
-    const int input_height, const int input_width, int groups) {
+                                 const int input_height, const int input_width,
+                                 int groups) {
  const int size = input_height * input_width * channels / groups;
  const int feat_len = input_height * input_width;
  int index = blockIdx.x * blockDim.x + threadIdx.x;
@@ -80,7 +81,7 @@ template <typename T>
 class MaxOutFunctor<platform::GPUPlace, T> {
 public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input, framework::Tensor * output,
+                  const framework::Tensor& input, framework::Tensor* output,
                  int groups) {
    const int batch_size = input.dims()[0];
    const int input_channels = input.dims()[1];
@@ -101,8 +102,7 @@ class MaxOutFunctor<platform::GPUPlace, T> {
        T><<<grid, threads, 0,
             reinterpret_cast<const platform::CUDADeviceContext&>(context)
                 .stream()>>>(nthreads, input_data, input_channels,
-                              input_height, input_width, groups,
+                              input_height, input_width, groups, output_data);
-                              output_data);
  }
 };
 /*
@@ -112,11 +112,9 @@ template <typename T>
 class MaxOutGradFunctor<platform::GPUPlace, T> {
 public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input,
+                  const framework::Tensor& input, framework::Tensor* input_grad,
-                  framework::Tensor * input_grad,
                  const framework::Tensor& output,
-                  const framework::Tensor& output_grad,
+                  const framework::Tensor& output_grad, int groups) {
-                  int groups) {
    const int batch_size = input.dims()[0];
    const int input_channels = input.dims()[1];
    const int input_height = input.dims()[2];
@@ -137,9 +135,9 @@ class MaxOutGradFunctor<platform::GPUPlace, T> {
    KernelMaxoutGrad<
        T><<<grid, threads, 0,
             reinterpret_cast<const platform::CUDADeviceContext&>(context)
-                 .stream()>>>(
+                 .stream()>>>(nthreads, input_data, output_data,
-        nthreads, input_data, output_data, output_grad_data, input_grad_data,
+                              output_grad_data, input_grad_data, input_channels,
-        input_channels, input_height, input_width, groups);
+                              input_height, input_width, groups);
  }
 };

--- a/paddle/operators/math/maxouting.h
+++ b/paddle/operators/math/maxouting.h
@@ -21,15 +21,14 @@ namespace paddle {
 namespace operators {
 namespace math {
-#define FLT_MAX \
+#define FLT_MAX __FLT_MAX__
-    __FLT_MAX__
 template <typename Place, typename T>
 class MaxOutFunctor {
 public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input, framework::Tensor * output,
+                  const framework::Tensor& input, framework::Tensor* output,
                  int groups);
 };
@@ -37,8 +36,7 @@ template <typename Place, class T>
 class MaxOutGradFunctor {
 public:
  void operator()(const platform::DeviceContext& context,
-                  const framework::Tensor& input,
+                  const framework::Tensor& input, framework::Tensor* input_grad,
-                  framework::Tensor * input_grad,
                  const framework::Tensor& output,
                  const framework::Tensor& output_grad, int groups);
 };

--- a/paddle/operators/maxout_op.cc
+++ b/paddle/operators/maxout_op.cc
@@ -22,7 +22,8 @@ class MaxOutOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
  MaxOutOpMaker(framework::OpProto* proto, framework::OpAttrChecker* op_checker)
      : OpProtoAndCheckerMaker(proto, op_checker) {
-    AddInput("X",
+    AddInput(
+        "X",
        "(Tensor) The input tensor of maxout operator. "
        "The format of input tensor is NCHW. Where N is batch size, C is the "
        "number of channels, H and W is the height and width of feature.");
@@ -59,21 +60,19 @@ class MaxOutOpMaker : public framework::OpProtoAndCheckerMaker {
  }
 };
 class MaxOutOp : public framework::OperatorWithKernel {
 public:
  using framework::OperatorWithKernel::OperatorWithKernel;
  void InferShape(framework::InferShapeContext* ctx) const override {
-    PADDLE_ENFORCE(ctx->HasInput("X"), "Input(X) of MaxoutOp"
+    PADDLE_ENFORCE(ctx->HasInput("X"),
+                   "Input(X) of MaxoutOp"
                   "should not be null.");
    PADDLE_ENFORCE(ctx->HasOutput("Out"),
                   "Output(Out) of MaxoutOp should not be null.");
    auto in_x_dims = ctx->GetInputDim("X");
    int groups = ctx->Attrs().Get<int>("groups");
    // check groups > 1
-    PADDLE_ENFORCE_GT(
+    PADDLE_ENFORCE_GT(groups, 1, "groups should be larger than 1 in maxoutop");
-        groups, 1,
-        "groups should be larger than 1 in maxoutop");
    std::vector<int64_t> output_shape({in_x_dims[0], in_x_dims[1] / groups});
    output_shape.push_back(in_x_dims[2]);
    output_shape.push_back(in_x_dims[3]);
@@ -97,8 +96,7 @@ class MaxOutOpGrad : public framework::OperatorWithKernel {
 namespace ops = paddle::operators;
 REGISTER_OP(maxout, ops::MaxOutOp, ops::MaxOutOpMaker, maxout_grad,
            ops::MaxOutOpGrad);
-REGISTER_OP_CPU_KERNEL(maxout, ops::MaxOutKernel<paddle::platform::CPUPlace,
+REGISTER_OP_CPU_KERNEL(maxout,
-                       float>);
+                       ops::MaxOutKernel<paddle::platform::CPUPlace, float>);
-REGISTER_OP_CPU_KERNEL(maxout_grad,
+REGISTER_OP_CPU_KERNEL(
-                       ops::MaxOutGradKernel<paddle::platform::CPUPlace,
+    maxout_grad, ops::MaxOutGradKernel<paddle::platform::CPUPlace, float>);
-                       float>);
--- a/paddle/operators/maxout_op.cu.cc
+++ b/paddle/operators/maxout_op.cu.cc
@@ -18,8 +18,6 @@ namespace ops = paddle::operators;
 REGISTER_OP_GPU_KERNEL(maxout,
                       ops::MaxOutKernel<paddle::platform::GPUPlace, float>,
                       ops::MaxOutKernel<paddle::platform::GPUPlace, double>);
-REGISTER_OP_GPU_KERNEL(maxout_grad,
+REGISTER_OP_GPU_KERNEL(
-                       ops::MaxOutGradKernel<paddle::platform::GPUPlace,
+    maxout_grad, ops::MaxOutGradKernel<paddle::platform::GPUPlace, float>,
-                        float>,
+    ops::MaxOutGradKernel<paddle::platform::GPUPlace, double>);
-                       ops::MaxOutGradKernel<paddle::platform::GPUPlace,
-                        double>);
--- a/paddle/operators/maxout_op.h
+++ b/paddle/operators/maxout_op.h
--- a/paddle/operators/roi_pool_op.cc
+++ b/paddle/operators/roi_pool_op.cc
@@ -125,7 +125,8 @@ class ROIPoolOpMaker : public framework::OpProtoAndCheckerMaker {
              "(Tensor), "
              "Argmaxes corresponding to indices in X used "
              "for gradient computation. Only output "
-              "if arg “is_test” is false.").AsIntermediate();
+              "if arg “is_test” is false.")
+        .AsIntermediate();
    AddAttr<float>("spatial_scale",
                   "(float, default 1.0), "
                   "Multiplicative spatial scale factor "
@@ -153,11 +154,10 @@ https://stackoverflow.com/questions/43430056/what-is-roi-layer-in-fast-rcnn
 }  // namespace paddle
 namespace ops = paddle::operators;
-REGISTER_OP(roi_pool, ops::ROIPoolOp, ops::ROIPoolOpMaker,
+REGISTER_OP(roi_pool, ops::ROIPoolOp, ops::ROIPoolOpMaker, roi_pool_grad,
-            roi_pool_grad, ops::ROIPoolGradOp);
+            ops::ROIPoolGradOp);
 REGISTER_OP_CPU_KERNEL(
-    roi_pool,
+    roi_pool, ops::CPUROIPoolOpKernel<paddle::platform::CPUPlace, float>,
-    ops::CPUROIPoolOpKernel<paddle::platform::CPUPlace, float>,
    ops::CPUROIPoolOpKernel<paddle::platform::CPUPlace, double>);
 REGISTER_OP_CPU_KERNEL(
    roi_pool_grad,

--- a/paddle/operators/roi_pool_op.cu
+++ b/paddle/operators/roi_pool_op.cu
@@ -29,12 +29,14 @@ static inline int NumBlocks(const int N) {
                  kNumMaxinumNumBlocks);
 }
-  template <typename T>
+template <typename T>
-  __global__ void GPUROIPoolForward(
+__global__ void GPUROIPoolForward(const int nthreads, const T* input_data,
-      const int nthreads, const T* input_data, const int64_t* input_rois,
+                                  const int64_t* input_rois,
-      const float spatial_scale, const int channels, const int height,
+                                  const float spatial_scale, const int channels,
-      const int width, const int pooled_height, const int pooled_width,
+                                  const int height, const int width,
-      T* output_data, int64_t* argmax_data) {
+                                  const int pooled_height,
+                                  const int pooled_width, T* output_data,
+                                  int64_t* argmax_data) {
  int index = blockIdx.x * blockDim.x + threadIdx.x;
  int offset = blockDim.x * gridDim.x;
  for (size_t i = index; i < nthreads; i += offset) {
@@ -84,22 +86,14 @@ static inline int NumBlocks(const int N) {
      argmax_data[index] = maxidx;
    }
  }
-  }
+}
 template <typename T>
 __global__ void GPUROIPoolBackward(
-    const int nthreads,
+    const int nthreads, const int64_t* input_rois, const T* output_grad,
-    const int64_t* input_rois,
+    const int64_t* argmax_data, const int num_rois, const float spatial_scale,
-    const T* output_grad,
+    const int channels, const int height, const int width,
-    const int64_t* argmax_data,
+    const int pooled_height, const int pooled_width, T* input_grad) {
-    const int num_rois,
-    const float spatial_scale,
-    const int channels,
-    const int height,
-    const int width,
-    const int pooled_height,
-    const int pooled_width,
-    T* input_grad) {
  int index = blockIdx.x * blockDim.x + threadIdx.x;
  int offset = blockDim.x * gridDim.x;
  for (int i = index; i < nthreads; i += offset) {
@@ -118,12 +112,12 @@ __global__ void GPUROIPoolBackward(
    int argmax = offset_argmax_data[ph * pooled_width + pw];
    if (argmax != -1) {
-        platform::CudaAtomicAdd(offset_input_grad + argmax,
+      platform::CudaAtomicAdd(
+          offset_input_grad + argmax,
          static_cast<T>(offset_output_grad[ph * pooled_width + pw]));
    }
  }
-  }
+}
 template <typename Place, typename T>
 class GPUROIPoolOpKernel : public framework::OpKernel<T> {
@@ -145,23 +139,16 @@ class GPUROIPoolOpKernel : public framework::OpKernel<T> {
    int width = in_dims[3];
    size_t rois_num = rois->dims()[0];
-    if (rois_num== 0) return;
+    if (rois_num == 0) return;
    int output_size = out->numel();
    int blocks = NumBlocks(output_size);
    int threads = kNumCUDAThreads;
-    GPUROIPoolForward<T>
+    GPUROIPoolForward<
-      <<<blocks, threads, 0, ctx.cuda_device_context().stream()>>>(
+        T><<<blocks, threads, 0, ctx.cuda_device_context().stream()>>>(
-      output_size,
+        output_size, in->data<T>(), rois->data<int64_t>(), spatial_scale,
-      in->data<T>(),
+        channels, height, width, pooled_height, pooled_width,
-      rois->data<int64_t>(),
-      spatial_scale,
-      channels,
-      height,
-      width,
-      pooled_height,
-      pooled_width,
        out->mutable_data<T>(ctx.GetPlace()),
        argmax->mutable_data<int64_t>(ctx.GetPlace()));
  }
@@ -175,10 +162,8 @@ class GPUROIPoolGradOpKernel : public framework::OpKernel<T> {
    auto* rois = ctx.Input<Tensor>("ROIs");
    auto* argmax = ctx.Input<Tensor>("Argmax");
-    auto* out_grad =
+    auto* out_grad = ctx.Input<Tensor>(framework::GradVarName("Out"));
-        ctx.Input<Tensor>(framework::GradVarName("Out"));
+    auto* x_grad = ctx.Output<Tensor>(framework::GradVarName("X"));
-    auto* x_grad =
-        ctx.Output<Tensor>(framework::GradVarName("X"));
    auto pooled_height = ctx.Attr<int>("pooled_height");
    auto pooled_width = ctx.Attr<int>("pooled_width");
@@ -199,19 +184,11 @@ class GPUROIPoolGradOpKernel : public framework::OpKernel<T> {
      int threads = kNumCUDAThreads;
      if (output_grad_size > 0) {
-        GPUROIPoolBackward<T>
+        GPUROIPoolBackward<
-          <<<blocks, threads, 0, ctx.cuda_device_context().stream()>>>(
+            T><<<blocks, threads, 0, ctx.cuda_device_context().stream()>>>(
-          output_grad_size,
+            output_grad_size, rois->data<int64_t>(), out_grad->data<T>(),
-          rois->data<int64_t>(),
+            argmax->data<int64_t>(), rois_num, spatial_scale, channels, height,
-          out_grad->data<T>(),
+            width, pooled_height, pooled_width,
-          argmax->data<int64_t>(),
-          rois_num,
-          spatial_scale,
-          channels,
-          height,
-          width,
-          pooled_height,
-          pooled_width,
            x_grad->mutable_data<T>(ctx.GetPlace()));
      }
    }
@@ -223,8 +200,7 @@ class GPUROIPoolGradOpKernel : public framework::OpKernel<T> {
 namespace ops = paddle::operators;
 REGISTER_OP_GPU_KERNEL(
-    roi_pool,
+    roi_pool, ops::GPUROIPoolOpKernel<paddle::platform::GPUPlace, float>,
-    ops::GPUROIPoolOpKernel<paddle::platform::GPUPlace, float>,
    ops::GPUROIPoolOpKernel<paddle::platform::GPUPlace, double>);
 REGISTER_OP_GPU_KERNEL(
    roi_pool_grad,

--- a/paddle/operators/roi_pool_op.h
+++ b/paddle/operators/roi_pool_op.h
@@ -136,8 +136,7 @@ class CPUROIPoolGradOpKernel : public framework::OpKernel<T> {
    auto* out_grad =
        ctx.Input<framework::Tensor>(framework::GradVarName("Out"));
-    auto* x_grad =
+    auto* x_grad = ctx.Output<framework::Tensor>(framework::GradVarName("X"));
-        ctx.Output<framework::Tensor>(framework::GradVarName("X"));
    auto pooled_height = ctx.Attr<int>("pooled_height");
    auto pooled_width = ctx.Attr<int>("pooled_width");

--- a/paddle/operators/sequence_slice_op.cc
+++ b/paddle/operators/sequence_slice_op.cc
@@ -93,8 +93,7 @@ class SequenceSliceOpMaker : public framework::OpProtoAndCheckerMaker {
             "(Tensor), "
             "a vector<int> to describe the length of every input sequence for "
             "sub sequence item.");
-    AddOutput("Out",
+    AddOutput("Out", "(LoDTensor), the output of SequenceSliceOp.");
-              "(LoDTensor), the output of SequenceSliceOp.");
    AddComment(R"DOC(
 Sequence slice operator

--- a/python/paddle/v2/dataset/uci_housing.py
+++ b/python/paddle/v2/dataset/uci_housing.py
@@ -38,6 +38,7 @@ UCI_TEST_DATA = None
 URL_MODEL = 'https://github.com/PaddlePaddle/book/raw/develop/01.fit_a_line/fit_a_line.tar'
 MD5_MODEL = '52fc3da8ef3937822fcdd87ee05c0c9b'
 def feature_range(maximums, minimums):
    import matplotlib
    matplotlib.use('Agg')
@@ -114,7 +115,8 @@ def test():
 def model():
-    tar_file = paddle.v2.dataset.common.download(URL_MODEL, 'fit_a_line.tar', MD5_MODEL)
+    tar_file = paddle.v2.dataset.common.download(URL_MODEL, 'fit_a_line.tar',
+                                                 MD5_MODEL)
    with open(tar_file, 'r') as f:
        parameters = Parameters.from_tar(f)
    return parameters

--- a/python/paddle/v2/fluid/tests/book/test_recognize_digits_mlp.py
+++ b/python/paddle/v2/fluid/tests/book/test_recognize_digits_mlp.py
@@ -35,6 +35,13 @@ opts = optimizer.minimize(avg_cost)
 accuracy = fluid.evaluator.Accuracy(input=predict, label=label)
+inference_program = fluid.default_main_program().clone()
+test_accuracy = fluid.evaluator.Accuracy(
+    input=predict, label=label, main_program=inference_program)
+test_target = [avg_cost] + test_accuracy.metrics + test_accuracy.states
+inference_program = fluid.io.get_inference_program(
+    test_target, main_program=inference_program)
 train_reader = paddle.batch(
    paddle.reader.shuffle(
        paddle.dataset.mnist.train(), buf_size=8192),
@@ -69,11 +76,6 @@ for pass_id in range(PASS_NUM):
        acc = np.array(outs[1])
        pass_acc = accuracy.eval(exe)
-        test_accuracy = fluid.evaluator.Accuracy(input=predict, label=label)
-        test_target = [avg_cost] + test_accuracy.metrics + test_accuracy.states
-        inference_program = fluid.io.get_inference_program(test_target)
        test_accuracy.reset(exe)
        for data in test_reader():
            x_data = np.array(map(lambda x: x[0], data)).astype("float32")

--- a/python/paddle/v2/fluid/tests/test_maxout_op.py
+++ b/python/paddle/v2/fluid/tests/test_maxout_op.py
@@ -30,9 +30,7 @@ class TestMaxOutOp(OpTest):
    def init_test_case(self):
        self.MaxOut_forward_naive = maxout_forward_naive
        self.shape = [100, 6, 2, 2]
-        self.groups=2
+        self.groups = 2
 if __name__ == '__main__':

--- a/python/paddle/v2/fluid/tests/test_roi_pool_op.py
+++ b/python/paddle/v2/fluid/tests/test_roi_pool_op.py
@@ -4,24 +4,22 @@ import math
 import sys
 from op_test import OpTest
 class TestROIPoolOp(OpTest):
    def set_data(self):
        self.init_test_case()
        self.make_rois()
        self.calc_roi_pool()
-        self.inputs = {
+        self.inputs = {'X': self.x, 'ROIs': self.rois}
-            'X': self.x, 
-            'ROIs': self.rois}
        self.attrs = {
            'spatial_scale': self.spatial_scale,
            'pooled_height': self.pooled_height,
-            'pooled_width': self.pooled_width}
+            'pooled_width': self.pooled_width
+        }
-        self.outputs = {
+        self.outputs = {'Out': self.outs, 'Argmax': self.argmaxes}
-            'Out': self.outs,
-            'Argmax': self.argmaxes}
    def init_test_case(self):
        self.batch_size = 5
@@ -30,10 +28,9 @@ class TestROIPoolOp(OpTest):
        self.width = 4
        # n, c, h, w
-        self.x_dim = (self.batch_size, self.channels,
+        self.x_dim = (self.batch_size, self.channels, self.height, self.width)
-                      self.height, self.width)
-        self.spatial_scale = 1.0/4.0
+        self.spatial_scale = 1.0 / 4.0
        self.pooled_height = 2
        self.pooled_width = 2
        self.rois_num = 2
@@ -41,11 +38,9 @@ class TestROIPoolOp(OpTest):
        self.x = np.random.random(self.x_dim).astype('float32')
    def calc_roi_pool(self):
-        out_data = np.zeros(
+        out_data = np.zeros((self.rois_num, self.channels, self.pooled_height,
-            (self.rois_num, self.channels,
+                             self.pooled_width))
-            self.pooled_height, self.pooled_width))
+        argmax_data = np.zeros((self.rois_num, self.channels,
-        argmax_data = np.zeros(
-            (self.rois_num, self.channels,
                                self.pooled_height, self.pooled_width))
        for i in range(self.rois_num):
@@ -56,8 +51,8 @@ class TestROIPoolOp(OpTest):
            roi_end_w = int(round(roi[3] * self.spatial_scale))
            roi_end_h = int(round(roi[4] * self.spatial_scale))
-            roi_height = int(max(roi_end_h - roi_start_h + 1, 1));
+            roi_height = int(max(roi_end_h - roi_start_h + 1, 1))
-            roi_width = int(max(roi_end_w - roi_start_w + 1, 1));
+            roi_width = int(max(roi_end_w - roi_start_w + 1, 1))
            x_i = self.x[roi_batch_id]
@@ -104,10 +99,10 @@ class TestROIPoolOp(OpTest):
            y1 = np.random.random_integers(
                0, self.height / self.spatial_scale - self.pooled_height)
-            x2 = np.random.random_integers(
+            x2 = np.random.random_integers(x1 + self.pooled_width,
-                x1 + self.pooled_width, self.width / self.spatial_scale)
+                                           self.width / self.spatial_scale)
-            y2 = np.random.random_integers(
+            y2 = np.random.random_integers(y1 + self.pooled_height,
-                y1 + self.pooled_height, self.height / self.spatial_scale)
+                                           self.height / self.spatial_scale)
            roi = [batch_ids[i], x1, y1, x2, y2]
            rois.append(roi)
@@ -123,5 +118,6 @@ class TestROIPoolOp(OpTest):
    def test_check_grad(self):
        self.check_grad(['X'], 'Out')
 if __name__ == '__main__':
    unittest.main()