Refine: fix depthwise conv bug and support stride=2

4a4157d5 · hjchen2 · c9630379 · 4a4157d5 · 4a4157d5 · 4a4157d5
12 changed file
--- a/src/framework/executor.cpp
+++ b/src/framework/executor.cpp
@@ -72,7 +72,7 @@ Executor<Dtype, P>::Executor(const framework::Program<Dtype> p, int batch_size,
          op->Type(), op->GetInputs(), op->GetOutputs(), op->GetAttrMap(),
          program_.scope);
      // infer shape to reshape tensor before predict,
-      // but for lod tensor, it will need to reshape in runtime
+      // but for lod tensor, it will still need to reshape in runtime
      if (!loddable_) {
        op_base->InferShape();
      }

--- a/src/framework/load_ops.h
+++ b/src/framework/load_ops.h
@@ -233,6 +233,3 @@ LOAD_OP1(quantize, CPU);
 #ifdef DEQUANT_OP
 LOAD_OP1(dequantize, CPU);
 #endif
-#ifdef PAD_OP
-LOAD_OP1(pad, CPU);
-#endif
--- a/src/operators/kernel/arm/conv_kernel.cpp
+++ b/src/operators/kernel/arm/conv_kernel.cpp
@@ -15,7 +15,6 @@ limitations under the License. */
 #ifdef CONV_OP

 #include "operators/kernel/conv_kernel.h"
-#include <iostream>
 #include "operators/kernel/central-arm-func/conv_arm_func.h"

 namespace paddle_mobile {
@@ -27,7 +26,8 @@ bool ConvKernel<CPU, float>::Init(ConvParam<CPU> *param) {
    if (param->Groups() == param->Input()->dims()[1] &&
        param->Input()->dims()[1] == param->Output()->dims()[1] &&
        param->Filter()->dims()[2] == param->Filter()->dims()[3] &&
-        param->Filter()->dims()[2] == 3) {
+        param->Filter()->dims()[2] == 3 && param->Strides()[0] < 3 &&
+        param->Strides()[0] == param->Strides()[1]) {
      param->ExecMode() = ConvParam<CPU>::EXEC_DEPTHWISE3x3_INT8;
    } else {
      param->ExecMode() = ConvParam<CPU>::EXEC_GEMM_INT8;
@@ -70,30 +70,23 @@ void ConvKernel<CPU, float>::Compute(const ConvParam<CPU> &param) {
  switch (param.ExecMode()) {
    case ConvParam<CPU>::EXEC_GEMM_INT8:
      GemmConv<int8_t, int32_t>(param);
-      std::cout << "EXEC_GEMM_INT8" << std::endl;
      break;
    case ConvParam<CPU>::EXEC_DEPTHWISE3x3_INT8:
      DepthwiseConv3x3<int8_t, int32_t>(param);
-      std::cout << "EXEC_DEPTHWISE3x3_INT8" << std::endl;
      break;
    case ConvParam<CPU>::EXEC_DEPTHWISE3x3S1P1_FLOAT:
      math::DepthwiseConv3x3s1p1(param.Input(), param.Filter(), param.Output(),
                                 nullptr, false);
-      std::cout << "EXEC_DEPTHWISE3x3S1P1_FLOAT" << std::endl;
      break;
    case ConvParam<CPU>::EXEC_DEPTHWISE3x3_FLOAT:
      math::DepthwiseConv3x3(param.Input(), param.Strides(), param.Paddings(),
                             param.Filter(), nullptr, param.Output(), false);
-      std::cout << "EXEC_DEPTHWISE3x3_FLOAT=" << param.Strides()[0]
-                << std::endl;
      break;
    case ConvParam<CPU>::EXEC_WINOGRAD3X3_FLOAT:
      WinogradConv3x3<8, 3>(param);
-      std::cout << "EXEC_WINOGRAD3X3_FLOAT" << std::endl;
      break;
    case ConvParam<CPU>::EXEC_GEMM_FLOAT:
      GemmConv<float, float>(param);
-      std::cout << "EXEC_GEMM_FLOAT" << std::endl;
      break;
    default:
      PADDLE_MOBILE_THROW_EXCEPTION("Invalid convolution execute mode %d",

--- a/src/operators/kernel/arm/dequantize_kernel.cpp
+++ b/src/operators/kernel/arm/dequantize_kernel.cpp
@@ -15,7 +15,6 @@ limitations under the License. */
 #ifdef DEQUANT_OP

 #include "operators/kernel/dequantize_kernel.h"
-#include <iostream>

 #if defined(__ARM_NEON__) || defined(__ARM_NEON)
 #include <arm_neon.h>

--- a/src/operators/kernel/arm/elementwise_add_kernel.cpp
+++ b/src/operators/kernel/arm/elementwise_add_kernel.cpp
@@ -15,7 +15,6 @@ limitations under the License. */
 #ifdef ELEMENTWISEADD_OP

 #include "operators/kernel/elementwise_add_kernel.h"
-#include <iostream>
 #include "operators/kernel/central-arm-func/elementwise_add_arm_func.h"

 namespace paddle_mobile {

--- a/src/operators/kernel/arm/quantize_kernel.cpp
+++ b/src/operators/kernel/arm/quantize_kernel.cpp
@@ -126,54 +126,6 @@ static float find_abs_max(const Tensor *input) {
  return max_abs;
 }

-#if 0
-static void quantize_round_to_zero(const Tensor *input, const float scale,
-                                   const std::vector<int> &paddings,
-                                   const int8_t padding_val, Tensor *output) {
-  const float *x = input->data<const float>();
-  int8_t *y = output->mutable_data<int8_t>();
-  size_t size = input->numel();
-#if defined(__ARM_NEON__) || defined(__ARM_NEON)
-  size_t loop = size >> 4;
-  size_t remain = size & 0xF;
-
-#pragma omp parallel for
-  for (size_t i = 0; i < loop; ++i) {
-    const float *local_x = x + (i << 4);
-    int8_t *local_y = y + (i << 4);
-    float32x4_t r0 = vld1q_f32(local_x);
-    float32x4_t r1 = vld1q_f32(local_x + 4);
-    float32x4_t r2 = vld1q_f32(local_x + 8);
-    float32x4_t r3 = vld1q_f32(local_x + 12);
-    r0 = vmulq_n_f32(r0, scale);
-    r1 = vmulq_n_f32(r1, scale);
-    r2 = vmulq_n_f32(r2, scale);
-    r3 = vmulq_n_f32(r3, scale);
-    int32x4_t q0 = vrnd_towards_zero(r0);
-    int32x4_t q1 = vrnd_towards_zero(r1);
-    int32x4_t q2 = vrnd_towards_zero(r2);
-    int32x4_t q3 = vrnd_towards_zero(r3);
-    int16x4_t d0 = vmovn_s32(q0);
-    int16x4_t d1 = vmovn_s32(q1);
-    int16x4_t d2 = vmovn_s32(q2);
-    int16x4_t d3 = vmovn_s32(q3);
-    int16x8_t q5 = vcombine_s16(d0, d1);
-    int16x8_t q6 = vcombine_s16(d2, d3);
-    int8x8_t d5 = vmovn_s16(q5);
-    int8x8_t d6 = vmovn_s16(q6);
-    vst1_s8(local_y, d5);
-    vst1_s8(local_y + 8, d6);
-  }
-  size = remain;
-  x += (loop << 4);
-  y += (loop << 4);
-#endif
-  for (size_t i = 0; i < size; ++i) {
-    y[i] = static_cast<int8_t>(x[i] * scale);
-  }
-}
-#endif
-
 #ifdef __aarch64__
 static void quantize_round_to_even(const Tensor *input, const float scale,
                                   Tensor *output) {
@@ -330,7 +282,7 @@ static void quantize_round_to_nearest(const Tensor *input, const float scale,
                                      const std::vector<int> &paddings,
                                      const int8_t padding_val,
                                      Tensor *output) {}
-#if 1
+
 static void quantize_round_to_zero(const Tensor *input, const float scale,
                                   const std::vector<int> &paddings,
                                   const int8_t padding_val, Tensor *output) {
@@ -347,6 +299,7 @@ static void quantize_round_to_zero(const Tensor *input, const float scale,
  int start = paddings[0] * output_w + paddings[1];

  for (int batch = 0; batch < input->dims()[0]; ++batch) {
+    #pragma omp parallel for
    for (int c = 0; c < channels - 3; c += 4) {
      const float *input0 = x + (batch * channels + c) * input_spatial_size;
      const float *input1 = input0 + input_spatial_size;
@@ -819,7 +772,6 @@ static void quantize_round_to_zero(const Tensor *input, const float scale,
    }
  }
 }
-#endif
 #endif  // __aarch64__
 #endif  // ARM_NEON


--- a/src/operators/kernel/central-arm-func/conv_arm_func.h
+++ b/src/operators/kernel/central-arm-func/conv_arm_func.h
@@ -98,7 +98,6 @@ inline void GemmConv(const ConvParam<CPU> &param) {
               std::vector<int>{paddings[0], paddings[1], paddings[0],
                                paddings[1]},
               &col);
-
      } else if (data_dim == 3U) {
        // vol2col
        vol2col(in_slice, dilations, strides, paddings, &col);
@@ -176,25 +175,25 @@ inline void DepthwiseConv3x3(const ConvParam<CPU> &param) {
  for (int i = 0; i < batch_size; i++) {
    Tensor in_batch = input->Slice(i, i + 1);
    Tensor out_batch = output->Slice(i, i + 1);
-    //    if (paddings[0] || paddings[1]) {
-    //      framework::DDim pad_shape = in_batch.dims();
-    //      pad_shape[2] += 2 * paddings[0];
-    //      pad_shape[3] += 2 * paddings[1];
-    //      input_pad.mutable_data<float>(pad_shape);
-    //      pad(in_batch, paddings[0], paddings[0], paddings[1], paddings[1],
-    //          &input_pad);
-    //    } else {
-    //      input_pad = in_batch;
-    //    }
-    //    math::DepthwiseConv3x3s1<Itype, Otype>(input_pad, *filter,
-    //    &out_batch);
+    if (paddings[0] || paddings[1]) {
+      framework::DDim pad_shape = in_batch.dims();
+      pad_shape[2] += 2 * paddings[0];
+      pad_shape[3] += 2 * paddings[1];
+      input_pad.mutable_data<float>(pad_shape);
+      pad(in_batch, paddings[0], paddings[0], paddings[1], paddings[1],
+          &input_pad);
+    } else {
+      input_pad = in_batch;
+    }
    if (strides[0] == 1) {
-      math::DepthwiseConv3x3s1<Itype, Otype>(in_batch, *filter, &out_batch);
+      math::DepthwiseConv3x3s1<Itype, Otype>(input_pad, *filter, &out_batch);
    } else if (strides[0] == 2) {
-      math::DepthwiseConv3x3s2<Itype, Otype>(in_batch, *filter, &out_batch);
+      math::DepthwiseConv3x3s2<Itype, Otype>(input_pad, *filter, &out_batch);
    } else {
-      //      math::DepthwiseConv3x3<Itype, Otype>(in_batch, *filter,
+      // math::DepthwiseConv3x3<Itype, Otype>(input_pad, *filter,
      // &out_batch);
+      PADDLE_MOBILE_THROW_EXCEPTION(
+          "Depthwise conv with generic strides has not been implemented.");
    }
  }
 }

--- a/src/operators/math/depthwise_conv3x3.h
+++ b/src/operators/math/depthwise_conv3x3.h
@@ -65,6 +65,7 @@ void DepthwiseConv3x3s2p0(const framework::Tensor *input,
                          framework::Tensor *output, framework::Tensor bias,
                          bool if_bias);

+// TODO(hjchen2) need to be implemented
 // template<typename Itype, typename Otype>
 // void DepthwiseConv3x3(const framework::Tensor *input,
 //                      const framework::Tensor *filter,

--- a/src/operators/math/depthwise_conv3x3_int8.cpp
+++ b/src/operators/math/depthwise_conv3x3_int8.cpp
@@ -50,8 +50,8 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
    const int8_t* input_ptr = input_data + g * image_size;
    const int8_t* filter_ptr = filter_data + g * 9;
    int32_t* output_ptr = out_data + g * out_image_size;
-    int loop = (input_w - 2) / 6;
-    int remain = input_w - 2 - loop * 6;
+    int loops = (input_w - 2) / 6;
+    int remain = input_w - 2 - loops * 6;
    for (int h = 0; h < input_h - 5 /*(input_h - 2) - 3*/; h += 4) {
      const int8_t* input_ptr0 = input_ptr + h * input_w;
      const int8_t* input_ptr1 = input_ptr0 + input_w;
@@ -63,6 +63,7 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
      int32_t* output_ptr1 = output_ptr0 + output_w;
      int32_t* output_ptr2 = output_ptr1 + output_w;
      int32_t* output_ptr3 = output_ptr2 + output_w;
+      int loop = loops;
      asm volatile(
          "vld1.32    {q0}, [%[filter_ptr]] \n"
          "vmovl.s8   q14, d0               \n"
@@ -381,10 +382,11 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
            [output_ptr2] "+r"(output_ptr2), [output_ptr3] "+r"(output_ptr3),
            [input_ptr0] "+r"(input_ptr0), [input_ptr1] "+r"(input_ptr1),
            [input_ptr2] "+r"(input_ptr2), [input_ptr3] "+r"(input_ptr3),
-            [input_ptr4] "+r"(input_ptr4), [input_ptr5] "+r"(input_ptr5)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "q12", "q13", "q14", "q15", "r0");
+            [input_ptr4] "+r"(input_ptr4), [input_ptr5] "+r"(input_ptr5),
+            [loop] "+r"(loop)
+          : [remain] "r"(remain)
+          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+            "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15", "r0");
    }
    // remain height
    int start_h = (input_h - 2) & 0xFFFC;
@@ -395,6 +397,7 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
      const int8_t* input_ptr3 = input_ptr2 + input_w;
      int32_t* output_ptr0 = output_ptr + h * output_w;
      int32_t* output_ptr1 = output_ptr0 + output_w;
+      int loop = loops;
      asm volatile(
          "vld1.32    {q0}, [%[filter_ptr]] \n"
          "vmovl.s8   q14, d0               \n"
@@ -589,10 +592,11 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
          "end_%=:                                \n"
          : [output_ptr0] "+r"(output_ptr0), [output_ptr1] "+r"(output_ptr1),
            [input_ptr0] "+r"(input_ptr0), [input_ptr1] "+r"(input_ptr1),
-            [input_ptr2] "+r"(input_ptr2), [input_ptr3] "+r"(input_ptr3)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "q12", "q13", "r0");
+            [input_ptr2] "+r"(input_ptr2), [input_ptr3] "+r"(input_ptr3),
+            [loop] "+r"(loop)
+          : [remain] "r"(remain)
+          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+            "q8", "q9", "q10", "q11", "q12", "q13", "r0");
    }

    start_h = (input_h - 2) & 0xFFFE;
@@ -601,6 +605,7 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
      const int8_t* input_ptr1 = input_ptr0 + input_w;
      const int8_t* input_ptr2 = input_ptr1 + input_w;
      int32_t* output_ptr0 = output_ptr + start_h * output_w;
+      int loop = loops;
      asm volatile(
          "vld1.32    {q0}, [%[filter_ptr]] \n"
          "vmovl.s8   q14, d0               \n"
@@ -616,7 +621,7 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
          "vdup.s16   d8, d30[0]            \n"
          :
          : [filter_ptr] "r"(filter_ptr)
-          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
+          : "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
      asm volatile(
          "mov        r0, #6                \n"
          "cmp        %[loop], #0           \n"
@@ -733,10 +738,11 @@ void DepthwiseConv3x3s1<int8_t, int32_t>(const framework::Tensor &input,
          "vst1.32    {d20[0]}, [%[output_ptr0]]! \n"
          "end_%=:                                \n"
          : [output_ptr0] "+r"(output_ptr0), [input_ptr0] "+r"(input_ptr0),
-            [input_ptr1] "+r"(input_ptr1), [input_ptr2] "+r"(input_ptr2)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "r0");
+            [input_ptr1] "+r"(input_ptr1), [input_ptr2] "+r"(input_ptr2),
+            [loop] "+r"(loop)
+          : [remain] "r"(remain)
+          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+            "q8", "q9", "q10", "q11", "r0");
    }
  }
 #endif  // __aarch64__
@@ -766,19 +772,20 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
    const int8_t* input_ptr = input_data + g * image_size;
    const int8_t* filter_ptr = filter_data + g * 9;
    int32_t* output_ptr = out_data + g * out_image_size;
-    int loop = (input_w - 2) / 6;
-    int remain = input_w - 2 - loop * 6;
-    for (int h = 0; h < input_h - 5 /*(input_h - 2) - 3*/; h += 4) {
+    int loops = output_w / 6;
+    int remain = output_w - loops * 6;
+    for (int h = 0; h < input_h - 6 /*(input_h - 1) - 5*/; h += 6) {
      const int8_t* input_ptr0 = input_ptr + h * input_w;
      const int8_t* input_ptr1 = input_ptr0 + input_w;
      const int8_t* input_ptr2 = input_ptr1 + input_w;
      const int8_t* input_ptr3 = input_ptr2 + input_w;
      const int8_t* input_ptr4 = input_ptr3 + input_w;
      const int8_t* input_ptr5 = input_ptr4 + input_w;
-      int32_t* output_ptr0 = output_ptr + h * output_w;
+      const int8_t* input_ptr6 = input_ptr5 + input_w;
+      int32_t* output_ptr0 = output_ptr + (h >> 1) * output_w;
      int32_t* output_ptr1 = output_ptr0 + output_w;
      int32_t* output_ptr2 = output_ptr1 + output_w;
-      int32_t* output_ptr3 = output_ptr2 + output_w;
+      int loop = loops;
      asm volatile(
          "vld1.32    {q0}, [%[filter_ptr]] \n"
          "vmovl.s8   q14, d0               \n"
@@ -794,167 +801,141 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vdup.s16   d8, d30[0]            \n"
          :
          : [filter_ptr] "r"(filter_ptr)
-          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
+          : "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
      asm volatile(
-          "mov        r0, #6                \n"
+          "mov        r0, #12               \n"
          "cmp        %[loop], #0           \n"
          "ble        start_remain_%=       \n"
          // loop 6 widths
-          "loop_4h6w_%=:                          \n"
-          "vld1.32    {d9}, [%[input_ptr0]], r0   \n"
-          "vld1.32    {d10}, [%[input_ptr1]], r0  \n"
-          "vld1.32    {d11}, [%[input_ptr2]], r0  \n"
-          "vext.s8    d12, d9, d9, #1       \n"
-          "vext.s8    d13, d9, d9, #2       \n"
-          "vmovl.s8   q7, d9                \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmull.s16  q10, d14, d0          \n"
-          "vmlal.s16  q10, d16, d1          \n"
-          "vmlal.s16  q10, d18, d2          \n"
-          "vmull.s16  q11, d15, d0          \n"
-          "vmlal.s16  q11, d17, d1          \n"
-          "vmlal.s16  q11, d19, d2          \n"
-
-          "vext.s8    d12, d10, d10, #1     \n"
-          "vext.s8    d13, d10, d10, #2     \n"
-          "vmovl.s8   q7, d10               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d3          \n"
-          "vmlal.s16  q10, d16, d4          \n"
-          "vmlal.s16  q10, d18, d5          \n"
-          "vmlal.s16  q11, d15, d3          \n"
-          "vmlal.s16  q11, d17, d4          \n"
-          "vmlal.s16  q11, d19, d5          \n"
-
-          "vmull.s16  q12, d14, d0          \n"
-          "vmlal.s16  q12, d16, d1          \n"
-          "vmlal.s16  q12, d18, d2          \n"
-          "vmull.s16  q13, d15, d0          \n"
-          "vmlal.s16  q13, d17, d1          \n"
-          "vmlal.s16  q13, d19, d2          \n"
-
-          "vext.s8    d12, d11, d11, #1     \n"
-          "vext.s8    d13, d11, d11, #2     \n"
-          "vmovl.s8   q7, d11               \n"
+          "loop_3h6w_%=:                               \n"
+          "vld2.8     {d10, d11}, [%[input_ptr0]], r0  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr1]], r0  \n"
+          "vld2.8     {d14, d15}, [%[input_ptr2]], r0  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d10               \n"
+          "vmovl.s8   q9, d11               \n"
+          "vmull.s16  q11, d16, d0          \n"
+          "vmlal.s16  q11, d18, d1          \n"
+          "vmlal.s16  q11, d20, d2          \n"
+          "vmull.s16  q12, d17, d0          \n"
+          "vmlal.s16  q12, d19, d1          \n"
+          "vmlal.s16  q12, d21, d2          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q10, d9               \n"
          "vmovl.s8   q8, d12               \n"
          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d6          \n"
-          "vmlal.s16  q10, d16, d7          \n"
-          "vmlal.s16  q10, d18, d8          \n"
-          "vmlal.s16  q11, d15, d6          \n"
-          "vmlal.s16  q11, d17, d7          \n"
-          "vmlal.s16  q11, d19, d8          \n"
-          // store row 0, reuse q10/q11
-          "vst1.32    {d20-d22}, [%[output_ptr0]]! \n"
-
-          "vmlal.s16  q12, d14, d3          \n"
-          "vmlal.s16  q12, d16, d4          \n"
-          "vmlal.s16  q12, d18, d5          \n"
-          "vmlal.s16  q13, d15, d3          \n"
-          "vmlal.s16  q13, d17, d4          \n"
-          "vmlal.s16  q13, d19, d5          \n"
-
-          "vmull.s16  q14, d14, d0          \n"
-          "vmlal.s16  q14, d16, d1          \n"
-          "vmlal.s16  q14, d18, d2          \n"
-          "vmull.s16  q15, d15, d0          \n"
-          "vmlal.s16  q15, d17, d1          \n"
-          "vmlal.s16  q15, d19, d2          \n"
-
-          "vld1.32    {d9}, [%[input_ptr3]], r0    \n"
-          "vld1.32    {d10}, [%[input_ptr4]], r0   \n"
-          "vld1.32    {d11}, [%[input_ptr5]], r0   \n"
-          "vext.s8    d12, d9, d9, #1       \n"
-          "vext.s8    d13, d9, d9, #2       \n"
-          "vmovl.s8   q7, d9                \n"
+          "vmlal.s16  q11, d16, d3          \n"
+          "vmlal.s16  q11, d18, d4          \n"
+          "vmlal.s16  q11, d20, d5          \n"
+          "vmlal.s16  q12, d17, d3          \n"
+          "vmlal.s16  q12, d19, d4          \n"
+          "vmlal.s16  q12, d21, d5          \n"
+
+          "vext.s8    d9, d14, d14, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d14               \n"
+          "vmovl.s8   q9, d15               \n"
+          "vmlal.s16  q11, d16, d6          \n"
+          "vmlal.s16  q11, d18, d7          \n"
+          "vmlal.s16  q11, d20, d8          \n"
+          "vmlal.s16  q12, d17, d6          \n"
+          "vmlal.s16  q12, d19, d7          \n"
+          "vmlal.s16  q12, d21, d8          \n"
+          // store row 0, reuse q11/q12
+          "vst1.32    {d22-d24}, [%[output_ptr0]]! \n"
+
+          "vmull.s16  q13, d16, d0          \n"
+          "vmlal.s16  q13, d18, d1          \n"
+          "vmlal.s16  q13, d20, d2          \n"
+          "vmull.s16  q14, d17, d0          \n"
+          "vmlal.s16  q14, d19, d1          \n"
+          "vmlal.s16  q14, d21, d2          \n"
+
+          "vld2.8     {d10, d11}, [%[input_ptr3]], r0  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr4]], r0  \n"
+          "vld2.8     {d14, d15}, [%[input_ptr5]], r0  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d10               \n"
+          "vmovl.s8   q9, d11               \n"
+          "vmlal.s16  q13, d16, d3          \n"
+          "vmlal.s16  q13, d18, d4          \n"
+          "vmlal.s16  q13, d20, d5          \n"
+          "vmlal.s16  q14, d17, d3          \n"
+          "vmlal.s16  q14, d19, d4          \n"
+          "vmlal.s16  q14, d21, d5          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q10, d9               \n"
          "vmovl.s8   q8, d12               \n"
          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q12, d14, d6          \n"
-          "vmlal.s16  q12, d16, d7          \n"
-          "vmlal.s16  q12, d18, d8          \n"
-          "vmlal.s16  q13, d15, d6          \n"
-          "vmlal.s16  q13, d17, d7          \n"
-          "vmlal.s16  q13, d19, d8          \n"
+          "vmlal.s16  q13, d16, d6          \n"
+          "vmlal.s16  q13, d18, d7          \n"
+          "vmlal.s16  q13, d20, d8          \n"
+          "vmlal.s16  q14, d17, d6          \n"
+          "vmlal.s16  q14, d19, d7          \n"
+          "vmlal.s16  q14, d21, d8          \n"
          // store row 1
-          "vst1.32    {d24-d26}, [%[output_ptr1]]! \n"
-
-          "vmlal.s16  q14, d14, d3          \n"
-          "vmlal.s16  q14, d16, d4          \n"
-          "vmlal.s16  q14, d18, d5          \n"
-          "vmlal.s16  q15, d15, d3          \n"
-          "vmlal.s16  q15, d17, d4          \n"
-          "vmlal.s16  q15, d19, d5          \n"
-
-          "vmull.s16  q10, d14, d0          \n"
-          "vmlal.s16  q10, d16, d1          \n"
-          "vmlal.s16  q10, d18, d2          \n"
-          "vmull.s16  q11, d15, d0          \n"
-          "vmlal.s16  q11, d17, d1          \n"
-          "vmlal.s16  q11, d19, d2          \n"
-
-          "vext.s8    d12, d10, d10, #1     \n"
-          "vext.s8    d13, d10, d10, #2     \n"
-          "vmovl.s8   q7, d10               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q14, d14, d6          \n"
-          "vmlal.s16  q14, d16, d7          \n"
-          "vmlal.s16  q14, d18, d8          \n"
-          "vmlal.s16  q15, d15, d6          \n"
-          "vmlal.s16  q15, d17, d7          \n"
-          "vmlal.s16  q15, d19, d8          \n"
+          "vst1.32    {d26-d28}, [%[output_ptr1]]! \n"
+
+          "vmull.s16  q11, d16, d0          \n"
+          "vmlal.s16  q11, d18, d1          \n"
+          "vmlal.s16  q11, d20, d2          \n"
+          "vmull.s16  q12, d17, d0          \n"
+          "vmlal.s16  q12, d19, d1          \n"
+          "vmlal.s16  q12, d21, d2          \n"
+
+          "vext.s8    d9, d14, d14, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d14               \n"
+          "vmovl.s8   q9, d15               \n"
+          "vmlal.s16  q11, d16, d3          \n"
+          "vmlal.s16  q11, d18, d4          \n"
+          "vmlal.s16  q11, d20, d5          \n"
+          "vmlal.s16  q12, d17, d3          \n"
+          "vmlal.s16  q12, d19, d4          \n"
+          "vmlal.s16  q12, d21, d5          \n"
+
+          "vld2.8     {d10, d11}, [%[input_ptr6]], r0  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d10               \n"
+          "vmovl.s8   q9, d11               \n"
+          "vmlal.s16  q11, d16, d6          \n"
+          "vmlal.s16  q11, d18, d7          \n"
+          "vmlal.s16  q11, d20, d8          \n"
+          "vmlal.s16  q12, d17, d6          \n"
+          "vmlal.s16  q12, d19, d7          \n"
+          "vmlal.s16  q12, d21, d8          \n"
          // store row 2
-          "vst1.32    {d28-d30}, [%[output_ptr2]]! \n"
-
-          "vmlal.s16  q10, d14, d3          \n"
-          "vmlal.s16  q10, d16, d4          \n"
-          "vmlal.s16  q10, d18, d5          \n"
-          "vmlal.s16  q11, d15, d3          \n"
-          "vmlal.s16  q11, d17, d4          \n"
-          "vmlal.s16  q11, d19, d5          \n"
-
-          "vext.s8    d12, d11, d11, #1     \n"
-          "vext.s8    d13, d11, d11, #2     \n"
-          "vmovl.s8   q7, d11               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d6          \n"
-          "vmlal.s16  q10, d16, d7          \n"
-          "vmlal.s16  q10, d18, d8          \n"
-          "vmlal.s16  q11, d15, d6          \n"
-          "vmlal.s16  q11, d17, d7          \n"
-          "vmlal.s16  q11, d19, d8          \n"
-          // store row 3
-          "vst1.32    {d20-d22}, [%[output_ptr3]]! \n"
+          "vst1.32    {d22-d24}, [%[output_ptr2]]! \n"

          "subs       %[loop], #1           \n"
-          "bne        loop_4h6w_%=          \n"
+          "bne        loop_3h6w_%=          \n"

          "start_remain_%=:                 \n"
          "cmp        %[remain], #0         \n"
          "ble        end_%=                \n"

-          "vld1.32    {d9}, [%[input_ptr0]] \n"
-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
+          "vld2.8     {d10, d11}, [%[input_ptr0]]  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr1]]  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d10               \n"
+          "vmovl.s8   q8, d11               \n"
          "vmull.s16  q10, d14, d0          \n"
          "vmlal.s16  q10, d16, d1          \n"
          "vmlal.s16  q10, d18, d2          \n"
-          "vld1.32    {d9}, [%[input_ptr1]] \n"
          "vmull.s16  q11, d15, d0          \n"
          "vmlal.s16  q11, d17, d1          \n"
          "vmlal.s16  q11, d19, d2          \n"

-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
+          "vext.s8    d9, d12, d12, #1      \n"
          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d12               \n"
+          "vmovl.s8   q8, d13               \n"
          "vmlal.s16  q10, d14, d3          \n"
          "vmlal.s16  q10, d16, d4          \n"
          "vmlal.s16  q10, d18, d5          \n"
@@ -962,19 +943,12 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q11, d17, d4          \n"
          "vmlal.s16  q11, d19, d5          \n"

-          "vmull.s16  q12, d14, d0          \n"
-          "vmlal.s16  q12, d16, d1          \n"
-          "vmlal.s16  q12, d18, d2          \n"
-          "vld1.32    {d9}, [%[input_ptr2]] \n"
-          "vmull.s16  q13, d15, d0          \n"
-          "vmlal.s16  q13, d17, d1          \n"
-          "vmlal.s16  q13, d19, d2          \n"
-
-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
+          "vld2.8     {d10, d11}, [%[input_ptr2]]  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr3]]  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d10               \n"
+          "vmovl.s8   q8, d11               \n"
          "vmlal.s16  q10, d14, d6          \n"
          "vmlal.s16  q10, d16, d7          \n"
          "vmlal.s16  q10, d18, d8          \n"
@@ -982,6 +956,17 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q11, d17, d7          \n"
          "vmlal.s16  q11, d19, d8          \n"

+          "vmull.s16  q12, d14, d0          \n"
+          "vmlal.s16  q12, d16, d1          \n"
+          "vmlal.s16  q12, d18, d2          \n"
+          "vmull.s16  q13, d15, d0          \n"
+          "vmlal.s16  q13, d17, d1          \n"
+          "vmlal.s16  q13, d19, d2          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d12               \n"
+          "vmovl.s8   q8, d13               \n"
          "vmlal.s16  q12, d14, d3          \n"
          "vmlal.s16  q12, d16, d4          \n"
          "vmlal.s16  q12, d18, d5          \n"
@@ -989,19 +974,12 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q13, d17, d4          \n"
          "vmlal.s16  q13, d19, d5          \n"

-          "vmull.s16  q14, d14, d0          \n"
-          "vmlal.s16  q14, d16, d1          \n"
-          "vmlal.s16  q14, d18, d2          \n"
-          "vld1.32    {d9}, [%[input_ptr3]] \n"
-          "vmull.s16  q15, d15, d0          \n"
-          "vmlal.s16  q15, d17, d1          \n"
-          "vmlal.s16  q15, d19, d2          \n"
-
-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
+          "vld2.8     {d10, d11}, [%[input_ptr4]]  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr5]]  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d10               \n"
+          "vmovl.s8   q8, d11               \n"
          "vmlal.s16  q12, d14, d6          \n"
          "vmlal.s16  q12, d16, d7          \n"
          "vmlal.s16  q12, d18, d8          \n"
@@ -1009,6 +987,17 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q13, d17, d7          \n"
          "vmlal.s16  q13, d19, d8          \n"

+          "vmull.s16  q14, d14, d0          \n"
+          "vmlal.s16  q14, d16, d1          \n"
+          "vmlal.s16  q14, d18, d2          \n"
+          "vmull.s16  q15, d15, d0          \n"
+          "vmlal.s16  q15, d17, d1          \n"
+          "vmlal.s16  q15, d19, d2          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d12               \n"
+          "vmovl.s8   q8, d13               \n"
          "vmlal.s16  q14, d14, d3          \n"
          "vmlal.s16  q14, d16, d4          \n"
          "vmlal.s16  q14, d18, d5          \n"
@@ -1016,19 +1005,11 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q15, d17, d4          \n"
          "vmlal.s16  q15, d19, d5          \n"

-          "vmull.s16  q5, d14, d0           \n"
-          "vmlal.s16  q5, d16, d1           \n"
-          "vmlal.s16  q5, d18, d2           \n"
-          "vld1.32    {d9}, [%[input_ptr4]] \n"
-          "vmull.s16  q6, d15, d0           \n"
-          "vmlal.s16  q6, d17, d1           \n"
-          "vmlal.s16  q6, d19, d2           \n"
-
-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
+          "vld2.8     {d10, d11}, [%[input_ptr6]]  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
          "vmovl.s8   q9, d9                \n"
+          "vmovl.s8   q7, d10               \n"
+          "vmovl.s8   q8, d11               \n"
          "vmlal.s16  q14, d14, d6          \n"
          "vmlal.s16  q14, d16, d7          \n"
          "vmlal.s16  q14, d18, d8          \n"
@@ -1036,81 +1017,56 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vmlal.s16  q15, d17, d7          \n"
          "vmlal.s16  q15, d19, d8          \n"

-          "vmlal.s16  q5, d14, d3           \n"
-          "vmlal.s16  q5, d16, d4           \n"
-          "vmlal.s16  q5, d18, d5           \n"
-          "vld1.32    {d9}, [%[input_ptr5]] \n"
-          "vmlal.s16  q6, d15, d3           \n"
-          "vmlal.s16  q6, d17, d4           \n"
-          "vmlal.s16  q6, d19, d5           \n"
-
-          "vmovl.s8   q7, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q8, d9                \n"
-          "vext.s8    d9, d9, d9, #1        \n"
-          "vmovl.s8   q9, d9                \n"
-          "vmlal.s16  q5, d14, d6           \n"
-          "vmlal.s16  q5, d16, d7           \n"
-          "vmlal.s16  q5, d18, d8           \n"
-          "vmlal.s16  q6, d15, d6           \n"
-          "vmlal.s16  q6, d17, d7           \n"
-          "vmlal.s16  q6, d19, d8           \n"
-
          "cmp        %[remain], #4               \n"
-          "blt        store_4h2w_%=               \n"
+          "blt        store_3h2w_%=               \n"
          "vst1.32    {q10}, [%[output_ptr0]]!    \n"
          "vst1.32    {q12}, [%[output_ptr1]]!    \n"
          "vst1.32    {q14}, [%[output_ptr2]]!    \n"
-          "vst1.32    {q5}, [%[output_ptr3]]!     \n"
          "cmp        %[remain], #5               \n"
          "blt        end_%=                      \n"
          "vst1.32    {d22[0]}, [%[output_ptr0]]! \n"
          "vst1.32    {d26[0]}, [%[output_ptr1]]! \n"
          "vst1.32    {d30[0]}, [%[output_ptr2]]! \n"
-          "vst1.32    {d12[0]}, [%[output_ptr3]]! \n"
          "b          end_%=                      \n"

-          "store_4h2w_%=:                         \n"
+          "store_3h2w_%=:                         \n"
          "cmp        %[remain], #2               \n"
-          "blt        store_4h1w_%=               \n"
+          "blt        store_3h1w_%=               \n"
          "vst1.32    {d20}, [%[output_ptr0]]!    \n"
          "vst1.32    {d24}, [%[output_ptr1]]!    \n"
          "vst1.32    {d28}, [%[output_ptr2]]!    \n"
-          "vst1.32    {d10}, [%[output_ptr3]]!    \n"
          "cmp        %[remain], #3               \n"
          "blt        end_%=                      \n"
          "vst1.32    {d21[0]}, [%[output_ptr0]]! \n"
          "vst1.32    {d25[0]}, [%[output_ptr1]]! \n"
          "vst1.32    {d29[0]}, [%[output_ptr2]]! \n"
-          "vst1.32    {d11[0]}, [%[output_ptr3]]! \n"
          "b          end_%=                      \n"

-          "store_4h1w_%=:                         \n"
+          "store_3h1w_%=:                         \n"
          "cmp        %[remain], #1               \n"
          "blt        end_%=                      \n"
          "vst1.32    {d20[0]}, [%[output_ptr0]]! \n"
          "vst1.32    {d24[0]}, [%[output_ptr1]]! \n"
          "vst1.32    {d28[0]}, [%[output_ptr2]]! \n"
-          "vst1.32    {d10[0]}, [%[output_ptr3]]! \n"
          "end_%=:                                \n"
          : [output_ptr0] "+r"(output_ptr0), [output_ptr1] "+r"(output_ptr1),
-            [output_ptr2] "+r"(output_ptr2), [output_ptr3] "+r"(output_ptr3),
+            [output_ptr2] "+r"(output_ptr2), [input_ptr6] "+r"(input_ptr6),
            [input_ptr0] "+r"(input_ptr0), [input_ptr1] "+r"(input_ptr1),
            [input_ptr2] "+r"(input_ptr2), [input_ptr3] "+r"(input_ptr3),
-            [input_ptr4] "+r"(input_ptr4), [input_ptr5] "+r"(input_ptr5)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "q12", "q13", "q14", "q15", "r0");
+            [input_ptr4] "+r"(input_ptr4), [input_ptr5] "+r"(input_ptr5),
+            [loop] "+r"(loop)
+          : [remain] "r"(remain)
+          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+            "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15", "r0");
    }
-    // remain height
-    int start_h = (input_h - 2) & 0xFFFC;
-    for (int h = start_h; h < input_h - 3 /*(input_h - 2) - 1*/; h += 2) {
+
+    int start_h = (output_h / 3) * 6;
+    for (int h = start_h; h < input_h - 2 /*(input_h - 1) - 1*/; h += 2) {
      const int8_t* input_ptr0 = input_ptr + h * input_w;
      const int8_t* input_ptr1 = input_ptr0 + input_w;
      const int8_t* input_ptr2 = input_ptr1 + input_w;
-      const int8_t* input_ptr3 = input_ptr2 + input_w;
-      int32_t* output_ptr0 = output_ptr + h * output_w;
-      int32_t* output_ptr1 = output_ptr0 + output_w;
+      int32_t* output_ptr0 = output_ptr + (h >> 1) * output_w;
+      int loop = loops;
      asm volatile(
          "vld1.32    {q0}, [%[filter_ptr]] \n"
          "vmovl.s8   q14, d0               \n"
@@ -1126,259 +1082,50 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "vdup.s16   d8, d30[0]            \n"
          :
          : [filter_ptr] "r"(filter_ptr)
-          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
+          : "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
      asm volatile(
-          "mov        r0, #6                \n"
+          "mov        r0, #12               \n"
          "cmp        %[loop], #0           \n"
          "ble        start_remain_%=       \n"
          // loop 6 widths
-          "loop_2h6w_%=:                          \n"
-          "vld1.32    {d9}, [%[input_ptr0]], r0   \n"
-          "vld1.32    {d10}, [%[input_ptr1]], r0  \n"
-          "vld1.32    {d11}, [%[input_ptr2]], r0  \n"
-          "vext.s8    d12, d9, d9, #1       \n"
-          "vext.s8    d13, d9, d9, #2       \n"
-          "vmovl.s8   q7, d9                \n"
+          "loop_1h6w_%=:                               \n"
+          "vld2.8     {d10, d11}, [%[input_ptr0]], r0  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr1]], r0  \n"
+          "vld2.8     {d14, d15}, [%[input_ptr2]], r0  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d10               \n"
+          "vmovl.s8   q9, d11               \n"
+          "vmull.s16  q11, d16, d0          \n"
+          "vmlal.s16  q11, d18, d1          \n"
+          "vmlal.s16  q11, d20, d2          \n"
+          "vmull.s16  q12, d17, d0          \n"
+          "vmlal.s16  q12, d19, d1          \n"
+          "vmlal.s16  q12, d21, d2          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q10, d9               \n"
          "vmovl.s8   q8, d12               \n"
          "vmovl.s8   q9, d13               \n"
-          "vmull.s16  q10, d14, d0          \n"
-          "vmlal.s16  q10, d16, d1          \n"
-          "vmlal.s16  q10, d18, d2          \n"
-          "vmull.s16  q11, d15, d0          \n"
-          "vmlal.s16  q11, d17, d1          \n"
-          "vmlal.s16  q11, d19, d2          \n"
-
-          "vext.s8    d12, d10, d10, #1     \n"
-          "vext.s8    d13, d10, d10, #2     \n"
-          "vmovl.s8   q7, d10               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d3          \n"
-          "vmlal.s16  q10, d16, d4          \n"
-          "vmlal.s16  q10, d18, d5          \n"
-          "vmlal.s16  q11, d15, d3          \n"
-          "vmlal.s16  q11, d17, d4          \n"
-          "vmlal.s16  q11, d19, d5          \n"
-
-          "vmull.s16  q12, d14, d0          \n"
-          "vmlal.s16  q12, d16, d1          \n"
-          "vmlal.s16  q12, d18, d2          \n"
-          "vmull.s16  q13, d15, d0          \n"
-          "vmlal.s16  q13, d17, d1          \n"
-          "vmlal.s16  q13, d19, d2          \n"
-
-          "vext.s8    d12, d11, d11, #1     \n"
-          "vext.s8    d13, d11, d11, #2     \n"
-          "vmovl.s8   q7, d11               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d6          \n"
-          "vmlal.s16  q10, d16, d7          \n"
-          "vmlal.s16  q10, d18, d8          \n"
-          "vmlal.s16  q11, d15, d6          \n"
-          "vmlal.s16  q11, d17, d7          \n"
-          "vmlal.s16  q11, d19, d8          \n"
-          // store row 0, reuse q10/q11
-          "vst1.32    {d20-d22}, [%[output_ptr0]]! \n"
-
-          "vmlal.s16  q12, d14, d3          \n"
-          "vmlal.s16  q12, d16, d4          \n"
-          "vmlal.s16  q12, d18, d5          \n"
-          "vmlal.s16  q13, d15, d3          \n"
-          "vmlal.s16  q13, d17, d4          \n"
-          "vmlal.s16  q13, d19, d5          \n"
-
-          "vld1.32    {d9}, [%[input_ptr3]], r0    \n"
-          "vext.s8    d12, d9, d9, #1       \n"
-          "vext.s8    d13, d9, d9, #2       \n"
-          "vmovl.s8   q7, d9                \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q12, d14, d6          \n"
-          "vmlal.s16  q12, d16, d7          \n"
-          "vmlal.s16  q12, d18, d8          \n"
-          "vmlal.s16  q13, d15, d6          \n"
-          "vmlal.s16  q13, d17, d7          \n"
-          "vmlal.s16  q13, d19, d8          \n"
-          // store row 1
-          "vst1.32    {d24-d26}, [%[output_ptr1]]! \n"
-
-          "subs       %[loop], #1            \n"
-          "bne        loop_2h6w_%=           \n"
-
-          "start_remain_%=:                  \n"
-          "cmp %[remain], #0                 \n"
-          "ble end_%=                        \n"
-
-          "vld1.32    {d9}, [%[input_ptr0]]  \n"
-          "vld1.32    {d10}, [%[input_ptr1]] \n"
-          "vld1.32    {d11}, [%[input_ptr2]] \n"
-          "vext.s8    d12, d9, d9, #1        \n"
-          "vext.s8    d13, d9, d9, #2        \n"
-          "vmovl.s8   q7, d9                 \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmull.s16  q10, d14, d0           \n"
-          "vmlal.s16  q10, d16, d1           \n"
-          "vmlal.s16  q10, d18, d2           \n"
-          "vmull.s16  q11, d15, d0           \n"
-          "vmlal.s16  q11, d17, d1           \n"
-          "vmlal.s16  q11, d19, d2           \n"
-
-          "vext.s8    d12, d10, d10, #1      \n"
-          "vext.s8    d13, d10, d10, #2      \n"
-          "vmovl.s8   q7, d10                \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmlal.s16  q10, d14, d3           \n"
-          "vmlal.s16  q10, d16, d4           \n"
-          "vmlal.s16  q10, d18, d5           \n"
-          "vmlal.s16  q11, d15, d3           \n"
-          "vmlal.s16  q11, d17, d4           \n"
-          "vmlal.s16  q11, d19, d5           \n"
-
-          "vmull.s16  q12, d14, d0           \n"
-          "vmlal.s16  q12, d16, d1           \n"
-          "vmlal.s16  q12, d18, d2           \n"
-          "vmull.s16  q13, d15, d0           \n"
-          "vmlal.s16  q13, d17, d1           \n"
-          "vmlal.s16  q13, d19, d2           \n"
-
-          "vext.s8    d12, d11, d11, #1      \n"
-          "vext.s8    d13, d11, d11, #2      \n"
-          "vmovl.s8   q7, d11                \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmlal.s16  q10, d14, d6           \n"
-          "vmlal.s16  q10, d16, d7           \n"
-          "vmlal.s16  q10, d18, d8           \n"
-          "vmlal.s16  q11, d15, d6           \n"
-          "vmlal.s16  q11, d17, d7           \n"
-          "vmlal.s16  q11, d19, d8           \n"
-
-          "vmlal.s16  q12, d14, d3           \n"
-          "vmlal.s16  q12, d16, d4           \n"
-          "vmlal.s16  q12, d18, d5           \n"
-          "vmlal.s16  q13, d15, d3           \n"
-          "vmlal.s16  q13, d17, d4           \n"
-          "vmlal.s16  q13, d19, d5           \n"
-
-          "vld1.32    {d9}, [%[input_ptr3]]  \n"
-          "vext.s8    d12, d9, d9, #1        \n"
-          "vext.s8    d13, d9, d9, #2        \n"
-          "vmovl.s8   q7, d9                 \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmlal.s16  q12, d14, d6           \n"
-          "vmlal.s16  q12, d16, d7           \n"
-          "vmlal.s16  q12, d18, d8           \n"
-          "vmlal.s16  q13, d15, d6           \n"
-          "vmlal.s16  q13, d17, d7           \n"
-          "vmlal.s16  q13, d19, d8           \n"
-
-          "cmp        %[remain], #4               \n"
-          "blt        store_2h2w_%=               \n"
-          "vst1.32    {q10}, [%[output_ptr0]]!    \n"
-          "vst1.32    {q12}, [%[output_ptr1]]!    \n"
-          "cmp        %[remain], #5               \n"
-          "blt        end_%=                      \n"
-          "vst1.32    {d22[0]}, [%[output_ptr0]]! \n"
-          "vst1.32    {d26[0]}, [%[output_ptr1]]! \n"
-          "b          end_%=                      \n"
-
-          "store_2h2w_%=:                         \n"
-          "cmp        %[remain], #2               \n"
-          "blt        store_2h1w_%=               \n"
-          "vst1.32    {d20}, [%[output_ptr0]]!    \n"
-          "vst1.32    {d24}, [%[output_ptr1]]!    \n"
-          "cmp        %[remain], #3               \n"
-          "blt        end_%=                      \n"
-          "vst1.32    {d21[0]}, [%[output_ptr0]]! \n"
-          "vst1.32    {d25[0]}, [%[output_ptr1]]! \n"
-          "b          end_%=                      \n"
-
-          "store_2h1w_%=:                         \n"
-          "cmp        %[remain], #1               \n"
-          "blt        end_%=                      \n"
-          "vst1.32    {d20[0]}, [%[output_ptr0]]! \n"
-          "vst1.32    {d24[0]}, [%[output_ptr1]]! \n"
-          "end_%=:                                \n"
-          : [output_ptr0] "+r"(output_ptr0), [output_ptr1] "+r"(output_ptr1),
-            [input_ptr0] "+r"(input_ptr0), [input_ptr1] "+r"(input_ptr1),
-            [input_ptr2] "+r"(input_ptr2), [input_ptr3] "+r"(input_ptr3)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "q12", "q13", "r0");
-    }
-
-    start_h = (input_h - 2) & 0xFFFE;
-    if (start_h < input_h - 2) {
-      const int8_t* input_ptr0 = input_ptr + start_h * input_w;
-      const int8_t* input_ptr1 = input_ptr0 + input_w;
-      const int8_t* input_ptr2 = input_ptr1 + input_w;
-      int32_t* output_ptr0 = output_ptr + start_h * output_w;
-      asm volatile(
-          "vld1.32    {q0}, [%[filter_ptr]] \n"
-          "vmovl.s8   q14, d0               \n"
-          "vmovl.s8   q15, d1               \n"
-          "vdup.s16   d0, d28[0]            \n"
-          "vdup.s16   d1, d28[1]            \n"
-          "vdup.s16   d2, d28[2]            \n"
-          "vdup.s16   d3, d28[3]            \n"
-          "vdup.s16   d4, d29[0]            \n"
-          "vdup.s16   d5, d29[1]            \n"
-          "vdup.s16   d6, d29[2]            \n"
-          "vdup.s16   d7, d29[3]            \n"
-          "vdup.s16   d8, d30[0]            \n"
-          :
-          : [filter_ptr] "r"(filter_ptr)
-          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q14", "q15");
-      asm volatile(
-          "mov        r0, #6                \n"
-          "cmp        %[loop], #0           \n"
-          "ble        start_remain_%=       \n"
-          // loop 6 widths
-          "loop_1h6w_%=:                          \n"
-          "vld1.32    {d9}, [%[input_ptr0]], r0   \n"
-          "vld1.32    {d10}, [%[input_ptr1]], r0  \n"
-          "vld1.32    {d11}, [%[input_ptr2]], r0  \n"
-          "vext.s8    d12, d9, d9, #1       \n"
-          "vext.s8    d13, d9, d9, #2       \n"
-          "vmovl.s8   q7, d9                \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmull.s16  q10, d14, d0          \n"
-          "vmlal.s16  q10, d16, d1          \n"
-          "vmlal.s16  q10, d18, d2          \n"
-          "vmull.s16  q11, d15, d0          \n"
-          "vmlal.s16  q11, d17, d1          \n"
-          "vmlal.s16  q11, d19, d2          \n"
-
-          "vext.s8    d12, d10, d10, #1     \n"
-          "vext.s8    d13, d10, d10, #2     \n"
-          "vmovl.s8   q7, d10               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d3          \n"
-          "vmlal.s16  q10, d16, d4          \n"
-          "vmlal.s16  q10, d18, d5          \n"
-          "vmlal.s16  q11, d15, d3          \n"
-          "vmlal.s16  q11, d17, d4          \n"
-          "vmlal.s16  q11, d19, d5          \n"
-
-          "vext.s8    d12, d11, d11, #1     \n"
-          "vext.s8    d13, d11, d11, #2     \n"
-          "vmovl.s8   q7, d11               \n"
-          "vmovl.s8   q8, d12               \n"
-          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d6          \n"
-          "vmlal.s16  q10, d16, d7          \n"
-          "vmlal.s16  q10, d18, d8          \n"
-          "vmlal.s16  q11, d15, d6          \n"
-          "vmlal.s16  q11, d17, d7          \n"
-          "vmlal.s16  q11, d19, d8          \n"
-          // store row 0, reuse q10/q11
-          "vst1.32    {d20-d22}, [%[output_ptr0]]! \n"
+          "vmlal.s16  q11, d16, d3          \n"
+          "vmlal.s16  q11, d18, d4          \n"
+          "vmlal.s16  q11, d20, d5          \n"
+          "vmlal.s16  q12, d17, d3          \n"
+          "vmlal.s16  q12, d19, d4          \n"
+          "vmlal.s16  q12, d21, d5          \n"
+
+          "vext.s8    d9, d14, d14, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d14               \n"
+          "vmovl.s8   q9, d15               \n"
+          "vmlal.s16  q11, d16, d6          \n"
+          "vmlal.s16  q11, d18, d7          \n"
+          "vmlal.s16  q11, d20, d8          \n"
+          "vmlal.s16  q12, d17, d6          \n"
+          "vmlal.s16  q12, d19, d7          \n"
+          "vmlal.s16  q12, d21, d8          \n"
+          // store row 0
+          "vst1.32    {d22-d24}, [%[output_ptr0]]! \n"

          "subs       %[loop], #1           \n"
          "bne        loop_1h6w_%=          \n"
@@ -1386,73 +1133,70 @@ void DepthwiseConv3x3s2<int8_t, int32_t>(const framework::Tensor &input,
          "start_remain_%=:                 \n"
          "cmp        %[remain], #0         \n"
          "ble        end_%=                \n"
-
-          "vld1.32    {d9}, [%[input_ptr0]]  \n"
-          "vld1.32    {d10}, [%[input_ptr1]] \n"
-          "vld1.32    {d11}, [%[input_ptr2]] \n"
-          "vext.s8    d12, d9, d9, #1        \n"
-          "vext.s8    d13, d9, d9, #2        \n"
-          "vmovl.s8   q7, d9                 \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmull.s16  q10, d14, d0           \n"
-          "vmlal.s16  q10, d16, d1           \n"
-          "vmlal.s16  q10, d18, d2           \n"
-          "vmull.s16  q11, d15, d0           \n"
-          "vmlal.s16  q11, d17, d1           \n"
-          "vmlal.s16  q11, d19, d2           \n"
-
-          "vext.s8    d12, d10, d10, #1      \n"
-          "vext.s8    d13, d10, d10, #2      \n"
-          "vmovl.s8   q7, d10                \n"
+          "vld2.8     {d10, d11}, [%[input_ptr0]]  \n"
+          "vld2.8     {d12, d13}, [%[input_ptr1]]  \n"
+          "vld2.8     {d14, d15}, [%[input_ptr2]]  \n"
+          "vext.s8    d9, d10, d10, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d10               \n"
+          "vmovl.s8   q9, d11               \n"
+          "vmull.s16  q11, d16, d0          \n"
+          "vmlal.s16  q11, d18, d1          \n"
+          "vmlal.s16  q11, d20, d2          \n"
+          "vmull.s16  q12, d17, d0          \n"
+          "vmlal.s16  q12, d19, d1          \n"
+          "vmlal.s16  q12, d21, d2          \n"
+
+          "vext.s8    d9, d12, d12, #1      \n"
+          "vmovl.s8   q10, d9               \n"
          "vmovl.s8   q8, d12               \n"
          "vmovl.s8   q9, d13               \n"
-          "vmlal.s16  q10, d14, d3           \n"
-          "vmlal.s16  q10, d16, d4           \n"
-          "vmlal.s16  q10, d18, d5           \n"
-          "vmlal.s16  q11, d15, d3           \n"
-          "vmlal.s16  q11, d17, d4           \n"
-          "vmlal.s16  q11, d19, d5           \n"
-
-          "vext.s8    d12, d11, d11, #1      \n"
-          "vext.s8    d13, d11, d11, #2      \n"
-          "vmovl.s8   q7, d11                \n"
-          "vmovl.s8   q8, d12                \n"
-          "vmovl.s8   q9, d13                \n"
-          "vmlal.s16  q10, d14, d6           \n"
-          "vmlal.s16  q10, d16, d7           \n"
-          "vmlal.s16  q10, d18, d8           \n"
-          "vmlal.s16  q11, d15, d6           \n"
-          "vmlal.s16  q11, d17, d7           \n"
-          "vmlal.s16  q11, d19, d8           \n"
+          "vmlal.s16  q11, d16, d3          \n"
+          "vmlal.s16  q11, d18, d4          \n"
+          "vmlal.s16  q11, d20, d5          \n"
+          "vmlal.s16  q12, d17, d3          \n"
+          "vmlal.s16  q12, d19, d4          \n"
+          "vmlal.s16  q12, d21, d5          \n"
+
+          "vext.s8    d9, d14, d14, #1      \n"
+          "vmovl.s8   q10, d9               \n"
+          "vmovl.s8   q8, d14               \n"
+          "vmovl.s8   q9, d15               \n"
+          "vmlal.s16  q11, d16, d6          \n"
+          "vmlal.s16  q11, d18, d7          \n"
+          "vmlal.s16  q11, d20, d8          \n"
+          "vmlal.s16  q12, d17, d6          \n"
+          "vmlal.s16  q12, d19, d7          \n"
+          "vmlal.s16  q12, d21, d8          \n"

          "cmp        %[remain], #4               \n"
          "blt        store_1h2w_%=               \n"
-          "vst1.32    {q10}, [%[output_ptr0]]!    \n"
+          "vst1.32    {q11}, [%[output_ptr0]]!    \n"
          "cmp        %[remain], #5               \n"
          "blt        end_%=                      \n"
-          "vst1.32    {d22[0]}, [%[output_ptr0]]! \n"
+          "vst1.32    {d24[0]}, [%[output_ptr0]]! \n"
          "b          end_%=                      \n"

          "store_1h2w_%=:                         \n"
          "cmp        %[remain], #2               \n"
          "blt        store_1h1w_%=               \n"
-          "vst1.32    {d20}, [%[output_ptr0]]!    \n"
+          "vst1.32    {d22}, [%[output_ptr0]]!    \n"
          "cmp        %[remain], #3               \n"
          "blt        end_%=                      \n"
-          "vst1.32    {d21[0]}, [%[output_ptr0]]! \n"
+          "vst1.32    {d23[0]}, [%[output_ptr0]]! \n"
          "b          end_%=                      \n"

          "store_1h1w_%=:                         \n"
          "cmp        %[remain], #1               \n"
          "blt        end_%=                      \n"
-          "vst1.32    {d20[0]}, [%[output_ptr0]]! \n"
+          "vst1.32    {d22[0]}, [%[output_ptr0]]! \n"
          "end_%=:                                \n"
          : [output_ptr0] "+r"(output_ptr0), [input_ptr0] "+r"(input_ptr0),
-            [input_ptr1] "+r"(input_ptr1), [input_ptr2] "+r"(input_ptr2)
-          : [loop] "r"(loop), [remain] "r"(remain)
-          : "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
-            "q9", "q10", "q11", "r0");
+            [input_ptr1] "+r"(input_ptr1), [input_ptr2] "+r"(input_ptr2),
+            [loop] "+r"(loop)
+          : [remain] "r"(remain)
+          : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
+            "q8", "q9", "q10", "q11", "q12", "r0");
    }
  }
 #endif  // __aarch64__

--- a/src/operators/op_param.h
+++ b/src/operators/op_param.h
@@ -2564,26 +2564,5 @@ class DequantizeParam : public OpParam {
 };
 #endif

-#ifdef PAD_OP
-template <typename Dtype>
-class PadParam : public OpParam {
-  typedef typename DtypeTensorTrait<Dtype>::gtype GType;
-  typedef typename DtypeTensorTrait<Dtype>::rtype RType;
-
- public:
-  input_ = InputXFrom<GType>(inputs, scope);
-  output_ = OutFrom<GType>(outputs, scope);
-  paddings_ = GetVarValue<std::vector<int>>("Paddings", inputs, scope);
-
- public:
-  // op input
-  RType *input_;
-  // op output
-  RType *output_;
-  // paddings
-  std::vector<int> paddings_;
-};
-#endif
-
 }  // namespace operators
 }  // namespace paddle_mobile
--- a/src/operators/quantize_op.cpp
+++ b/src/operators/quantize_op.cpp
@@ -22,11 +22,7 @@ namespace operators {

 template <typename DeviceType, typename T>
 void QuantizeOp<DeviceType, T>::InferShape() const {
-  auto input_dims = this->param_.input_->dims();
-  //  const auto &paddings = this->param_.paddings_;
-  std::vector<int> paddings = {0, 0};
-  input_dims[2] += 2 * paddings[0];
-  input_dims[3] += 2 * paddings[1];
+  const auto &input_dims = this->param_.input_->dims();
  this->param_.output_->Resize(input_dims);
  auto scale_dims = framework::make_ddim(std::vector<int>{1});
  this->param_.online_scale_->Resize(scale_dims);

--- a/tools/build.sh
+++ b/tools/build.sh
@@ -69,7 +69,6 @@ build_for_android() {
        -DANDROID_ABI="${ABI}" \
        -DCMAKE_BUILD_TYPE="${MODE}" \
        -DCMAKE_TOOLCHAIN_FILE="${TOOLCHAIN_FILE}" \
-        -DANDROID_TOOLCHAIN='clang' \
        -DANDROID_PLATFORM="${ANDROID_PLATFORM_VERSION}" \
        -DCMAKE_CXX_FLAGS="${CXX_FLAGS}" \
        -DANDROID_STL=c++_static \
@@ -83,7 +82,6 @@ build_for_android() {
        -DANDROID_ABI="${ABI}" \
        -DCMAKE_BUILD_TYPE="${MODE}" \
        -DCMAKE_TOOLCHAIN_FILE="${TOOLCHAIN_FILE}" \
-        -DANDROID_TOOLCHAIN='clang' \
        -DANDROID_PLATFORM="${ANDROID_PLATFORM_VERSION}" \
        -DCMAKE_CXX_FLAGS="${CXX_FLAGS}" \
        -DANDROID_STL=c++_static \