fxi foormat test=develop

ff8c95d8 · chenjiaoAngel · 7b282a0a · ff8c95d8 · ff8c95d8 · ff8c95d8
4 changed file
--- a/lite/backends/arm/math/conv3x3s1p01_depthwise_fp32.cc
+++ b/lite/backends/arm/math/conv3x3s1p01_depthwise_fp32.cc
@@ -2631,7 +2631,7 @@ void conv_depthwise_3x3s1p1_bias_leakyRelu(float *dout,
        int cnt = cnt_col;
        asm volatile(INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_LEAKY_RELU
                         MID_COMPUTE_S1 MID_RESULT_S1_LEAKY_RELU RIGHT_COMPUTE_S1
-                         RIGHT_RESULT_S1_LEAKY_RELU
+                             RIGHT_RESULT_S1_LEAKY_RELU
                     : [cnt] "+r"(cnt),
                       [din_ptr0] "+r"(din_ptr0),
                       [din_ptr1] "+r"(din_ptr1),
@@ -2729,7 +2729,7 @@ void conv_depthwise_3x3s1p1_bias_leakyRelu(float *dout,
        unsigned int *vmask_ptr = vmask;
        asm volatile(INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_LEAKY_RELU
                         MID_COMPUTE_S1 MID_RESULT_S1_LEAKY_RELU RIGHT_COMPUTE_S1
-                         RIGHT_RESULT_S1_LEAKY_RELU
+                             RIGHT_RESULT_S1_LEAKY_RELU
                     : [dout_ptr1] "+r"(doutr0),
                       [dout_ptr2] "+r"(doutr1),
                       [din0_ptr] "+r"(din_ptr0),

--- a/lite/backends/arm/math/conv3x3s1p01_depthwise_fp32_relu.cc
+++ b/lite/backends/arm/math/conv3x3s1p01_depthwise_fp32_relu.cc
@@ -1376,34 +1376,34 @@ namespace math {
                       [doutr1] "+r"(doutr1),
                       [doutr2] "+r"(doutr2),
                       [doutr3] "+r"(doutr3)
-                    : [w0] "w"(wr0),
-                      [w1] "w"(wr1),
-                      [w2] "w"(wr2),
-                      [bias_val] "r"(vbias),
-                      [vmask] "r"(vmask),
-                      [rmask] "r"(rmask),
-                      [vzero] "w"(vzero)
-                    : "cc",
-                      "memory",
-                      "v0",
-                      "v1",
-                      "v2",
-                      "v3",
-                      "v4",
-                      "v5",
-                      "v6",
-                      "v7",
-                      "v8",
-                      "v9",
-                      "v10",
-                      "v11",
-                      "v12",
-                      "v13",
-                      "v14",
-                      "v15",
-                      "v16",
-                      "v17",
-                      "v18",
+                     : [w0] "w"(wr0),
+                       [w1] "w"(wr1),
+                       [w2] "w"(wr2),
+                       [bias_val] "r"(vbias),
+                       [vmask] "r"(vmask),
+                       [rmask] "r"(rmask),
+                       [vzero] "w"(vzero)
+                     : "cc",
+                       "memory",
+                       "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16",
+                       "v17",
+                       "v18",
                       "v19",
                       "v20",
                       "v21",
@@ -1658,54 +1658,55 @@ void conv_depthwise_3x3s1p1_bias_relu(float *dout,
        }

        int cnt = cnt_col;
-        asm volatile(INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_RELU MID_COMPUTE_S1
-                         MID_RESULT_S1_RELU RIGHT_COMPUTE_S1 RIGHT_RESULT_S1_RELU
-                     : [cnt] "+r"(cnt),
-                       [din_ptr0] "+r"(din_ptr0),
-                       [din_ptr1] "+r"(din_ptr1),
-                       [din_ptr2] "+r"(din_ptr2),
-                       [din_ptr3] "+r"(din_ptr3),
-                       [din_ptr4] "+r"(din_ptr4),
-                       [din_ptr5] "+r"(din_ptr5),
-                       [doutr0] "+r"(doutr0),
-                       [doutr1] "+r"(doutr1),
-                       [doutr2] "+r"(doutr2),
-                       [doutr3] "+r"(doutr3)
-                    : [w0] "w"(wr0),
-                      [w1] "w"(wr1),
-                      [w2] "w"(wr2),
-                      [bias_val] "r"(vbias),
-                      [vmask] "r"(vmask),
-                      [rmask] "r"(rmask),
-                      [vzero] "w"(vzero)
-                    : "cc",
-                      "memory",
-                      "v0",
-                      "v1",
-                      "v2",
-                      "v3",
-                      "v4",
-                      "v5",
-                      "v6",
-                      "v7",
-                      "v8",
-                      "v9",
-                      "v10",
-                      "v11",
-                      "v12",
-                      "v13",
-                      "v14",
-                      "v15",
-                      "v16",
-                      "v17",
-                      "v18",
-                       "v19",
-                       "v20",
-                       "v21",
-                       "v22",
-                       "v23",
-                       "v24",
-                       "v25");
+        asm volatile(
+            INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_RELU MID_COMPUTE_S1
+                MID_RESULT_S1_RELU RIGHT_COMPUTE_S1 RIGHT_RESULT_S1_RELU
+            : [cnt] "+r"(cnt),
+              [din_ptr0] "+r"(din_ptr0),
+              [din_ptr1] "+r"(din_ptr1),
+              [din_ptr2] "+r"(din_ptr2),
+              [din_ptr3] "+r"(din_ptr3),
+              [din_ptr4] "+r"(din_ptr4),
+              [din_ptr5] "+r"(din_ptr5),
+              [doutr0] "+r"(doutr0),
+              [doutr1] "+r"(doutr1),
+              [doutr2] "+r"(doutr2)，
+              [doutr3] "+r"(doutr3)
+            : [w0] "w"(wr0),
+              [w1] "w"(wr1),
+              [w2] "w"(wr2),
+              [bias_val] "r"(vbias),
+              [vmask] "r"(vmask),
+              [rmask] "r"(rmask),
+              [vzero] "w"(vzero)
+            : "cc",
+              "memory",
+              "v0",
+              "v1",
+              "v2",
+              "v3",
+              "v4",
+              "v5",
+              "v6",
+              "v7",
+              "v8",
+              "v9",
+              "v10",
+              "v11",
+              "v12",
+              "v13",
+              "v14",
+              "v15",
+              "v16",
+              "v17",
+              "v18",
+              "v19",
+              "v20",
+              "v21",
+              "v22",
+              "v23",
+              "v24",
+              "v25");
        dout_ptr = dout_ptr + 4 * w_out;
      }
 #else
@@ -1755,36 +1756,37 @@ void conv_depthwise_3x3s1p1_bias_relu(float *dout,
        int cnt = cnt_col;
        unsigned int *rmask_ptr = rmask;
        unsigned int *vmask_ptr = vmask;
-        asm volatile(INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_RELU MID_COMPUTE_S1
-                         MID_RESULT_S1_RELU RIGHT_COMPUTE_S1 RIGHT_RESULT_S1_RELU
-                     : [dout_ptr1] "+r"(doutr0),
-                       [dout_ptr2] "+r"(doutr1),
-                       [din0_ptr] "+r"(din_ptr0),
-                       [din1_ptr] "+r"(din_ptr1),
-                       [din2_ptr] "+r"(din_ptr2),
-                       [din3_ptr] "+r"(din_ptr3),
-                       [cnt] "+r"(cnt),
-                       [rmask] "+r"(rmask_ptr),
-                       [vmask] "+r"(vmask_ptr)
-                     : [wr0] "w"(wr0),
-                       [wr1] "w"(wr1),
-                       [wr2] "w"(wr2),
-                       [bias_val] "r"(bias_val),
-                       [vzero] "w"(vzero)
-                     : "cc",
-                       "memory",
-                       "q4",
-                       "q5",
-                       "q6",
-                       "q7",
-                       "q8",
-                       "q9",
-                       "q10",
-                       "q11",
-                       "q12",
-                       "q13",
-                       "q14",
-                       "q15");
+        asm volatile（
+            INIT_S1 LEFT_COMPUTE_S1 LEFT_RESULT_S1_RELU MID_COMPUTE_S1
+                MID_RESULT_S1_RELU RIGHT_COMPUTE_S1 RIGHT_RESULT_S1_RELU
+            : [dout_ptr1] "+r"(doutr0),
+              [dout_ptr2] "+r"(doutr1),
+              [din0_ptr] "+r"(din_ptr0),
+              [din1_ptr] "+r"(din_ptr1),
+              [din2_ptr] "+r"(din_ptr2),
+              [din3_ptr] "+r"(din_ptr3),
+              [cnt] "+r"(cnt),
+              [rmask] "+r"(rmask_ptr),
+              [vmask] "+r"(vmask_ptr)
+            : [wr0] "w"(wr0),
+              [wr1] "w"(wr1),
+              [wr2] "w"(wr2),
+              [bias_val] "r"(bias_val),
+              [vzero] "w"(vzero)
+            : "cc",
+              "memory",
+              "q4",
+              "q5",
+              "q6",
+              "q7",
+              "q8",
+              "q9",
+              "q10",
+              "q11",
+              "q12",
+              "q13",
+              "q14",
+              "q15");
        dout_ptr += 2 * w_out;
      }  //! end of processing mid rows
 #endif
@@ -1874,58 +1876,58 @@ void conv_depthwise_3x3s1p1_bias_s_no_relu(float *dout,
                       [din1] "+r"(dr1),
                       [din2] "+r"(dr2),
                       [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [zero] "w"(vzero),
-                        [mask] "w"(vmask_rp),
-                        [bias] "w"(wbias),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "v0",
-                        "v1",
-                        "v2",
-                        "v3",
-                        "v4",
-                        "v5",
-                        "v6",
-                        "v7",
-                        "v8",
-                        "v9",
-                        "v10",
-                        "v11",
-                        "v12",
-                        "v13",
-                        "v14",
-                        "v15",
-                        "v16",
-                        "v17");
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [zero] "w"(vzero),
+                       [mask] "w"(vmask_rp),
+                       [bias] "w"(wbias),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16",
+                       "v17");
 #else
        asm volatile(COMPUTE_S_S1 RESULT_S_S1
                     : [din0] "+r"(dr0),
-                        [din1] "+r"(dr1),
-                        [din2] "+r"(dr2),
-                        [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [vzero] "w"(vzero),
-                        [mask] "w"(vmask_rp),
-                        [bias] "w"(wbias),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "cc",
-                        "memory",
-                        "q6",
-                        "q7",
-                        "q8",
-                        "q9",
-                        "q10",
-                        "q11",
-                        "q12",
-                        "q13",
-                        "q14",
-                        "q15");
+                       [din1] "+r"(dr1),
+                       [din2] "+r"(dr2),
+                       [din3] "+r"(dr3)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [vzero] "w"(vzero),
+                       [mask] "w"(vmask_rp),
+                       [bias] "w"(wbias),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "cc",
+                       "memory",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *doutr0++ = out_buf1[w];
@@ -2017,58 +2019,58 @@ void conv_depthwise_3x3s1p1_bias_s_relu(float *dout,
                       [din1] "+r"(dr1),
                       [din2] "+r"(dr2),
                       [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [zero] "w"(vzero),
-                        [mask] "w"(vmask_rp),
-                        [bias] "w"(wbias),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "v0",
-                        "v1",
-                        "v2",
-                        "v3",
-                        "v4",
-                        "v5",
-                        "v6",
-                        "v7",
-                        "v8",
-                        "v9",
-                        "v10",
-                        "v11",
-                        "v12",
-                        "v13",
-                        "v14",
-                        "v15",
-                        "v16",
-                        "v17");
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [zero] "w"(vzero),
+                       [mask] "w"(vmask_rp),
+                       [bias] "w"(wbias),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16",
+                       "v17");
 #else
        asm volatile(COMPUTE_S_S1 RESULT_S_S1_RELU
                     : [din0] "+r"(dr0),
-                        [din1] "+r"(dr1),
-                        [din2] "+r"(dr2),
-                        [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [vzero] "w"(vzero),
-                        [mask] "w"(vmask_rp),
-                        [bias] "w"(wbias),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "cc",
-                        "memory",
-                        "q6",
-                        "q7",
-                        "q8",
-                        "q9",
-                        "q10",
-                        "q11",
-                        "q12",
-                        "q13",
-                        "q14",
-                        "q15");
+                       [din1] "+r"(dr1),
+                       [din2] "+r"(dr2),
+                       [din3] "+r"(dr3)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [vzero] "w"(vzero),
+                       [mask] "w"(vmask_rp),
+                       [bias] "w"(wbias),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "cc",
+                       "memory",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *doutr0++ = out_buf1[w];
@@ -2237,7 +2239,8 @@ void conv_depthwise_3x3s1p0_bias_no_relu(float *dout,
            "ld1 {v11.4s}, [%[din_ptr5]]   \n"      /*vld1q_f32(din_ptr0)*/
            MID_COMPUTE_S1 MID_RESULT_S1
            "cmp  %w[remain], #1             \n"
-            "blt 0f                         \n" RIGHT_COMPUTE_S1 RIGHT_RESULT_S1 "0: \n"
+            "blt 0f                         \n" RIGHT_COMPUTE_S1 RIGHT_RESULT_S1
+            "0: \n"
            : [cnt] "+r"(cnt),
              [din_ptr0] "+r"(din_ptr0),
              [din_ptr1] "+r"(din_ptr1),
@@ -2334,34 +2337,34 @@ void conv_depthwise_3x3s1p0_bias_no_relu(float *dout,
                     "blt 0f                         \n" RIGHT_COMPUTE_S1 RIGHT_RESULT_S1
                     "0:                         \n"
                     : [dout_ptr1] "+r"(doutr0),
-                        [dout_ptr2] "+r"(doutr1),
-                        [din0_ptr] "+r"(din_ptr0),
-                        [din1_ptr] "+r"(din_ptr1),
-                        [din2_ptr] "+r"(din_ptr2),
-                        [din3_ptr] "+r"(din_ptr3),
-                        [cnt] "+r"(cnt),
-                        [rmask] "+r"(rmask_ptr),
-                        [vmask] "+r"(vmask_ptr)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [bias_val] "r"(bias_val),
-                        [vzero] "w"(vzero),
-                        [remain] "r"(remain)
-                      : "cc",
-                        "memory",
-                        "q4",
-                        "q5",
-                        "q6",
-                        "q7",
-                        "q8",
-                        "q9",
-                        "q10",
-                        "q11",
-                        "q12",
-                        "q13",
-                        "q14",
-                        "q15");
+                       [dout_ptr2] "+r"(doutr1),
+                       [din0_ptr] "+r"(din_ptr0),
+                       [din1_ptr] "+r"(din_ptr1),
+                       [din2_ptr] "+r"(din_ptr2),
+                       [din3_ptr] "+r"(din_ptr3),
+                       [cnt] "+r"(cnt),
+                       [rmask] "+r"(rmask_ptr),
+                       [vmask] "+r"(vmask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias_val] "r"(bias_val),
+                       [vzero] "w"(vzero),
+                       [remain] "r"(remain)
+                     : "cc",
+                       "memory",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
        dout_ptr += 2 * w_out;
      }  //! end of processing mid rows
 #endif
@@ -2618,34 +2621,34 @@ void conv_depthwise_3x3s1p0_bias_relu(float *dout,
                     "blt 0f                         \n" RIGHT_COMPUTE_S1
                         RIGHT_RESULT_S1_RELU "0:                         \n"
                     : [dout_ptr1] "+r"(doutr0),
-                        [dout_ptr2] "+r"(doutr1),
-                        [din0_ptr] "+r"(din_ptr0),
-                        [din1_ptr] "+r"(din_ptr1),
-                        [din2_ptr] "+r"(din_ptr2),
-                        [din3_ptr] "+r"(din_ptr3),
-                        [cnt] "+r"(cnt),
-                        [rmask] "+r"(rmask_ptr),
-                        [vmask] "+r"(vmask_ptr)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [bias_val] "r"(bias_val),
-                        [vzero] "w"(vzero),
-                        [remain] "r"(remain)
-                      : "cc",
-                        "memory",
-                        "q4",
-                        "q5",
-                        "q6",
-                        "q7",
-                        "q8",
-                        "q9",
-                        "q10",
-                        "q11",
-                        "q12",
-                        "q13",
-                        "q14",
-                        "q15");
+                       [dout_ptr2] "+r"(doutr1),
+                       [din0_ptr] "+r"(din_ptr0),
+                       [din1_ptr] "+r"(din_ptr1),
+                       [din2_ptr] "+r"(din_ptr2),
+                       [din3_ptr] "+r"(din_ptr3),
+                       [cnt] "+r"(cnt),
+                       [rmask] "+r"(rmask_ptr),
+                       [vmask] "+r"(vmask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias_val] "r"(bias_val),
+                       [vzero] "w"(vzero),
+                       [remain] "r"(remain)
+                     : "cc",
+                       "memory",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
        dout_ptr += 2 * w_out;
      }  //! end of processing mid rows
 #endif
@@ -2746,35 +2749,35 @@ void conv_depthwise_3x3s1p0_bias_s_no_relu(float *dout,
        asm volatile(COMPUTE_S_S1_P0 RESULT_S_S1
                     : [din0] "+r"(dr0),
                       [din1] "+r"(dr1),
-                        [din2] "+r"(dr2),
-                        [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [vbias] "w"(wbias),
-                        [mask1] "w"(vmask_rp1),
-                        [mask2] "w"(vmask_rp2),
-                        [zero] "w"(vzero),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "cc",
-                        "memory",
-                        "v0",
-                        "v1",
-                        "v2",
-                        "v3",
-                        "v4",
-                        "v5",
-                        "v6",
-                        "v7",
-                        "v8",
-                        "v9",
-                        "v10",
-                        "v11",
-                        "v12",
-                        "v13",
-                        "v14",
-                        "v15");
+                       [din2] "+r"(dr2),
+                       [din3] "+r"(dr3)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [vbias] "w"(wbias),
+                       [mask1] "w"(vmask_rp1),
+                       [mask2] "w"(vmask_rp2),
+                       [zero] "w"(vzero),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "cc",
+                       "memory",
+                       "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15");
 #else
        unsigned int *vmask_ptr = vmask;
        float bias_val = flag_bias ? bias[i] : 0.f;
@@ -2905,35 +2908,35 @@ void conv_depthwise_3x3s1p0_bias_s_relu(float *dout,
        asm volatile(COMPUTE_S_S1_P0 RESULT_S_S1_RELU
                     : [din0] "+r"(dr0),
                       [din1] "+r"(dr1),
-                        [din2] "+r"(dr2),
-                        [din3] "+r"(dr3)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [vbias] "w"(wbias),
-                        [mask1] "w"(vmask_rp1),
-                        [mask2] "w"(vmask_rp2),
-                        [zero] "w"(vzero),
-                        [out1] "r"(out_buf1),
-                        [out2] "r"(out_buf2)
-                      : "cc",
-                        "memory",
-                        "v0",
-                        "v1",
-                        "v2",
-                        "v3",
-                        "v4",
-                        "v5",
-                        "v6",
-                        "v7",
-                        "v8",
-                        "v9",
-                        "v10",
-                        "v11",
-                        "v12",
-                        "v13",
-                        "v14",
-                        "v15");
+                       [din2] "+r"(dr2),
+                       [din3] "+r"(dr3)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [vbias] "w"(wbias),
+                       [mask1] "w"(vmask_rp1),
+                       [mask2] "w"(vmask_rp2),
+                       [zero] "w"(vzero),
+                       [out1] "r"(out_buf1),
+                       [out2] "r"(out_buf2)
+                     : "cc",
+                       "memory",
+                       "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15");
 #else
        unsigned int *vmask_ptr = vmask;
        float bias_val = flag_bias ? bias[i] : 0.f;

--- a/lite/backends/arm/math/conv3x3s2p01_depthwise_fp32.cc
+++ b/lite/backends/arm/math/conv3x3s2p01_depthwise_fp32.cc
@@ -1747,53 +1747,52 @@ void conv_depthwise_3x3s2p1_bias_leakyRelu(float* dout,
          doutr1_ptr = write_ptr;
        }
        int cnt = cnt_col;
-        asm volatile(
-            INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2_LEAKY_RELU
-                MID_COMPUTE_S2 MID_RESULT_S2_LEAKY_RELU
-                    RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_LEAKY_RELU
-            : [inptr0] "+r"(din0_ptr),
-              [inptr1] "+r"(din1_ptr),
-              [inptr2] "+r"(din2_ptr),
-              [inptr3] "+r"(din3_ptr),
-              [inptr4] "+r"(din4_ptr),
-              [outptr0] "+r"(doutr0_ptr),
-              [outptr1] "+r"(doutr1_ptr),
-              [cnt] "+r"(cnt)
-            : [vzero] "w"(vzero),
-              [w0] "w"(wr0),
-              [w1] "w"(wr1),
-              [w2] "w"(wr2),
-              [remain] "r"(cnt_remain),
-              [scale_ptr] "r"(scale),
-              [mask1] "w"(vmask_rp1),
-              [mask2] "w"(vmask_rp2),
-              [wmask] "w"(wmask),
-              [vbias] "w"(wbias)
-            : "cc",
-              "memory",
-              "v0",
-              "v1",
-              "v2",
-              "v3",
-              "v4",
-              "v5",
-              "v6",
-              "v7",
-              "v8",
-              "v9",
-              "v10",
-              "v11",
-              "v12",
-              "v13",
-              "v14",
-              "v15",
-              "v16",
-              "v17",
-              "v18",
-              "v19",
-              "v20",
-              "v21",
-              "v22");
+        asm volatile(INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2_LEAKY_RELU
+                         MID_COMPUTE_S2 MID_RESULT_S2_LEAKY_RELU
+                             RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_LEAKY_RELU
+                     : [inptr0] "+r"(din0_ptr),
+                       [inptr1] "+r"(din1_ptr),
+                       [inptr2] "+r"(din2_ptr),
+                       [inptr3] "+r"(din3_ptr),
+                       [inptr4] "+r"(din4_ptr),
+                       [outptr0] "+r"(doutr0_ptr),
+                       [outptr1] "+r"(doutr1_ptr),
+                       [cnt] "+r"(cnt)
+                     : [vzero] "w"(vzero),
+                       [w0] "w"(wr0),
+                       [w1] "w"(wr1),
+                       [w2] "w"(wr2),
+                       [remain] "r"(cnt_remain),
+                       [scale_ptr] "r"(scale),
+                       [mask1] "w"(vmask_rp1),
+                       [mask2] "w"(vmask_rp2),
+                       [wmask] "w"(wmask),
+                       [vbias] "w"(wbias)
+                     : "cc",
+                       "memory",
+                       "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16",
+                       "v17",
+                       "v18",
+                       "v19",
+                       "v20",
+                       "v21",
+                       "v22");
        doutr0 = doutr0 + 2 * w_out;
      }
 #else
@@ -1830,36 +1829,36 @@ void conv_depthwise_3x3s2p1_bias_leakyRelu(float* dout,
        }
        int cnt = cnt_col;
        unsigned int* mask_ptr = dmask;
-	      asm volatile(
-            INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2_LEAKY_RELU MID_COMPUTE_S2
-                MID_RESULT_S2_LEAKY_RELU RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_LEAKY_RELU
-            : [din0_ptr] "+r"(din0_ptr),
-              [din1_ptr] "+r"(din1_ptr),
-              [din2_ptr] "+r"(din2_ptr),
-              [outptr] "+r"(doutr0_ptr),
-              [cnt] "+r"(cnt),
-              [mask_ptr] "+r"(mask_ptr)
-            : [remain] "r"(cnt_remain),
-              [wr0] "w"(wr0),
-              [wr1] "w"(wr1),
-              [wr2] "w"(wr2),
-              [scale_ptr] "r"(scale),
-              [bias] "r"(bias_c)
-            : "cc",
-              "memory",
-              "q3",
-              "q4",
-              "q5",
-              "q6",
-              "q7",
-              "q8",
-              "q9",
-              "q10",
-              "q11",
-              "q12",
-              "q13",
-              "q14",
-              "q15");
+	      asm volatile(INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2_LEAKY_RELU
+                         MID_COMPUTE_S2 MID_RESULT_S2_LEAKY_RELU
+                             RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_LEAKY_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [outptr] "+r"(doutr0_ptr),
+                       [cnt] "+r"(cnt),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [remain] "r"(cnt_remain),
+                       [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [scale_ptr] "r"(scale),
+                       [bias] "r"(bias_c)
+                     : "cc",
+                       "memory",
+                       "q3",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
        doutr0 = doutr0 + w_out;
      }
 #endif
@@ -2349,8 +2348,8 @@ void conv_depthwise_3x3s2p0_bias_relu6(float* dout,
        }
        int cnt = tile_w;
        unsigned int* mask_ptr = dmask;
-        asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2_RELU6
-                         RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_RELU6
+        asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2_RELU6 RIGHT_COMPUTE_S2
+                         RIGHT_RESULT_S2_RELU6
                     : [din0_ptr] "+r"(din0_ptr),
                       [din1_ptr] "+r"(din1_ptr),
                       [din2_ptr] "+r"(din2_ptr),

--- a/lite/backends/arm/math/conv3x3s2p01_depthwise_fp32_relu.cc
+++ b/lite/backends/arm/math/conv3x3s2p01_depthwise_fp32_relu.cc
@@ -917,10 +917,10 @@ void conv_depthwise_3x3s2p1_bias_relu(float* dout,
              [cnt] "+r"(cnt),
              [mask_ptr] "+r"(mask_ptr)
            : [remain] "r"(cnt_remain),
-                [wr0] "w"(wr0),
-                [wr1] "w"(wr1),
-                [wr2] "w"(wr2),
-                [bias] "r"(bias_c)
+              [wr0] "w"(wr0),
+              [wr1] "w"(wr1),
+              [wr2] "w"(wr2),
+              [bias] "r"(bias_c)
            : "cc",
              "memory",
              "q3",
@@ -931,7 +931,7 @@ void conv_depthwise_3x3s2p1_bias_relu(float* dout,
              "q8",
              "q9",
              "q10",
-             "q11",
+              "q11",
              "q12",
              "q13",
              "q14",
@@ -1080,50 +1080,49 @@ void conv_depthwise_3x3s2p1_bias_no_relu(float* dout,
          doutr1_ptr = write_ptr;
        }
        int cnt = cnt_col;
-        asm volatile(
-            INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2 MID_COMPUTE_S2
-                MID_RESULT_S2 RIGHT_COMPUTE_S2 RIGHT_RESULT_S2
-            : [inptr0] "+r"(din0_ptr),
-              [inptr1] "+r"(din1_ptr),
-              [inptr2] "+r"(din2_ptr),
-              [inptr3] "+r"(din3_ptr),
-              [inptr4] "+r"(din4_ptr),
-              [outptr0] "+r"(doutr0_ptr),
-              [outptr1] "+r"(doutr1_ptr),
-              [cnt] "+r"(cnt)
-            : [vzero] "w"(vzero),
-              [w0] "w"(wr0),
-              [w1] "w"(wr1),
-              [w2] "w"(wr2),
-              [remain] "r"(cnt_remain),
-              [mask1] "w"(vmask_rp1),
-              [mask2] "w"(vmask_rp2),
-              [wmask] "w"(wmask),
-              [vbias] "w"(wbias)
-            : "cc",
-              "memory",
-              "v0",
-              "v1",
-              "v2",
-              "v3",
-              "v4",
-              "v5",
-              "v6",
-              "v7",
-              "v8",
-              "v9",
-              "v10",
-              "v11",
-              "v12",
-              "v13",
-              "v14",
-              "v15",
-              "v16",
-              "v17",
-              "v18",
-              "v19",
-              "v20",
-              "v21");
+        asm volatile(INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2 MID_COMPUTE_S2
+                         MID_RESULT_S2 RIGHT_COMPUTE_S2 RIGHT_RESULT_S2
+                     : [inptr0] "+r"(din0_ptr),
+                       [inptr1] "+r"(din1_ptr),
+                       [inptr2] "+r"(din2_ptr),
+                       [inptr3] "+r"(din3_ptr),
+                       [inptr4] "+r"(din4_ptr),
+                       [outptr0] "+r"(doutr0_ptr),
+                       [outptr1] "+r"(doutr1_ptr),
+                       [cnt] "+r"(cnt)
+                     : [vzero] "w"(vzero),
+                       [w0] "w"(wr0),
+                       [w1] "w"(wr1),
+                       [w2] "w"(wr2),
+                       [remain] "r"(cnt_remain),
+                       [mask1] "w"(vmask_rp1),
+                       [mask2] "w"(vmask_rp2),
+                       [wmask] "w"(wmask),
+                       [vbias] "w"(wbias)
+                     : "cc",
+                       "memory",
+                       "v0",
+                       "v1",
+                       "v2",
+                       "v3",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16",
+                       "v17",
+                       "v18",
+                       "v19",
+                       "v20",
+                       "v21");
        doutr0 = doutr0 + 2 * w_out;
      }
 #else
@@ -1160,35 +1159,34 @@ void conv_depthwise_3x3s2p1_bias_no_relu(float* dout,
        }
        int cnt = cnt_col;
        unsigned int* mask_ptr = dmask;
-        asm volatile(
-            INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2 MID_COMPUTE_S2
-                MID_RESULT_S2 RIGHT_COMPUTE_S2 RIGHT_RESULT_S2
-            : [din0_ptr] "+r"(din0_ptr),
-              [din1_ptr] "+r"(din1_ptr),
-              [din2_ptr] "+r"(din2_ptr),
-              [outptr] "+r"(doutr0_ptr),
-              [cnt] "+r"(cnt),
-              [mask_ptr] "+r"(mask_ptr)
-            : [remain] "r"(cnt_remain),
-                [wr0] "w"(wr0),
-                [wr1] "w"(wr1),
-                [wr2] "w"(wr2),
-                [bias] "r"(bias_c)
-            : "cc",
-              "memory",
-              "q3",
-              "q4",
-              "q5",
-              "q6",
-              "q7",
-              "q8",
-              "q9",
-              "q10",
-             "q11",
-              "q12",
-              "q13",
-              "q14",
-              "q15");
+        asm volatile(INIT_S2 LEFT_COMPUTE_S2 LEFT_RESULT_S2 MID_COMPUTE_S2
+                         MID_RESULT_S2 RIGHT_COMPUTE_S2 RIGHT_RESULT_S2
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [outptr] "+r"(doutr0_ptr),
+                       [cnt] "+r"(cnt),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [remain] "r"(cnt_remain),
+                       [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c)
+                     : "cc",
+                       "memory",
+                       "q3",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
        doutr0 = doutr0 + w_out;
      }
 #endif
@@ -1266,54 +1264,54 @@ void conv_depthwise_3x3s2p1_bias_s_relu(float* dout,

        unsigned int* mask_ptr = dmask;
 #ifdef __aarch64__
-          asm volatile(COMPUTE_S_S2 RESULT_S_S2_RELU
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "w"(vbias),
-                         [out] "r"(out_buf)
-                       : "v4",
-                         "v5",
-                         "v6",
-                         "v7",
-                         "v8",
-                         "v9",
-                         "v10",
-                         "v11",
-                         "v12",
-                         "v13",
-                         "v14",
-                         "v15");
+        asm volatile(COMPUTE_S_S2 RESULT_S_S2_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "w"(vbias),
+                       [out] "r"(out_buf)
+                     : "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15");
 #else
-          asm volatile(COMPUTE_S_S2 RESULT_S_S2_RELU
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "r"(bias_c),
-                         [out] "r"(out_buf)
-                       : "cc",
-                         "memory",
-                         "q3",
-                         "q4",
-                         "q5",
-                         "q6",
-                         "q7",
-                         "q8",
-                         "q9",
-                         "q10",
-                         "q11",
-                         "q12",
-                         "q13",
-                         "q14",
-                         "q15");
+        asm volatile(COMPUTE_S_S2 RESULT_S_S2_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c),
+                       [out] "r"(out_buf)
+                     : "cc",
+                       "memory",
+                       "q3",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                        "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *dout_channel++ = out_buf[w];
@@ -1396,49 +1394,49 @@ void conv_depthwise_3x3s2p1_bias_s_no_relu(float* dout,
                       [din1_ptr] "+r"(din1_ptr),
                       [din2_ptr] "+r"(din2_ptr),
                       [mask_ptr] "+r"(mask_ptr)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [bias] "w"(vbias),
-                        [out] "r"(out_buf)
-                      : "v4",
-                        "v5",
-                        "v6",
-                        "v7",
-                        "v8",
-                        "v9",
-                        "v10",
-                        "v11",
-                        "v12",
-                        "v13",
-                        "v14",
-                        "v15");
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "w"(vbias),
+                       [out] "r"(out_buf)
+                     : "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15");
 #else
        asm volatile(COMPUTE_S_S2 RESULT_S_S2
                     : [din0_ptr] "+r"(din0_ptr),
-                        [din1_ptr] "+r"(din1_ptr),
-                        [din2_ptr] "+r"(din2_ptr),
-                        [mask_ptr] "+r"(mask_ptr)
-                      : [wr0] "w"(wr0),
-                        [wr1] "w"(wr1),
-                        [wr2] "w"(wr2),
-                        [bias] "r"(bias_c),
-                        [out] "r"(out_buf)
-                      : "cc",
-                        "memory",
-                        "q3",
-                        "q4",
-                        "q5",
-                        "q6",
-                        "q7",
-                        "q8",
-                        "q9",
-                        "q10",
-                        "q11",
-                        "q12",
-                        "q13",
-                        "q14",
-                        "q15");
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c),
+                       [out] "r"(out_buf)
+                     : "cc",
+                       "memory",
+                       "q3",
+                       "q4",
+                       "q5",
+                       "q6",
+                       "q7",
+                       "q8",
+                       "q9",
+                       "q10",
+                       "q11",
+                       "q12",
+                       "q13",
+                       "q14",
+                       "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *dout_channel++ = out_buf[w];
@@ -1584,60 +1582,60 @@ void conv_depthwise_3x3s2p0_bias_relu(float* dout,
          doutr1_ptr = write_ptr;
        }
        int cnt = tile_w;
-          asm volatile(
-              INIT_S2
-              "ld1 {v15.4s}, [%[inptr0]]                 \n"
-              "ld1 {v18.4s}, [%[inptr1]]                 \n"
-              "ld1 {v19.4s}, [%[inptr2]]                 \n"
-              "ld1 {v20.4s}, [%[inptr3]]                 \n"
-              "ld1 {v21.4s}, [%[inptr4]]                 \n"
-              "ext  v10.16b, v0.16b, v15.16b, #4     \n"  // v10 = {2,4,6,8}
-              MID_COMPUTE_S2 MID_RESULT_S2_RELU
-              "cmp %w[remain], #1                           \n"
-              "blt 4f                                     \n" RIGHT_COMPUTE_S2
-                  RIGHT_RESULT_S2_RELU
-              "4:                                          \n"
-              : [inptr0] "+r"(din0_ptr),
-                [inptr1] "+r"(din1_ptr),
-                [inptr2] "+r"(din2_ptr),
-                [inptr3] "+r"(din3_ptr),
-                [inptr4] "+r"(din4_ptr),
-                [outptr0] "+r"(doutr0_ptr),
-                [outptr1] "+r"(doutr1_ptr),
-                [cnt] "+r"(cnt)
-              : [vzero] "w"(vzero),
-                [w0] "w"(wr0),
-                [w1] "w"(wr1),
-                [w2] "w"(wr2),
-                [remain] "r"(cnt_remain),
-                [mask1] "w"(vmask_rp1),
-                [mask2] "w"(vmask_rp2),
-                [wmask] "w"(wmask),
-                [vbias] "w"(wbias)
-              : "cc",
-                "memory",
-                "v0",
-                "v1",
-                "v2",
-                "v3",
-                "v4",
-                "v5",
-                "v6",
-                "v7",
-                "v8",
-                "v9",
-                "v10",
-                "v11",
-                "v12",
-                "v13",
-                "v14",
-                "v15",
-                "v16",
-                "v17",
-                "v18",
-                "v19",
-                "v20",
-                "v21");
+        asm volatile(
+            INIT_S2
+            "ld1 {v15.4s}, [%[inptr0]]                 \n"
+            "ld1 {v18.4s}, [%[inptr1]]                 \n"
+            "ld1 {v19.4s}, [%[inptr2]]                 \n"
+            "ld1 {v20.4s}, [%[inptr3]]                 \n"
+            "ld1 {v21.4s}, [%[inptr4]]                 \n"
+            "ext  v10.16b, v0.16b, v15.16b, #4     \n"  // v10 = {2,4,6,8}
+            MID_COMPUTE_S2 MID_RESULT_S2_RELU
+            "cmp %w[remain], #1                           \n"
+            "blt 4f                                     \n" RIGHT_COMPUTE_S2
+                RIGHT_RESULT_S2_RELU
+            "4:                                          \n"
+            : [inptr0] "+r"(din0_ptr),
+              [inptr1] "+r"(din1_ptr),
+              [inptr2] "+r"(din2_ptr),
+              [inptr3] "+r"(din3_ptr),
+              [inptr4] "+r"(din4_ptr),
+              [outptr0] "+r"(doutr0_ptr),
+              [outptr1] "+r"(doutr1_ptr),
+              [cnt] "+r"(cnt)
+            : [vzero] "w"(vzero),
+              [w0] "w"(wr0),
+              [w1] "w"(wr1),
+              [w2] "w"(wr2),
+              [remain] "r"(cnt_remain),
+              [mask1] "w"(vmask_rp1),
+              [mask2] "w"(vmask_rp2),
+              [wmask] "w"(wmask),
+              [vbias] "w"(wbias)
+            : "cc",
+              "memory",
+              "v0",
+              "v1",
+              "v2",
+              "v3",
+              "v4",
+              "v5",
+              "v6",
+              "v7",
+              "v8",
+              "v9",
+              "v10",
+              "v11",
+              "v12",
+              "v13",
+              "v14",
+              "v15",
+              "v16",
+              "v17",
+              "v18",
+              "v19",
+              "v20",
+              "v21");
        doutr0 = doutr0 + 2 * w_out;
      }
 #else
@@ -1665,34 +1663,34 @@ void conv_depthwise_3x3s2p0_bias_relu(float* dout,
        }
        int cnt = tile_w;
        unsigned int* mask_ptr = dmask;
-          asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2_RELU
-                           RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_RELU
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [outptr] "+r"(doutr0_ptr),
-                         [cnt] "+r"(cnt),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [remain] "r"(cnt_remain),
-                         [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "r"(bias_c)
-                       : "cc",
-                         "memory",
-                         "q3",
-                         "q4",
-                         "q5",
-                         "q6",
-                         "q7",
-                         "q8",
-                         "q9",
-                         "q10",
-                         "q11",
-                         "q12",
-                         "q13",
-                         "q14",
-                         "q15");
+        asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2_RELU
+                        RIGHT_COMPUTE_S2 RIGHT_RESULT_S2_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [outptr] "+r"(doutr0_ptr),
+                       [cnt] "+r"(cnt),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [remain] "r"(cnt_remain),
+                       [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                        [bias] "r"(bias_c)
+                     : "cc",
+                        "memory",
+                        "q3",
+                        "q4",
+                        "q5",
+                        "q6",
+                        "q7",
+                        "q8",
+                        "q9",
+                        "q10",
+                        "q11",
+                        "q12",
+                        "q13",
+                        "q14",
+                        "q15");
        doutr0 = doutr0 + w_out;
      }
 #endif
@@ -1910,34 +1908,34 @@ void conv_depthwise_3x3s2p0_bias_no_relu(float* dout,
        }
        int cnt = tile_w;
        unsigned int* mask_ptr = dmask;
-          asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2 RIGHT_COMPUTE_S2
-                           RIGHT_RESULT_S2
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [outptr] "+r"(doutr0_ptr),
-                         [cnt] "+r"(cnt),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [remain] "r"(cnt_remain),
-                         [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "r"(bias_c)
-                       : "cc",
-                         "memory",
-                         "q3",
-                         "q4",
-                         "q5",
-                         "q6",
-                         "q7",
-                         "q8",
-                         "q9",
-                         "q10",
-                         "q11",
-                         "q12",
-                         "q13",
-                         "q14",
-                         "q15");
+        asm volatile(INIT_S2 MID_COMPUTE_S2 MID_RESULT_S2
+                        RIGHT_COMPUTE_S2 RIGHT_RESULT_S2
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [outptr] "+r"(doutr0_ptr),
+                       [cnt] "+r"(cnt),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [remain] "r"(cnt_remain),
+                       [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c)
+                     : "cc",
+                        "memory",
+                        "q3",
+                        "q4",
+                        "q5",
+                        "q6",
+                        "q7",
+                        "q8",
+                        "q9",
+                        "q10",
+                        "q11",
+                        "q12",
+                        "q13",
+                        "q14",
+                        "q15");
        doutr0 = doutr0 + w_out;
      }
 #endif
@@ -2020,57 +2018,57 @@ void conv_depthwise_3x3s2p0_bias_s_relu(float* dout,

        unsigned int* mask_ptr = dmask;
 #ifdef __aarch64__
-          asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0_RELU
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "w"(vbias),
-                         [out] "r"(out_buf)
-                       : "cc",
-                         "memory",
-                         "v4",
-                         "v5",
-                         "v6",
-                         "v7",
-                         "v8",
-                         "v9",
-                         "v10",
-                         "v11",
-                         "v12",
-                         "v13",
-                         "v14",
-                         "v15",
-                         "v16");
+        asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "w"(vbias),
+                       [out] "r"(out_buf)
+                     : "cc",
+                       "memory",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16");
 #else
-          asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0_RELU
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "r"(bias_c),
-                         [out] "r"(out_buf),
-                         [mask_ptr] "r"(dmask)
-                       : "cc",
-                         "memory",
-                         "q3",
-                         "q4",
-                         "q5",
-                         "q6",
-                         "q7",
-                         "q8",
-                         "q9",
-                         "q10",
-                         "q11",
-                         "q12",
-                         "q13",
-                         "q14",
-                         "q15");
+        asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0_RELU
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c),
+                       [out] "r"(out_buf),
+                       [mask_ptr] "r"(dmask)
+                     : "cc",
+                        "memory",
+                        "q3",
+                        "q4",
+                        "q5",
+                        "q6",
+                        "q7",
+                        "q8",
+                        "q9",
+                        "q10",
+                        "q11",
+                        "q12",
+                        "q13",
+                        "q14",
+                        "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *dout_channel++ = out_buf[w];
@@ -2152,57 +2150,57 @@ void conv_depthwise_3x3s2p0_bias_s_no_relu(float* dout,

        unsigned int* mask_ptr = dmask;
 #ifdef __aarch64__
-          asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr),
-                         [mask_ptr] "+r"(mask_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "w"(vbias),
-                         [out] "r"(out_buf)
-                       : "cc",
-                         "memory",
-                         "v4",
-                         "v5",
-                         "v6",
-                         "v7",
-                         "v8",
-                         "v9",
-                         "v10",
-                         "v11",
-                         "v12",
-                         "v13",
-                         "v14",
-                         "v15",
-                         "v16");
+        asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr),
+                       [mask_ptr] "+r"(mask_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "w"(vbias),
+                       [out] "r"(out_buf)
+                     : "cc",
+                       "memory",
+                       "v4",
+                       "v5",
+                       "v6",
+                       "v7",
+                       "v8",
+                       "v9",
+                       "v10",
+                       "v11",
+                       "v12",
+                       "v13",
+                       "v14",
+                       "v15",
+                       "v16");
 #else
        asm volatile(COMPUTE_S_S2_P0 RESULT_S_S2_P0
-                       : [din0_ptr] "+r"(din0_ptr),
-                         [din1_ptr] "+r"(din1_ptr),
-                         [din2_ptr] "+r"(din2_ptr)
-                       : [wr0] "w"(wr0),
-                         [wr1] "w"(wr1),
-                         [wr2] "w"(wr2),
-                         [bias] "r"(bias_c),
-                         [out] "r"(out_buf),
-                         [mask_ptr] "r"(dmask)
-                       : "cc",
-                         "memory",
-                         "q3",
-                         "q4",
-                         "q5",
-                         "q6",
-                         "q7",
-                         "q8",
-                         "q9",
-                         "q10",
-                         "q11",
-                         "q12",
-                         "q13",
-                         "q14",
-                         "q15");
+                     : [din0_ptr] "+r"(din0_ptr),
+                       [din1_ptr] "+r"(din1_ptr),
+                       [din2_ptr] "+r"(din2_ptr)
+                     : [wr0] "w"(wr0),
+                       [wr1] "w"(wr1),
+                       [wr2] "w"(wr2),
+                       [bias] "r"(bias_c),
+                       [out] "r"(out_buf),
+                       [mask_ptr] "r"(dmask)
+                     : "cc",
+                        "memory",
+                        "q3",
+                        "q4",
+                        "q5",
+                        "q6",
+                        "q7",
+                        "q8",
+                        "q9",
+                        "q10",
+                        "q11",
+                        "q12",
+                        "q13",
+                        "q14",
+                        "q15");
 #endif
        for (int w = 0; w < w_out; ++w) {
          *dout_channel++ = out_buf[w];