feat(dnn/aarch64-arm_common): add mat_idx warppespective for aarch64/arm_common/naive

GitOrigin-RevId: 9eb0cdda5c3c4f4a766c67f51b9888960c26876e

feat(dnn/aarch64-arm_common): add mat_idx warppespective for aarch64/arm_common/naive
GitOrigin-RevId: 9eb0cdda5c3c4f4a766c67f51b9888960c26876e
1e576e32 · Megvii Engine Team · 714cb232 · 1e576e32 · 1e576e32 · 1e576e32
17 changed file
--- a/dnn/src/aarch64/warp_perspective/opr_impl.cpp
+++ b/dnn/src/aarch64/warp_perspective/opr_impl.cpp
@@ -28,8 +28,8 @@ void WarpPerspectiveImpl::exec(_megdnn_tensor_in src,
    check_exec(src.layout, mat.layout, mat_idx.layout, dst.layout,
            workspace.size);
    if (warp::is_cv_available(src.layout, mat.layout, dst.layout, param().imode,
-                              param().format) && !mat_idx.layout.ndim) {
+                              param().format)) {
-        warp_perspective_cv_exec(src, mat, dst, param().border_val,
+        warp_perspective_cv_exec(src, mat, mat_idx, dst, param().border_val,
                                 param().bmode, param().imode, handle());
    } else {
        //! Use arm_common implementation

--- a/dnn/src/aarch64/warp_perspective/warp_perspective_cv.cpp
+++ b/dnn/src/aarch64/warp_perspective/warp_perspective_cv.cpp
@@ -190,9 +190,9 @@ void warp_perspective_cv(const Mat<T>& src, Mat<T>& dst, const float* trans,
 }
 }  // anonymous namespace
 void megdnn::aarch64::warp_perspective_cv_exec(
-        _megdnn_tensor_in src, _megdnn_tensor_in trans, _megdnn_tensor_in dst,
+        _megdnn_tensor_in src, _megdnn_tensor_in trans,
-        float border_value, BorderMode bmode, InterpolationMode imode,
+        _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst, float border_value,
-        Handle* handle) {
+        BorderMode bmode, InterpolationMode imode, Handle* handle) {
    size_t ch = dst.layout[3];
    size_t width = dst.layout[2];
    size_t height = dst.layout[1];
@@ -208,13 +208,26 @@ void megdnn::aarch64::warp_perspective_cv_exec(
                  "unsupported src channel: %zu, avaiable channel size: 1/2/3",
                  ch);
    const float* trans_ptr = trans.ptr<dt_float32>();
-        if (dst.layout.dtype.enumv() == DTypeEnum::Float32) {
+    const int* midx_ptr = nullptr;
+    if (mat_idx.raw_ptr) {
+        megdnn_assert(mat_idx.layout.ndim == 1);
+        midx_ptr = mat_idx.ptr<int>();
+    }
+    if (dst.layout.dtype.enumv() == DTypeEnum::Float32) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<float> src_mat = TensorND2Mat<float>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<float> src_mat = TensorND2Mat<float>(src, src_id);                 \
        Mat<float> dst_mat = TensorND2Mat<float>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<float MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -230,11 +243,19 @@ void megdnn::aarch64::warp_perspective_cv_exec(
 #undef cb
        } else if (dst.layout.dtype.enumv() == DTypeEnum::Uint8) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, src_id);                 \
        Mat<uchar> dst_mat = TensorND2Mat<uchar>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<uchar MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -250,8 +271,7 @@ void megdnn::aarch64::warp_perspective_cv_exec(
 #undef cb
        } else {
            megdnn_throw(
-                    megdnn_mangle("Unsupported datatype of WarpAffine optr."));
+                    megdnn_mangle("Unsupported datatype of WarpPerspective optr."));
        }
 }
 // vim: syntax=cpp.doxygen
--- a/dnn/src/aarch64/warp_perspective/warp_perspective_cv.h
+++ b/dnn/src/aarch64/warp_perspective/warp_perspective_cv.h
@@ -21,7 +21,8 @@ namespace aarch64 {
 * \brief Used if the format is NHWC, transfer from megcv
 */
 void warp_perspective_cv_exec(_megdnn_tensor_in src, _megdnn_tensor_in trans,
-                              _megdnn_tensor_in dst, float border_value,
+                              _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst,
+                              float border_value,
                              param::WarpPerspective::BorderMode border_mode,
                              param::WarpPerspective::InterpolationMode imode,
                              Handle* handle);

--- a/dnn/src/arm_common/warp_perspective/opr_impl.cpp
+++ b/dnn/src/arm_common/warp_perspective/opr_impl.cpp
@@ -28,10 +28,9 @@ void WarpPerspectiveImpl::exec(_megdnn_tensor_in src, _megdnn_tensor_in mat,
    check_exec_allow_nhwc_mat_idx(src.layout, mat.layout, mat_idx.layout,
                                  dst.layout, workspace.size);
    if (warp::is_cv_available(src.layout, mat.layout, dst.layout, param().imode,
-                              param().format) &&
+                              param().format)) {
-        !mat_idx.layout.ndim) {
        MIDOUT_BEGIN(megdnn_arm_warpperspective, void) {
-            warp_perspective_cv_exec(src, mat, dst, param().border_val,
+            warp_perspective_cv_exec(src, mat, mat_idx, dst, param().border_val,
                                     param().bmode, param().imode, handle());
        }
        MIDOUT_END();

--- a/dnn/src/arm_common/warp_perspective/warp_perspective_cv.cpp
+++ b/dnn/src/arm_common/warp_perspective/warp_perspective_cv.cpp
@@ -149,9 +149,9 @@ void warp_perspective_cv(const Mat<T>& src, Mat<T>& dst, const float* trans,
 } // anonymous namespace
 void megdnn::arm_common::warp_perspective_cv_exec(
-        _megdnn_tensor_in src, _megdnn_tensor_in trans, _megdnn_tensor_in dst,
+        _megdnn_tensor_in src, _megdnn_tensor_in trans,
-        float border_value, BorderMode bmode, InterpolationMode imode,
+        _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst, float border_value,
-        Handle* handle) {
+        BorderMode bmode, InterpolationMode imode, Handle* handle) {
    size_t ch = dst.layout[3];
    size_t width = dst.layout[2];
    size_t height = dst.layout[1];
@@ -167,13 +167,26 @@ void megdnn::arm_common::warp_perspective_cv_exec(
                  "unsupported src channel: %zu, avaiable channel size: 1/2/3",
                  ch);
    const float* trans_ptr = trans.ptr<dt_float32>();
+    const int* midx_ptr = nullptr;
+    if (mat_idx.raw_ptr) {
+        megdnn_assert(mat_idx.layout.ndim == 1);
+        midx_ptr = mat_idx.ptr<int>();
+    }
    if (dst.layout.dtype.enumv() == DTypeEnum::Float32) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<float> src_mat = TensorND2Mat<float>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<float> src_mat = TensorND2Mat<float>(src, src_id);                 \
        Mat<float> dst_mat = TensorND2Mat<float>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<float MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -189,11 +202,19 @@ void megdnn::arm_common::warp_perspective_cv_exec(
 #undef cb
    } else if (dst.layout.dtype.enumv() == DTypeEnum::Uint8) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, src_id);                 \
        Mat<uchar> dst_mat = TensorND2Mat<uchar>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<uchar MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \

--- a/dnn/src/arm_common/warp_perspective/warp_perspective_cv.h
+++ b/dnn/src/arm_common/warp_perspective/warp_perspective_cv.h
@@ -21,7 +21,8 @@ namespace arm_common {
 * \brief Used if the format is NHWC, transfer from megcv
 */
 void warp_perspective_cv_exec(_megdnn_tensor_in src, _megdnn_tensor_in trans,
-                              _megdnn_tensor_in dst, float border_value,
+                              _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst,
+                              float border_value,
                              param::WarpPerspective::BorderMode border_mode,
                              param::WarpPerspective::InterpolationMode imode,
                              Handle* handle);

--- a/dnn/src/common/warp_perspective.cpp
+++ b/dnn/src/common/warp_perspective.cpp
@@ -236,10 +236,6 @@ void WarpPerspectiveForward::check_exec(const TensorLayout &src,
        size_t workspace_in_bytes)
 {
    check_exec_allow_nhwc_mat_idx(src, mat, mat_idx, dst, workspace_in_bytes);
-    if (param().format == Param::Format::NHWC) {
-        megdnn_assert(!mat_idx.ndim,
-                "mat_idx not supported for current format");
-    }
 }
 void WarpPerspectiveForward::check_exec_allow_nhwc_mat_idx(

--- a/dnn/src/naive/warp_perspective/opr_impl.cpp
+++ b/dnn/src/naive/warp_perspective/opr_impl.cpp
@@ -320,10 +320,9 @@ void WarpPerspectiveForwardImpl::exec(_megdnn_tensor_in src,
                             .c_str());
    }
    if (warp::is_cv_available(src.layout, mat.layout, dst.layout, param().imode,
-                              param().format) &&
+                              param().format)) {
-        !mat_idx.layout.ndim) {
        MIDOUT_BEGIN(megdnn_naive_warpperspective, void) {
-            warp_perspective_cv_exec(src, mat, dst, param().border_val,
+            warp_perspective_cv_exec(src, mat, mat_idx, dst, param().border_val,
                                     param().bmode, param().imode, handle());
        }
        MIDOUT_END();

--- a/dnn/src/naive/warp_perspective/warp_perspective_cv.cpp
+++ b/dnn/src/naive/warp_perspective/warp_perspective_cv.cpp
@@ -151,9 +151,9 @@ void warp_perspective_cv(const Mat<T>& src, Mat<T>& dst, const float* trans,
 }  // anonymous namespace
 void megdnn::naive::warp_perspective_cv_exec(
-        _megdnn_tensor_in src, _megdnn_tensor_in trans, _megdnn_tensor_in dst,
+        _megdnn_tensor_in src, _megdnn_tensor_in trans,
-        float border_value, BorderMode bmode, InterpolationMode imode,
+        _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst, float border_value,
-        Handle* handle) {
+        BorderMode bmode, InterpolationMode imode, Handle* handle) {
    size_t ch = dst.layout[3];
    size_t width = dst.layout[2];
    size_t height = dst.layout[1];
@@ -169,13 +169,26 @@ void megdnn::naive::warp_perspective_cv_exec(
                  "unsupported src channel: %zu, avaiable channel size: 1/2/3",
                  ch);
    const float* trans_ptr = trans.ptr<dt_float32>();
+    const int* midx_ptr = nullptr;
+    if (mat_idx.raw_ptr) {
+        megdnn_assert(mat_idx.layout.ndim == 1);
+        midx_ptr = mat_idx.ptr<int>();
+    }
    if (dst.layout.dtype.enumv() == DTypeEnum::Float32) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<float> src_mat = TensorND2Mat<float>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<float> src_mat = TensorND2Mat<float>(src, src_id);                 \
        Mat<float> dst_mat = TensorND2Mat<float>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<float MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -191,11 +204,19 @@ void megdnn::naive::warp_perspective_cv_exec(
 #undef cb
    } else if (dst.layout.dtype.enumv() == DTypeEnum::Uint8) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, src_id);                 \
        Mat<uchar> dst_mat = TensorND2Mat<uchar>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<uchar MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -210,7 +231,8 @@ void megdnn::naive::warp_perspective_cv_exec(
        DISPATCH_IMODE(imode, bmode, ch, cb)
 #undef cb
    } else {
-        megdnn_throw(megdnn_mangle("Unsupported datatype of WarpAffine optr."));
+        megdnn_throw(
+                megdnn_mangle("Unsupported datatype of WarpPerspective optr."));
    }
 }

--- a/dnn/src/naive/warp_perspective/warp_perspective_cv.h
+++ b/dnn/src/naive/warp_perspective/warp_perspective_cv.h
@@ -21,7 +21,8 @@ namespace naive {
 * \brief Used if the format is NHWC, transfer from megcv
 */
 void warp_perspective_cv_exec(_megdnn_tensor_in src, _megdnn_tensor_in trans,
-                              _megdnn_tensor_in dst, float border_value,
+                              _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst,
+                              float border_value,
                              param::WarpPerspective::BorderMode border_mode,
                              param::WarpPerspective::InterpolationMode imode,
                              Handle* handle);

--- a/dnn/src/x86/warp_perspective/opr_impl.cpp
+++ b/dnn/src/x86/warp_perspective/opr_impl.cpp
@@ -27,8 +27,8 @@ void WarpPerspectiveImpl::exec(_megdnn_tensor_in src, _megdnn_tensor_in mat,
                                  dst.layout, workspace.size);
    if (warp::is_cv_available(src.layout, mat.layout, dst.layout, param().imode,
                              param().format) &&
-        !mat_idx.layout.ndim && is_supported(SIMDType::SSE4_2)) {
+        is_supported(SIMDType::SSE4_2)) {
-        warp_perspective_cv_exec(src, mat, dst, param().border_val,
+        warp_perspective_cv_exec(src, mat, mat_idx, dst, param().border_val,
                                 param().bmode, param().imode, handle());
    } else {
        //! Use fallback implementation

--- a/dnn/src/x86/warp_perspective/warp_perspective_cv.cpp
+++ b/dnn/src/x86/warp_perspective/warp_perspective_cv.cpp
@@ -59,7 +59,6 @@
 * ---------------------------------------------------------------------------
 */
 #include "src/x86/warp_perspective/warp_perspective_cv.h"
 #include "src/common/cv/common.h"
 #include "src/common/cv/helper.h"
@@ -154,12 +153,10 @@ void warp_perspective_cv(const Mat<T>& src, Mat<T>& dst, const float* trans,
 }
 }  // anonymous namespace
-void megdnn::x86::warp_perspective_cv_exec(_megdnn_tensor_in src,
+void megdnn::x86::warp_perspective_cv_exec(
-                                           _megdnn_tensor_in trans,
+        _megdnn_tensor_in src, _megdnn_tensor_in trans,
-                                           _megdnn_tensor_in dst,
+        _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst, float border_value,
-                                           float border_value, BorderMode bmode,
+        BorderMode bmode, InterpolationMode imode, Handle* handle) {
-                                           InterpolationMode imode,
-                                           Handle* handle) {
    size_t ch = dst.layout[3];
    size_t width = dst.layout[2];
    size_t height = dst.layout[1];
@@ -175,13 +172,26 @@ void megdnn::x86::warp_perspective_cv_exec(_megdnn_tensor_in src,
                  "unsupported src channel: %zu, avaiable channel size: 1/2/3",
                  ch);
    const float* trans_ptr = trans.ptr<dt_float32>();
+    const int* midx_ptr = nullptr;
+    if (mat_idx.raw_ptr) {
+        megdnn_assert(mat_idx.layout.ndim == 1);
+        midx_ptr = mat_idx.ptr<int>();
+    }
    if (dst.layout.dtype.enumv() == DTypeEnum::Float32) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<float> src_mat = TensorND2Mat<float>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<float> src_mat = TensorND2Mat<float>(src, src_id);                 \
        Mat<float> dst_mat = TensorND2Mat<float>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<float MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \
@@ -197,11 +207,19 @@ void megdnn::x86::warp_perspective_cv_exec(_megdnn_tensor_in src,
 #undef cb
    } else if (dst.layout.dtype.enumv() == DTypeEnum::Uint8) {
 #define cb(_imode, _bmode, _ch)                                                \
-    auto task = [src, trans_ptr, dst, border_value, parallelism_batch](        \
+    auto task = [src, trans_ptr, midx_ptr, dst, border_value,                  \
-                        size_t index, size_t) {                                \
+                 parallelism_batch](size_t index, size_t) {                    \
        size_t batch_id = index / parallelism_batch;                           \
        size_t task_id = index % parallelism_batch;                            \
-        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, batch_id);               \
+        size_t src_id = batch_id;                                              \
+        if (midx_ptr) {                                                        \
+            src_id = midx_ptr[batch_id];                                       \
+            megdnn_assert(                                                     \
+                    src_id < src.layout.shape[0],                              \
+                    "mat_idx out of bound: mat_idx[%zu]=%zu src_batch=%zu",    \
+                    batch_id, src_id, src.layout.shape[0]);                    \
+        }                                                                      \
+        Mat<uchar> src_mat = TensorND2Mat<uchar>(src, src_id);                 \
        Mat<uchar> dst_mat = TensorND2Mat<uchar>(dst, batch_id);               \
        const float* task_trans_ptr = trans_ptr + batch_id * 3 * 3;            \
        warp_perspective_cv<uchar MEGDNN_COMMA _imode MEGDNN_COMMA _bmode      \

--- a/dnn/src/x86/warp_perspective/warp_perspective_cv.h
+++ b/dnn/src/x86/warp_perspective/warp_perspective_cv.h
@@ -21,12 +21,13 @@ namespace x86 {
 * \brief Used if the format is NHWC, transfer from megcv
 */
 void warp_perspective_cv_exec(_megdnn_tensor_in src, _megdnn_tensor_in trans,
-                              _megdnn_tensor_in dst, float border_value,
+                              _megdnn_tensor_in mat_idx, _megdnn_tensor_in dst,
+                              float border_value,
                              param::WarpPerspective::BorderMode border_mode,
                              param::WarpPerspective::InterpolationMode imode,
                              Handle* handle);
-} // x86
+}  // x86
-} // megdnn
+}  // megdnn
 // vim: syntax=cpp.doxygen
--- a/dnn/test/aarch64/warp_perspective.cpp
+++ b/dnn/test/aarch64/warp_perspective.cpp
@@ -25,7 +25,7 @@ namespace test {
 TEST_F(AARCH64, WARP_PERSPECTIVE_CV) {
    //! Just for the format NHWC
-    Checker<WarpPerspective> checker(handle());
+    Checker<WarpPerspective, WarpPerspectiveMatIdxProxy> checker(handle());
    param::WarpPerspective param;
    class ResizeMatRNG : public RNG {
        void gen(const TensorND& tensor_) override {
@@ -82,7 +82,10 @@ TEST_F(AARCH64, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 1);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{2, 5, 5, 1}, {4, 3, 3}, {4}, {4, 5, 5, 1}});
    }
    // resize nan case
    UniformFloatRNG rng_zero(0, 0);
@@ -91,7 +94,11 @@ TEST_F(AARCH64, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {2000, 3, 3}, {2000}, {2000, 2, 12, 3}});
    }
    // add linear test
@@ -101,7 +108,10 @@ TEST_F(AARCH64, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 9);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{10, 128, 108, 3}, {20, 3, 3}, {20}, {20, 56, 128, 3}});
    }
    // resize nan case
    checker.set_rng(1, &rng_zero);
@@ -109,24 +119,34 @@ TEST_F(AARCH64, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {2000, 3, 3}, {2000}, {2000, 2, 12, 3}});
    }
    auto args = warp_perspective::get_cv_args();
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+                .set_rng(2, &rng)
                .set_dtype(0, dtype::Uint8())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Uint8())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Uint8())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+                .set_rng(2, &rng)
                .set_dtype(0, dtype::Float32())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Float32())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Float32())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
 }

--- a/dnn/test/arm_common/warp_perspective.cpp
+++ b/dnn/test/arm_common/warp_perspective.cpp
@@ -25,7 +25,7 @@ namespace test {
 TEST_F(ARM_COMMON, WARP_PERSPECTIVE_CV) {
    //! Just for the format NHWC
-    Checker<WarpPerspective> checker(handle());
+    Checker<WarpPerspective, WarpPerspectiveMatIdxProxy> checker(handle());
    param::WarpPerspective param;
    class ResizeMatRNG : public RNG {
        void gen(const TensorND& tensor_) override {
@@ -82,7 +82,10 @@ TEST_F(ARM_COMMON, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 9);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{10, 128, 108, 3}, {20, 3, 3}, {20}, {20, 56, 128, 3}});
    }
    // resize nan case
    UniformFloatRNG rng_zero(0, 0);
@@ -91,7 +94,11 @@ TEST_F(ARM_COMMON, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {1000, 3, 3}, {1000}, {1000, 2, 12, 3}});
    }
    // add linear test
@@ -101,7 +108,10 @@ TEST_F(ARM_COMMON, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 9);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{10, 128, 108, 3}, {20, 3, 3}, {20}, {20, 56, 128, 3}});
    }
    // resize nan case
    checker.set_rng(1, &rng_zero);
@@ -109,30 +119,40 @@ TEST_F(ARM_COMMON, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {2000, 3, 3}, {2000}, {2000, 2, 12, 3}});
    }
    auto args = warp_perspective::get_cv_args();
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+                .set_rng(2, &rng)
                .set_dtype(0, dtype::Uint8())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Uint8())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Uint8())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+                .set_rng(2, &rng)
                .set_dtype(0, dtype::Float32())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Float32())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Float32())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
 }
 TEST_F(ARM_COMMON_MULTI_THREADS, WARP_PERSPECTIVE_CV) {
    //! Just for the format NHWC
-    Checker<WarpPerspective> checker(handle());
+    Checker<WarpPerspective, WarpPerspectiveMatIdxProxy> checker(handle());
    param::WarpPerspective param;
    class ResizeMatRNG : public RNG {
        void gen(const TensorND& tensor_) override {
@@ -189,7 +209,10 @@ TEST_F(ARM_COMMON_MULTI_THREADS, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 9);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10}, {10, 56, 128, 3}});
    }
    // resize nan case
    UniformFloatRNG rng_zero(0, 0);
@@ -198,7 +221,11 @@ TEST_F(ARM_COMMON_MULTI_THREADS, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {2000, 3, 3}, {2000}, {2000, 2, 12, 3}});
    }
    // add linear test
@@ -208,7 +235,10 @@ TEST_F(ARM_COMMON_MULTI_THREADS, WARP_PERSPECTIVE_CV) {
        param.bmode = mode;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10, 56, 128, 3}});
+        UniformIntRNG rng(0, 9);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec({{10, 128, 108, 3}, {10, 3, 3}, {10}, {10, 56, 128, 3}});
    }
    // resize nan case
    checker.set_rng(1, &rng_zero);
@@ -216,24 +246,34 @@ TEST_F(ARM_COMMON_MULTI_THREADS, WARP_PERSPECTIVE_CV) {
        param.bmode = BMode::CONSTANT;
        param.border_val = 1.737;
        checker.set_param(param);
-        checker.exec({{1000, 2, 10, 3}, {1000, 3, 3}, {1000, 2, 12, 3}});
+        UniformIntRNG rng(0, 999);
+        checker.set_rng(2, &rng);
+        checker.set_dtype(2, dtype::Int32());
+        checker.exec(
+                {{1000, 2, 10, 3}, {1000, 3, 3}, {1000}, {1000, 2, 12, 3}});
    }
    auto args = warp_perspective::get_cv_args();
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+			    .set_rng(2, &rng)
                .set_dtype(0, dtype::Uint8())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Uint8())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Uint8())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
    for (auto&& arg : args) {
+        ConstValue rng(0.f);
        checker.set_param(arg.param)
+			    .set_rng(2, &rng)
                .set_dtype(0, dtype::Float32())
                .set_dtype(1, dtype::Float32())
-                .set_dtype(2, dtype::Float32())
+                .set_dtype(2, dtype::Int32())
-                .execs({arg.src, arg.trans, arg.dst});
+                .set_dtype(3, dtype::Float32())
+                .execs({arg.src, arg.trans, arg.mat_idx, arg.dst});
    }
 }

--- a/dnn/test/common/warp_perspective.cpp
+++ b/dnn/test/common/warp_perspective.cpp
@@ -56,24 +56,24 @@ std::vector<TestArg> warp_perspective::get_cv_args() {
                    cur_param.imode = imode;
                    args.emplace_back(cur_param, TensorShape{1, i, i, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, i, i, ic});
                    args.emplace_back(cur_param, TensorShape{1, i, i * 2, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, i, i * 2, ic});
                    args.emplace_back(cur_param, TensorShape{1, i * 3, i, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, i * 3, i, ic});
                    cur_param.border_val = 0.78f;
                    args.emplace_back(cur_param, TensorShape{1, i, i, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, 8, 8, ic});
                    args.emplace_back(cur_param, TensorShape{1, i, i * 2, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, 8, 8, ic});
                    args.emplace_back(cur_param, TensorShape{1, i * 3, i, ic},
-                                      TensorShape{1, 3, 3},
+                                      TensorShape{1, 3, 3}, TensorShape{1},
                                      TensorShape{1, 8, 8, ic});
                }
            }
@@ -101,7 +101,10 @@ void warp_perspective::run_mat_idx_test(Handle* handle) {
    // test NHWC
    param.format = WarpPerspective::Param::Format::NHWC;
-    checker.set_param(param);
+	checker.set_param(param)
+	       .set_rng(2, &mat_idx_rng)
+		   .set_epsilon(1e-1)
+		   .set_dtype(2, dtype::Int32());
    checker.execs({{N_SRC, 10, 11, 3}, {2, 3, 3}, {2}, {2, 11, 12, 3}});
 }

--- a/dnn/test/common/warp_perspective.h
+++ b/dnn/test/common/warp_perspective.h
@@ -57,10 +57,11 @@ struct TestArg {
    param::WarpPerspective param;
    TensorShape src;
    TensorShape trans;
+	TensorShape mat_idx;
    TensorShape dst;
-    TestArg(param::WarpPerspective param_, TensorShape src_, TensorShape trans_,
+    TestArg(param::WarpPerspective param_, TensorShape src_, TensorShape trans_, TensorShape mat_idx_,
            TensorShape dst_)
-            : param(param_), src(src_), trans(trans_), dst(dst_) {}
+            : param(param_), src(src_), trans(trans_), mat_idx(mat_idx_), dst(dst_) {}
 };
 //! Test args for the WarpPerspective with format NHWC