refactor(gopt): use graphcommonoptimizeoptions for graphopt

GitOrigin-RevId: dd8a93813ae7885bdc23e43f197a86c19e25ddc2

refactor(gopt): use graphcommonoptimizeoptions for graphopt
GitOrigin-RevId: dd8a93813ae7885bdc23e43f197a86c19e25ddc2
e24fcd00 · Megvii Engine Team · e080dd3c · e24fcd00 · e24fcd00 · e24fcd00
7 changed file
--- a/sdk/load-and-run/src/mgblar.cpp
+++ b/sdk/load-and-run/src/mgblar.cpp
@@ -83,7 +83,7 @@ R"__usage__(
        hard to profile host time. Use --profile-host to focus on host time
        profiling.
  --input [ filepath | string]
-    Set up inputs for megbrain model. for example: --data image.ppm --data 
+    Set up inputs for megbrain model. for example: --data image.ppm --data
    param.json --data bbox:bbox.npy@batchid:b.npy --data rect:[0,0,227,227];
    batchid:0,1,2,3. --io-dump or --bin-io-dump
    should be enabled at the same time.
@@ -974,7 +974,7 @@ Args Args::from_argv(int argc, char **argv) {
 #endif
        if (!strcmp(argv[i], "--enable-chwn4")) {
            mgb_log_warn("enable chwn4 optimization");
-            graph_opt.graph_opt.enable_chwn4 = true;
+            graph_opt.graph_opt.enable_chwn4();
            continue;
        }
 #if MGB_ENABLE_JSON

--- a/src/core/impl/graph/cg_impl.cpp
+++ b/src/core/impl/graph/cg_impl.cpp
@@ -17,6 +17,7 @@
 #include "megbrain/gopt/inference.h"
 #include "megbrain/gopt/basic_arith.h"
 #include "megbrain/gopt/misc.h"
+#include "megbrain/graph/cg.h"
 #include "megbrain/graph/event.h"
 #include "megbrain/graph/exc_extra_info.h"
 #include "megbrain/graph/helper.h"
@@ -457,14 +458,17 @@ ComputingGraphImpl::CompileState ComputingGraphImpl::compile_prepare(
    }
 #endif

-    if (options().graph_opt.enable_chwn4) {
-        options().graph_opt.enable_chwn4 = false;
-        gopt::reformat_to_chwn4_transform_dest_vars_inplace(dest_vars);
-    }
    if (options().graph_opt.winograd_transform) {
        options().graph_opt.winograd_transform = false;
        gopt::transform_vars_inplace_with_winograd(dest_vars);
    }
+    if (options().graph_opt.transform_chwn4()) {
+        gopt::GraphOptimizer optimizer;
+        optimizer.apply_optimize_options(options().graph_opt);
+        options().graph_opt.layout_transform =
+                cg::GraphCommonOptimizeOptions::LayoutTransform::DEFAULT;
+        optimizer.apply_inplace(dest_vars);
+    }

 #if MGB_JIT
    if (std::abs(options().graph_opt_level) == 0 && options().graph_opt.jit) {

--- a/src/core/include/megbrain/graph/cg.h
+++ b/src/core/include/megbrain/graph/cg.h
@@ -81,6 +81,59 @@ public:
    virtual size_t static_alloc_version(ComputingGraph* graph) const;
 };

+/**
+ * \brief common optimize options, it both can be used for optimize for
+ * inference in graph dump but also used in graph optimization in runtime.
+ */
+struct GraphCommonOptimizeOptions {
+    //! whether to enable IO in float16 compute in float32
+    bool f16_io_f32_comp = false;
+    //! whether to enable tranform to pure float16 model
+    bool f16_io_comp = false;
+    //! whether to enable conv bias nonlinearity fusion
+    bool fuse_conv_bias_nonlinearity = false;
+    enum LayoutTransform : uint32_t {
+        DEFAULT,
+        NHWCD4,  ///< compute using NHWCD4 tensor format
+        NCHW88,  ///< compute using NCHW88 tensor format
+        NCHW44,  ///< compute using NCHW44 tensor format
+        NCHW32,  ///< compute using NCHW32 tensor format, used for
+                 ///< tensorcore
+        CHWN4,   ///< compute using CHWN4 tensor format, transformed mainly
+                 ///< used for cuda
+    };
+    LayoutTransform layout_transform = LayoutTransform::DEFAULT;
+    //! fuse pattern like ReLU(conv_bias(x, w, b) + z) or conv_bias(x, w, b)
+    //! + z -> conv_bias(x, w, b, z)
+    bool fuse_conv_bias_with_z = false;
+
+#define SET(n)                                 \
+    GraphCommonOptimizeOptions& enable_##n() { \
+        n = true;                              \
+        return *this;                          \
+    }
+    SET(f16_io_f32_comp);
+    SET(f16_io_comp);
+    SET(fuse_conv_bias_nonlinearity);
+    SET(fuse_conv_bias_with_z);
+#undef SET
+#define SET(_trans, _trans_capital)                                 \
+    GraphCommonOptimizeOptions& enable_##_trans() {                 \
+        layout_transform = LayoutTransform::_trans_capital;         \
+        return *this;                                               \
+    }                                                               \
+    bool transform_##_trans() const {                               \
+        return layout_transform == LayoutTransform::_trans_capital; \
+    }
+
+    SET(nhwcd4, NHWCD4);
+    SET(nchw88, NCHW88);
+    SET(nchw44, NCHW44);
+    SET(nchw32, NCHW32);
+    SET(chwn4, CHWN4);
+#undef SET
+};
+
 /*!
 * \brief Computing graph.
 *
@@ -232,7 +285,7 @@ class ComputingGraph : public std::enable_shared_from_this<ComputingGraph>,
            } seq_opt;

            //! graph optimization options
-            struct GraphOpt {
+            struct GraphOpt : GraphCommonOptimizeOptions {
                //! whether to enable JIT; JIT would also be enabled at O3
                //! this value indicates JIT level: 1 for basic elemwise opr; 2
                //! for including reduce oprs
@@ -241,8 +294,6 @@ class ComputingGraph : public std::enable_shared_from_this<ComputingGraph>,
                bool tensorrt = false;
                //! whether to enable fast-run profiled winograd opr replace
                bool winograd_transform = false;
-                //! whether to enable nchw4->chwn4 opr replace
-                bool enable_chwn4 = false;
            } graph_opt;

            //! get attribute for an operator

--- a/src/gopt/impl/framework.cpp
+++ b/src/gopt/impl/framework.cpp
@@ -14,6 +14,7 @@
 #include "megbrain/gopt/basic_arith.h"
 #include "megbrain/gopt/misc.h"
 #include "megbrain/gopt/gtrans.h"
+#include "megbrain/graph/cg.h"
 #include "megbrain/graph/event.h"
 #include "megbrain/graph/exc_extra_info.h"
 #include "megbrain/serialization/serializer.h"
@@ -672,7 +673,11 @@ GraphOptimizer& GraphOptimizer::add_preset_passes(
    }
 #endif

-    apply_optimize_options(inference_opt);
+    if (inference_opt) {
+        add_pass<ParamFusePass>();
+        apply_optimize_options(*inference_opt);
+    }
+

    if (inference_opt) {
        // merge params to reduce loading time and graph overhead
@@ -699,32 +704,32 @@ VarNode* GraphOptimizer::var_replace_lookup(VarNode *var) {
    }
 }

-void GraphOptimizer::apply_optimize_options(
-        const OptimizeOptions* options) {
-    if (!options) return;
-    if (options->f16_io_comp) {
+const GraphOptimizer& GraphOptimizer::apply_optimize_options(
+        const cg::GraphCommonOptimizeOptions& options) {
+    if (options.f16_io_comp) {
        add_pass(ConvertF32ToF16Pass::make(false));
    }
-    if (options->f16_io_f32_comp) {
+    if (options.f16_io_f32_comp) {
        add_pass(ConvertF32ToF16Pass::make(true));
    }
-    if (options->transform_nhwcd4()) {
+    if (options.transform_nhwcd4()) {
        add_pass(ConvertFormatPass::make_nhwcd4_converter());
        add_pass<FuseConvBiasNonlinPass>();
    }
-    if (options->transform_nchw88()) {
+    if (options.transform_nchw88()) {
        add_pass(EnableNchwxxPass::make_nchwxx_converter(8));
    }
-    if (options->transform_nchw44()) {
+    if (options.transform_nchw44()) {
        add_pass(EnableNchwxxPass::make_nchwxx_converter(4));
    }
-    if (options->transform_nchw32()) {
+    if (options.transform_nchw32()) {
        add_pass<FuseConvBiasNonlinPass>();
+        add_pass<FuseConvBiasZPass>();
        add_pass(EnableTensorCorePass::make_tensorcore_converter());
        add_pass<ShuffleShuffleRemovePass>();
        add_pass<RemoveRedundantTypeCvtPass>();
    }
-    if (options->transform_chwn4()) {
+    if (options.transform_chwn4()) {
        add_pass<FuseConvBiasNonlinPass>();
        add_pass<FuseConvBiasZPass>();
        add_pass(EnableCHWN4Pass::make_chwn4_converter());
@@ -732,14 +737,15 @@ void GraphOptimizer::apply_optimize_options(
        add_pass<RemoveRedundantTypeCvtPass>();
    }

-    if (options->fuse_conv_bias_nonlinearity) {
+    if (options.fuse_conv_bias_nonlinearity) {
        add_pass<FuseConvBiasNonlinPass>();
    }
-    if (options->fuse_conv_bias_with_z) {
+    if (options.fuse_conv_bias_with_z) {
        add_pass<FuseConvBiasNonlinPass>();
        add_pass<FuseConvBiasZPass>();
    }
    add_pass<ParamFusePass>();
+    return *this;
 }

 /* ================ ConstVarPropogateBase ================ */

--- a/src/gopt/impl/tensor_reformat.cpp
+++ b/src/gopt/impl/tensor_reformat.cpp
@@ -2215,16 +2215,4 @@ void ShuffleShuffleRemovePass::apply(OptState& opt) const {
    Impl{opt};
 }

-void gopt::reformat_to_chwn4_transform_dest_vars_inplace(
-        mgb::cg::VarNodeArray& dest_vars) {
-    gopt::GraphOptimizer optimizer;
-    optimizer.add_pass<FuseConvBiasNonlinPass>();
-    optimizer.add_pass<FuseConvBiasZPass>();
-    optimizer.add_pass(EnableCHWN4Pass::make_chwn4_converter());
-    optimizer.add_pass<ShuffleShuffleRemovePass>();
-    optimizer.add_pass<RemoveRedundantTypeCvtPass>();
-    optimizer.add_pass<ParamFusePass>();
-    optimizer.apply_inplace(dest_vars);
-}
-
 // vim: syntax=cpp.doxygen foldmethod=marker foldmarker=f{{{,f}}}
--- a/src/gopt/include/megbrain/gopt/framework.h
+++ b/src/gopt/include/megbrain/gopt/framework.h
@@ -13,6 +13,7 @@

 #include "megbrain/graph.h"
 #include "megbrain/gopt/gtrans.h"
+#include "megbrain/graph/cg.h"

 namespace mgb {
 namespace gopt {
@@ -377,60 +378,6 @@ namespace gopt {
            RecursiveSubGraphRewriteHelper(OptState &state);
    };

-    /**
-     * \brief common optimize options, it both can be used for optimize for
-     * inference in graph dump but also used in graph optimization in runtime.
-     */
-    struct OptimizeOptions {
-        //! whether to enable IO in float16 compute in float32
-        bool f16_io_f32_comp = false;
-        //! whether to enable tranform to pure float16 model
-        bool f16_io_comp = false;
-        //! whether to enable conv bias nonlinearity fusion
-        bool fuse_conv_bias_nonlinearity = false;
-        enum LayoutTransform : uint32_t {
-            DEFAULT,
-            NHWCD4,  ///< compute using NHWCD4 tensor format
-            NCHW88,  ///< compute using NCHW88 tensor format
-            NCHW44,  ///< compute using NCHW44 tensor format
-            NCHW32,  ///< compute using NCHW32 tensor format, used for
-                     ///< tensorcore
-            CHWN4,   ///< compute using CHWN4 tensor format, transformed mainly
-                     ///< used for cuda
-        };
-        LayoutTransform layout_transform = LayoutTransform::DEFAULT;
-        //! fuse pattern like ReLU(conv_bias(x, w, b) + z) or conv_bias(x, w, b)
-        //! + z -> conv_bias(x, w, b, z)
-        bool fuse_conv_bias_with_z = false;
-
-#define SET(n)                      \
-    OptimizeOptions& enable_##n() { \
-        n = true;                   \
-        return *this;               \
-    }
-        SET(f16_io_f32_comp);
-        SET(f16_io_comp);
-        SET(fuse_conv_bias_nonlinearity);
-        SET(fuse_conv_bias_with_z);
-#undef SET
-#define SET(_trans, _trans_capital)                                 \
-    OptimizeOptions& enable_##_trans() {                            \
-        layout_transform = LayoutTransform::_trans_capital;         \
-        return *this;                                               \
-    }                                                               \
-    bool transform_##_trans() const {                               \
-        return layout_transform == LayoutTransform::_trans_capital; \
-    }
-
-        SET(nhwcd4, NHWCD4);
-        SET(nchw88, NCHW88);
-        SET(nchw44, NCHW44);
-        SET(nchw32, NCHW32);
-        SET(chwn4, CHWN4);
-#undef SET
-    };
-
-
    /*!
     * \brief manage passes and their applying on graphs
     *
@@ -523,7 +470,8 @@ namespace gopt {
            /**
             * \brief apply optimize options
             */
-            void apply_optimize_options(const OptimizeOptions* options);
+            const GraphOptimizer& apply_optimize_options(
+                    const cg::GraphCommonOptimizeOptions& options);
    };

    /*!

--- a/src/gopt/include/megbrain/gopt/inference.h
+++ b/src/gopt/include/megbrain/gopt/inference.h
@@ -12,6 +12,7 @@
 #pragma once

 #include "megbrain/gopt/framework.h"
+#include "megbrain/graph/cg.h"

 namespace mgb {
 namespace gopt {
@@ -256,7 +257,7 @@ namespace gopt {
                size_t pack_c_size);
    };

-    struct OptimizeForInferenceOptions : OptimizeOptions {};
+    struct OptimizeForInferenceOptions : cg::GraphCommonOptimizeOptions {};

    /*!
     * \brief optimize a computing graph for inference
@@ -325,13 +326,6 @@ namespace gopt {
            void apply(OptState& opt) const override;
    };

-    /*!
-     * \brief transform tensor format in a network to c/4hwn4 format, and
-     * accelerate the inference speed on Nvidia platform
-     */
-    void reformat_to_chwn4_transform_dest_vars_inplace(
-            mgb::cg::VarNodeArray& dest_vars);
-
 }  // namespace gopt
 } // namespace mgb