Merge branch 'xzl/incubate/lite' into 'incubate/lite'

add gemv gemm int8 neon kernel See merge request inference/paddlelite!41

Merge branch 'xzl/incubate/lite' into 'incubate/lite'
add gemv gemm int8 neon kernel See merge request inference/paddlelite!41
6c68024d · xingzhaolong · ee0e12fe · 8202e25d · 6c68024d · 6c68024d
9 changed file
--- a/paddle/fluid/lite/api/cxx_api.h
+++ b/paddle/fluid/lite/api/cxx_api.h
@@ -50,6 +50,7 @@ class ExecutorLite {
    optimizer_.KernelPickPreferPlace(prefer_place);
    core::KernelPickFactor factor;
    factor.ConsiderTarget();
+    factor.ConsiderPrecision();
    optimizer_.Run(std::move(program), valid_places, factor);
    program_ = optimizer_.GenRuntimeProgram();
  }

--- a/paddle/fluid/lite/arm/math/CMakeLists.txt
+++ b/paddle/fluid/lite/arm/math/CMakeLists.txt
@@ -35,6 +35,8 @@ cc_library(math_arm SRCS
    split.cc
    activation.cc
    dropout.cc
+    gemm_prepacked_int8.cc
+    gemv_arm_int8.cc
    DEPS ${lite_kernel_deps} eigen3 framework_proto_lite)
  # TODO(TJ): fix me do not deps proto
 

--- a/paddle/fluid/lite/core/mir/fusion/quant_dequant_op_fuser.h
+++ b/paddle/fluid/lite/core/mir/fusion/quant_dequant_op_fuser.h
--- a/paddle/fluid/lite/core/mir/pattern_matcher_high_api.cc
+++ b/paddle/fluid/lite/core/mir/pattern_matcher_high_api.cc
@@ -41,7 +41,7 @@ void FuseBase::DeleteInterNodes(SSAGraph *graph) {
    }
  }

-  LOG(INFO) << "keys: " << key2nodes_.size();
+  VLOG(4) << "keys: " << key2nodes_.size();
  std::unordered_set<const Node *> nodes2rm;
  for (auto &matched : key2nodes_) {
    for (const auto &key : keys) {

--- a/paddle/fluid/lite/core/op_registry.h
+++ b/paddle/fluid/lite/core/op_registry.h
@@ -80,6 +80,8 @@ class KernelRegistry final {
              KernelRegistryForTarget<TARGET(kARM), PRECISION(kAny),
                                      DATALAYOUT(kAny)> *,  //
              KernelRegistryForTarget<TARGET(kARM), PRECISION(kFloat),
+                                      DATALAYOUT(kNCHW)> *,  //
+              KernelRegistryForTarget<TARGET(kARM), PRECISION(kInt8),
                                      DATALAYOUT(kNCHW)> *  //
              >;


--- a/paddle/fluid/lite/core/optimizer.h
+++ b/paddle/fluid/lite/core/optimizer.h
@@ -58,7 +58,6 @@ class Optimizer {
 #ifdef LITE_WITH_LIGHT_WEIGHT_FRAMEWORK
          "lite_elementwise_add_activation_fuse_pass",  //
 #endif
-          "lite_fc_fuse_pass",              //
          "static_kernel_pick_pass",        //
          "variable_place_inference_pass",  //
          "argument_type_display_pass",     //

--- a/paddle/fluid/lite/core/target_wrapper.h
+++ b/paddle/fluid/lite/core/target_wrapper.h
@@ -38,6 +38,7 @@ enum class PrecisionType : int {
  kUnk = 0,
  kFloat,
  kInt8,
+  kInt32,
  kAny,  // any precision
  NUM,   // number of fields.
 };
@@ -48,6 +49,19 @@ enum class DataLayoutType : int {
  NUM,   // number of fields.
 };

+static size_t PrecisionTypeLength(PrecisionType type) {
+  switch (type) {
+    case PrecisionType::kFloat:
+      return 4;
+    case PrecisionType::kInt8:
+      return 1;
+    case PrecisionType::kInt32:
+      return 4;
+    default:
+      return 4;
+  }
+}
+
 // Some helper macro to get a specific TargetType.
 #define TARGET(item__) paddle::lite::TargetType::item__
 // Some helper macro to get a specific PrecisionType.
@@ -87,7 +101,7 @@ static const std::string& TargetRepr(TargetType target) {

 static const std::string& PrecisionRepr(PrecisionType precision) {
  static const std::string precision2string[] = {"kUnk", "kFloat", "kInt8",
-                                                 "kAny"};
+                                                 "kInt32", "kAny"};
  auto x = static_cast<int>(precision);
  CHECK_LT(x, static_cast<int>(PRECISION(NUM)));
  return precision2string[x];

--- a/paddle/fluid/lite/kernels/arm/conv_compute.cc
+++ b/paddle/fluid/lite/kernels/arm/conv_compute.cc
@@ -92,6 +92,9 @@ void ConvCompute::Run() {
  // }
 }

+void ConvComputeInt8::PrepareForRun() {}
+void ConvComputeInt8::Run() {}
+
 }  // namespace arm
 }  // namespace kernels
 }  // namespace lite
@@ -112,3 +115,23 @@ REGISTER_LITE_KERNEL(depthwise_conv2d, kARM, kFloat, kNCHW,
    .BindInput("Filter", {LiteType::GetTensorTy(TARGET(kARM))})
    .BindOutput("Output", {LiteType::GetTensorTy(TARGET(kARM))})
    .Finalize();
+
+REGISTER_LITE_KERNEL(conv2d, kARM, kInt8, kNCHW,
+                     paddle::lite::kernels::arm::ConvComputeInt8, def)
+    .BindInput("Input", {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .BindInput("Bias", {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt32))})
+    .BindInput("Filter",
+               {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .BindOutput("Output",
+                {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .Finalize();
+
+REGISTER_LITE_KERNEL(depthwise_conv2d, kARM, kInt8, kNCHW,
+                     paddle::lite::kernels::arm::ConvComputeInt8, def)
+    .BindInput("Input", {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .BindInput("Bias", {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt32))})
+    .BindInput("Filter",
+               {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .BindOutput("Output",
+                {LiteType::GetTensorTy(TARGET(kARM), PRECISION(kInt8))})
+    .Finalize();
--- a/paddle/fluid/lite/kernels/arm/conv_compute.h
+++ b/paddle/fluid/lite/kernels/arm/conv_compute.h
@@ -41,6 +41,25 @@ class ConvCompute : public KernelLite<TARGET(kARM), PRECISION(kFloat)> {
      nullptr};
 };

+class ConvComputeInt8 : public KernelLite<TARGET(kARM), PRECISION(kInt8)> {
+ public:
+  using param_t = operators::ConvParam;
+
+  void PrepareForRun() override;
+
+  void Run() override;
+
+  ~ConvComputeInt8() {
+    if (impl_ != nullptr) {
+      delete impl_;
+    }
+  }
+
+ private:
+  lite::arm::math::ImplBase<TARGET(kARM), PRECISION(kInt8), param_t>* impl_{
+      nullptr};
+};
+
 }  // namespace arm
 }  // namespace kernels
 }  // namespace lite