Merge branch 'prv-calibration'

b60124e8 · Zhang, Guoming · 782954b4 · 9a5b560f · b60124e8 · b60124e8
4 changed file
--- a/paddle/fluid/operators/conv_mkldnn_op.cc
+++ b/paddle/fluid/operators/conv_mkldnn_op.cc
--- a/paddle/fluid/operators/conv_op.cc
+++ b/paddle/fluid/operators/conv_op.cc
@@ -131,21 +131,14 @@ void Conv2DOpMaker::Make() {
           "The format of output tensor is X (one-dimensional) of size equal"
           "to the number of output channels. Only used with MKL-DNN.")
      .AsDispensable();
-  AddInput("Scale_in",
-           "(Tensor) Scale_in to be used for int8 input data."
-           "Only used with INT8.")
-      .AsDispensable();
-  AddInput("Scale_in_eltwise",
-           "(Tensor) Scale_in_eltwise to be used for int8 eltwise input data."
-           "Only used with MKL-DNN.")
-      .AsDispensable();
-  AddInput("Scale_weights",
-           "(Tensor) Scale_weights to be used for int8 weights data."
-           "Only used with MKL-DNN.")
-      .AsDispensable();
-  AddInput("Scale_out",
-           "(Tensor) Scale_out to be used for int8 output data."
-           "Only used with MKL-DNN.")
+  AddOutput("Output",
+            "(Tensor) The output tensor of convolution operator. "
+            "The format of output tensor is also NCHW.");
+
+  AddInput("ResidualData",
+           "(Tensor) Tensor with residual data "
+           "to which convolution output will be added."
+           "Used with fuse_residual_connection fusion.")
      .AsDispensable();
  AddOutput("Output",
            "(Tensor) The output tensor of convolution operator. "
@@ -193,6 +186,22 @@ void Conv2DOpMaker::Make() {
                "whenever convolution output is as an input to residual "
                "connection.")
      .SetDefault(false);
+  AddAttr<float>("Scale_in",
+           "Scale_in to be used for int8 input data."
+           "Only used with INT8.")
+      .SetDefault(1.0f);
+  AddAttr<float>("Scale_out",
+           "Scale_out to be used for int8 output data."
+           "Only used with MKL-DNN.")
+      .SetDefault(1.0f);
+  AddAttr<float>("Scale_in_eltwise",
+           "Scale_in_eltwise to be used for int8 eltwise input data."
+           "Only used with MKL-DNN.")
+      .SetDefault(1.0f);
+  AddAttr<std::vector<float>>("Scale_weights",
+           "Scale_weights to be used for int8 weights data."
+           "Only used with MKL-DNN.")
+      .SetDefault({1.0f});
  AddAttr<bool>("force_fp32_output", "(bool, default false) Force INT8 kernel output FP32, only used in mkldnn kernel")
      .SetDefault(false);
  AddAttr<std::string>(

--- a/paddle/fluid/operators/dequantize_op.cc
+++ b/paddle/fluid/operators/dequantize_op.cc
@@ -37,7 +37,7 @@ class DeQuantOpKernel : public framework::OpKernel<T> {

  void Compute(const framework::ExecutionContext& ctx) const override {
    auto* input = ctx.Input<Tensor>("Input");
-    auto* scale = ctx.Input<Tensor>("Scale");
+    auto scale_data = ctx.Attr<float>("Scale");
    auto* output = ctx.Output<Tensor>("Output");
    auto& dev_ctx =
        ctx.template device_context<platform::MKLDNNDeviceContext>();
@@ -45,8 +45,7 @@ class DeQuantOpKernel : public framework::OpKernel<T> {
 
    const T* input_data = input->data<T>();
    float* output_data = output->mutable_data<float>(ctx.GetPlace());
-    std::vector<float> scale_data = {*(scale->data<float>())};
-    std::vector<float> reorder_scale = {1.0f / scale_data[0]};
+    std::vector<float> reorder_scale = {1.0f / scale_data};

    std::vector<primitive> pipeline;
    std::vector<int> src_tz = paddle::framework::vectorize2int(input->dims());
@@ -99,8 +98,8 @@ framework::OpKernelType DeQuantOp::GetExpectedKernelType(const framework::Execut

 void DeQuantOpMaker::Make() {
  AddInput("Input","input data");
-  AddInput("Scale","scale data");
  AddOutput("Output","output data");
+  AddAttr<float>("Scale","scale data").SetDefault({1.0f});
  AddComment(R"DOC(This op will quantize data from INT8 to FP32)DOC");
 }


--- a/paddle/fluid/operators/quantize_op.cc
+++ b/paddle/fluid/operators/quantize_op.cc
@@ -35,7 +35,7 @@ class QuantOpKernel : public framework::OpKernel<T> {
 public:
  void Compute(const framework::ExecutionContext& ctx) const override {
    auto* input = ctx.Input<Tensor>("Input");
-    auto* scale = ctx.Input<Tensor>("Scale");
+    auto scale_data = ctx.Attr<float>("Scale");
    auto* output = ctx.Output<Tensor>("Output");
    auto& dev_ctx =
        ctx.template device_context<platform::MKLDNNDeviceContext>();
@@ -47,11 +47,9 @@ class QuantOpKernel : public framework::OpKernel<T> {

    const T* input_data = input->data<T>();

-    std::vector<T> scale_data = {*(scale->data<T>())};
-
    mkldnn::primitive_attr attri;
    int mask = 0;
-    attri.set_output_scales(mask, scale_data);
+    attri.set_output_scales(mask, {scale_data});

    auto src_md = platform::MKLDNNMemDesc(
            {src_tz}, memory::data_type::f32, input->format());
@@ -108,11 +106,12 @@ framework::OpKernelType QuantOp::GetExpectedKernelType(const framework::Executio

 void QuantOpMaker::Make() {
  AddInput("Input","input data");
-  AddInput("Scale","scale data");
  AddOutput("Output","output data");
  AddAttr<bool>("is_negative_input",
                "(bool, default false) Only used in mkldnn INT8 kernel")
      .SetDefault(false);
+  AddAttr<float>("Scale","scale data")
+      .SetDefault({1.0f});
  AddComment(R"DOC(This op will quantize data from FP32 to INT8)DOC");
 }