new_op_cn.md 16.0 KB
Newer Older
1 2 3
# 如何写新的Operator

 - [概念简介](#概念简介)
T
tensor-tang 已提交
4 5 6 7 8
 - [实现C++类](#实现c类)
   - [定义ProtoMaker类](#定义protomaker类)
   - [定义Operator类](#定义operator类)
   - [定义OpKernel类](#定义opkernel类)
   - [注册Operator](#注册operator)
9
   - [编译](#编译)
T
tensor-tang 已提交
10
 - [绑定Python](#绑定python)
11
 - [实现单元测试](#实现单元测试)
T
tensor-tang 已提交
12 13
   - [前向Operator单测](#前向operator单测)
   - [反向Operator单测](#反向operator单测)
14
   - [编译和执行](#编译和执行)
T
tensor-tang 已提交
15
 - [注意事项](#注意事项)
16 17 18 19 20 21 22 23 24 25 26


## 概念简介

简单介绍需要用到基类,详细介绍请参考设计文档。

- `framework::OperatorBase`: Operator(简写,Op)基类。
- `framework::OpKernel`: Op计算函数的基类,称作Kernel。
- `framework::OperatorWithKernel`:继承自OperatorBase,Op有计算函数,称作有Kernel。
- `class OpProtoAndCheckerMaker`:描述该Op的输入、输出、属性、注释,主要用于Python API接口生成

Y
Yancey1989 已提交
27
依据是否包含kernel,可以将Op分为两种:包含Kernel的Op和不包含kernel的Op,前者Op的定义继承自`OperatorWithKernel`,后者继承自`OperatorBase`。本教程主要介绍带Kernel的Op如何写,简单总结Op需要包含的内容如下:
28

_青葱's avatar
_青葱 已提交
29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
<table>
<thead>
<tr>
<th>内容</th>
<th>定义位置</th>
</tr>
</thead>
<tbody>
<tr>
<td>OpProtoMake定义 </td>
<td>`.cc`文件,Backward Op不需要定义OpProtoMake </td>
</tr>
<tr>
<td>Op定义 </td>
<td> `.cc`文件</td>
</tr>
<tr>
<td>Kernel实现 </td>
<td> CPU、CUDA共享Kernel实现在`.h`文件中,否则,CPU 实现在`.cc`文件中,CUDA 实现在`.cu`文件中。</td>
</tr>
<tr>
<td>注册Op </td>
<td> Op注册实现在`.cc`文件;Kernel注册CPU实现在`.cc`文件中,CUDA实现在`.cu`文件中</td>
</tr>
</tbody>
</table>
C
caoying03 已提交
55

56

Y
Yang Yang(Tony) 已提交
57
实现新的op都添加至目录[paddle/fluid/operators](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/fluid/operators)下,文件命名以`*_op.h`(如有) 、 `*_op.cc``*_op.cu`(如有)结尾。**系统会根据文件名自动构建op和其对应的Python扩展。**
58 59


Y
Yang Yang(Tony) 已提交
60
下面以矩阵乘操作,即[MulOp](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc)为例来介绍如何写带Kernel的Operator。
61

C
caoying03 已提交
62

63 64 65
## 实现C++类


T
tensor-tang 已提交
66
### 定义ProtoMaker类
67

C
caoying03 已提交
68 69 70
矩阵乘法的公式:$Out = X * Y$, 可见该计算由两个输入,一个输出组成。

首先定义`ProtoMaker`来描述该Op的输入、输出,并添加注释:
71 72

```cpp
Q
qingqing01 已提交
73 74
class MulOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
75
  MulOpMaker(OpProto *proto, OpAttrChecker *op_checker)
Q
qingqing01 已提交
76
      : OpProtoAndCheckerMaker(proto, op_checker) {
D
dongzhihong 已提交
77 78 79
    AddInput("X", "(Tensor), 2D tensor of size (M x K)");
    AddInput("Y", "(Tensor), 2D tensor of size (K x N)");
    AddOutput("Out", "(Tensor), 2D tensor of size (M x N)");
Q
qingqing01 已提交
80 81 82 83 84 85 86
    AddComment(R"DOC(
Two Element Mul Operator.
The equation is: Out = X * Y
)DOC");
  }
};
```
87

Y
Yang Yang(Tony) 已提交
88
[`MulOpMaker`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L76-L127)继承自`framework::OpProtoAndCheckerMaker`,构造函数含有2个参数:
89 90 91

   - `framework::OpProto` : 前者存储Op的输入输出和参数属性,将用于Python API接口的生成。
   - `framework::OpAttrChecker` :后者用于检查参数属性的合法性。
92

C
caoying03 已提交
93
构造函数里通过`AddInput`添加输入参数,通过`AddOutput`添加输出参数,通过`AddComment`添加Op的注释。这些函数会将对应内容添加到`OpProto`中。
94

Y
Yang Yang(Tony) 已提交
95
上面的代码在`MulOp`中添加两个输入`X``Y`,添加了一个输出`Out`,并解释了各自含义,命名请遵守[命名规范](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/dev/name_convention.md)
96

97

Y
Yang Yang(Tony) 已提交
98
再以[`ScaleOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/scale_op.cc#L38-L55)为例:
99 100

```cpp
Q
qingqing01 已提交
101
template <typename AttrType>
102 103
class ScaleOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
104
  ScaleOpMaker(OpProto *proto, OpAttrChecker *op_checker)
105
      : OpProtoAndCheckerMaker(proto, op_checker) {
Y
Yang Yang(Tony) 已提交
106 107 108 109 110
    AddInput("X", "(Tensor) Input tensor of scale operator.");
    AddOutput("Out", "(Tensor) Output tensor of scale operator.");
    AddComment(R"DOC(
Scale operator
$$Out = scale*X$$
111
)DOC");
Y
Yang Yang(Tony) 已提交
112 113 114 115
    AddAttr<AttrType>("scale",
                      "(float, default 1.0)"
                      "The scaling factor of the scale operator.")
        .SetDefault(1.0);
116 117 118
  }
};
```
119

Y
Yang Yang(Tony) 已提交
120
这个例子有`AddAttr<AttrType>("scale", "...").SetDefault(1.0);` : 增加`scale`系数,作为参数属性,并且设置默认值为1.0。
121

122

T
tensor-tang 已提交
123
### 定义Operator类
124

C
caoying03 已提交
125
下面的点实现了MulOp的定义:
126

127
```cpp
Q
qingqing01 已提交
128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148
class MulOp : public framework::OperatorWithKernel {
 public:
  using framework::OperatorWithKernel::OperatorWithKernel;

 protected:
  void InferShape(const framework::InferShapeContext &ctx) const override {
    auto dim0 = ctx.Input<Tensor>("X")->dims();
    auto dim1 = ctx.Input<Tensor>("Y")->dims();
    PADDLE_ENFORCE_EQ(dim0.size(), 2,
                      "input X(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("X"));
    PADDLE_ENFORCE_EQ(dim1.size(), 2,
                      "input Y(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("Y"));
    PADDLE_ENFORCE_EQ(
        dim0[1], dim1[0],
        "First matrix's width must be equal with second matrix's height.");
    ctx.Output<Tensor>("Out")->Resize({dim0[0], dim1[1]});
  }
};
```
149

W
weixing02 已提交
150
[`MulOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L22)继承自`OperatorWithKernel``public`成员:
151 152

```cpp
153 154 155 156
using framework::OperatorWithKernel::OperatorWithKernel;
```

这句表示使用基类`OperatorWithKernel`的构造函数,也可写成:
157 158

```cpp
Q
qingqing01 已提交
159 160 161 162
MulOp(const std::string &type, const framework::VariableNameMap &inputs,
      const framework::VariableNameMap &outputs,
      const framework::AttributeMap &attrs)
  : OperatorWithKernel(type, inputs, outputs, attrs) {}
163 164
```

165
还需要重写`InferShape`接口。`InferShape`为const函数,不能修改Op的成员变量,参数为`const framework::InferShapeContext &ctx`,通过该参数可获取到输入输出以及属性。它的功能是:
166 167 168

  - 1). 做检查, 尽早报错:检查输入数据维度、类型等是否合法。
  - 2). 设置输出Tensor的形状。
169

C
caoying03 已提交
170
通常`OpProtoMaker``Op`类的定义写在`.cc`文件中,和下面将要介绍的注册函数一起放在`.cc`
171

T
tensor-tang 已提交
172
### 定义OpKernel类
173

C
caoying03 已提交
174 175
`MulKernel`继承自`framework::OpKernel`,带有下面两个模板参数:

W
weixing02 已提交
176
- `typename DeviceContext`: 表示设备类型,不同设备(CPU、CUDA)共享同一个Kernel时,需加该模板参数,不共享则不加,一个不共享的例子是[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)
C
caoying03 已提交
177 178 179 180 181 182 183 184 185 186 187

- `typename T` : 表示数据类型,如`float`, `double`等。

需要为`MulKernel`类重写`Compute`接口。
- `Compute`接受一个输入参数:`const framework::ExecutionContext& context`
-`InferShapeContext`相比,`ExecutionContext`增加了设备类型,同样可获取到输入输出和属性参数。
- `Compute`函数里实现`OpKernel`的具体计算逻辑。

下面是 `MulKernel` `Compute`的实现:

  ```cpp
Q
QI JUN 已提交
188
  template <typename DeviceContext, typename T>
C
caoying03 已提交
189 190
  class MulKernel : public framework::OpKernel {
  public:
191 192 193 194 195
  void Compute(const framework::ExecutionContext& context) const override {
    auto* X = context.Input<Tensor>("X");
    auto* Y = context.Input<Tensor>("Y");
    auto* Z = context.Output<Tensor>("Out");
    Z->mutable_data<T>(context.GetPlace());
Q
QI JUN 已提交
196 197
    auto& device_context = context.template device_context<DeviceContext>();
    math::matmul<DeviceContext, T>(*X, false, *Y, false, 1, Z, 0, device_context);
198
  }
C
caoying03 已提交
199
  };
T
tensor-tang 已提交
200
  ```
201

Q
QI JUN 已提交
202
需要注意:**不同设备(CPU、CUDA)共享一个Op定义,是否则共享同一个`OpKernel`,取决于`Compute`调用的函数是否支持不同设备。**
203

W
weixing02 已提交
204
`MulOp`的CPU、CUDA实现共享同一个`Kernel``OpKernel`不共享的例子可以参考:[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)
205

W
weixing02 已提交
206
为了使`OpKernel`的计算过程书写更加简单,并且CPU、CUDA的代码可以复用,我们通常借助 Eigen unsupported Tensor模块来实现`Compute`接口。关于在PaddlePaddle中如何使用Eigen库,请参考[使用文档](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/dev/use_eigen_cn.md)
207

C
caoying03 已提交
208 209
到此,前向Op实现完成。接下来,需要在`.cc`文件中注册该op和kernel。
反向Op类的定义,反向OpKernel的定义与前向Op类似,这里不再赘述。**但需注意反向Op没有`ProtoMaker`**
Q
qijun 已提交
210

T
tensor-tang 已提交
211
### 注册Operator
212

C
caoying03 已提交
213
-`.cc`文件中注册前向、反向Op类,注册CPU Kernel。
214

C
caoying03 已提交
215 216
    ```cpp
    namespace ops = paddle::operators;
Y
Yang Yang(Tony) 已提交
217 218 219
    REGISTER_OPERATOR(mul, ops::MulOp, ops::MulOpMaker,
                  paddle::framework::DefaultGradOpDescMaker<true>)
    REGISTER_OPERATOR(mul_grad, ops::MulGradOp)
Q
QI JUN 已提交
220
    REGISTER_OP_CPU_KERNEL(mul, ops::MulKernel<paddle::platform::CPUDeviceContext, float>);
C
caoying03 已提交
221
    REGISTER_OP_CPU_KERNEL(mul_grad,
Q
QI JUN 已提交
222
                  ops::MulGradKernel<paddle::platform::CPUDeviceContext, float>);
C
caoying03 已提交
223
    ```
224

C
caoying03 已提交
225
   在上面的代码中:
226

Y
Yang Yang(Tony) 已提交
227
    - `REGISTER_OPERATOR` : 注册`ops::MulOp`类,类型名为`mul`,该类的`ProtoMaker`为`ops::MulOpMaker`,注册`ops::MulOpGrad`,类型名为`mul_grad`。
K
kexinzhao 已提交
228
    - `REGISTER_OP_CPU_KERNEL` :注册`ops::MulKernel`类,并特化模板参数为`paddle::platform::CPUPlace`和`float`类型,同理,注册`ops::MulGradKernel`类。
229

230

Q
QI JUN 已提交
231 232
-`.cu`文件中注册CUDA Kernel。
    - 请注意,如果CUDA Kernel的实现基于Eigen unsupported模块,那么在 `.cu`的开始请加上宏定义 `#define EIGEN_USE_GPU`,代码示例如下:
233

C
caoying03 已提交
234 235
    ```cpp
    // if use Eigen unsupported module before include head files
Q
QI JUN 已提交
236
    #define EIGEN_USE_GPU
Q
qijun 已提交
237

C
caoying03 已提交
238
    namespace ops = paddle::operators;
Q
QI JUN 已提交
239 240 241
    REGISTER_OP_CUDA_KERNEL(mul, ops::MulKernel<paddle::platform::CUDADeviceContext, float>);
    REGISTER_OP_CUDA_KERNEL(mul_grad,
                           ops::MulGradKernel<paddle::platform::CUDADeviceContext, float>);
C
caoying03 已提交
242
    ```
243

T
tensor-tang 已提交
244
### 编译
245

L
Luo Tao 已提交
246
运行下面命令可以进行编译:
247

L
Luo Tao 已提交
248 249 250
```
make mul_op
```
251 252 253

## 绑定Python

L
Luo Tao 已提交
254
系统会对新增的op自动绑定Python,并链接到生成的lib库中。
255 256 257

## 实现单元测试

Y
Yang Yang(Tony) 已提交
258
单测包括对比前向Op不同设备(CPU、CUDA)的实现、对比反向OP不同设备(CPU、CUDA)的实现、反向Op的梯度测试。下面介绍介绍[`MulOp`的单元测试](https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/fluid/tests/unittests/test_mul_op.py)
259

T
tensor-tang 已提交
260
### 前向Operator单测
261

Q
QI JUN 已提交
262
Op单元测试继承自`OpTest`。各项更加具体的单元测试在`TestMulOp`里完成。测试Operator,需要:
263

C
caoying03 已提交
264 265 266
1.`setUp`函数定义输入、输出,以及相关的属性参数。
2. 生成随机的输入数据。
3. 在Python脚本中实现与前向operator相同的计算逻辑,得到输出值,与operator前向计算的输出进行对比。
Q
QI JUN 已提交
267
4. 反向计算已经自动集成进测试框架,直接调用相应接口即可。
268 269


C
caoying03 已提交
270 271 272
  ```python
  import unittest
  import numpy as np
Q
QI JUN 已提交
273
  from op_test import OpTest
C
caoying03 已提交
274

275

Q
QI JUN 已提交
276
  class TestMulOp(OpTest):
C
caoying03 已提交
277
      def setUp(self):
Q
QI JUN 已提交
278
          self.op_type = "mul"
C
caoying03 已提交
279 280 281 282 283 284
          self.inputs = {
              'X': np.random.random((32, 84)).astype("float32"),
              'Y': np.random.random((84, 100)).astype("float32")
          }
          self.outputs = {'Out': np.dot(self.inputs['X'], self.inputs['Y'])}

Q
QI JUN 已提交
285 286
      def test_check_output(self):
          self.check_output()
287

Q
QI JUN 已提交
288 289
      def test_check_grad_normal(self):
          self.check_grad(['X', 'Y'], 'Out', max_relative_error=0.5)
290

Q
QI JUN 已提交
291 292 293
      def test_check_grad_ingore_x(self):
          self.check_grad(
              ['Y'], 'Out', max_relative_error=0.5, no_grad_set=set("X"))
294

Q
QI JUN 已提交
295 296 297
      def test_check_grad_ingore_y(self):
          self.check_grad(
              ['X'], 'Out', max_relative_error=0.5, no_grad_set=set('Y'))
T
tensor-tang 已提交
298
  ```
299

Q
QI JUN 已提交
300
上面的代码首先导入依赖的包,下面是对`setUp`函数中操作的重要变量的详细解释:
301

Q
QI JUN 已提交
302 303 304
- `self.op_type = "mul" ` : 定义类型,与operator注册时注册的类型一致。
- `self.inputs` : 定义输入,类型为`numpy.array`,并初始化。
- `self.outputs` : 定义输出,并在Python脚本中完成与operator同样的计算逻辑,返回Python端的计算结果。
305

T
tensor-tang 已提交
306 307
### 反向operator单测

Q
QI JUN 已提交
308
而反向测试中:
309 310 311 312 313
- `test_check_grad_normal`中调用`check_grad`使用数值法检测梯度正确性和稳定性。
  - 第一个参数`["X", "Y"]` : 指定对输入变量`X``Y`做梯度检测。
  - 第二个参数`"Out"` : 指定前向网络最终的输出目标变量`Out`
  - 第三个参数`max_relative_error`:指定检测梯度时能容忍的最大错误值。
- `test_check_grad_ingore_x``test_check_grad_ingore_y`分支用来测试只需要计算一个输入梯度的情况。
314 315


T
tensor-tang 已提交
316
### 编译和执行
317

Y
Yang Yang(Tony) 已提交
318
`python/paddle/fluid/tests/unittests/` 目录下新增的 `test_*.py` 单元测试会被自动加入工程进行编译。
319

C
caoying03 已提交
320
请注意,**不同于Op的编译测试,运行单元测试测时需要编译整个工程**,并且编译时需要打开`WITH_TESTING`, 即`cmake paddle_dir -DWITH_TESTING=ON`。编译成功后,执行下面的命令来运行单元测试:
321

C
caoying03 已提交
322
```bash
323 324
make test ARGS="-R test_mul_op -V"
```
C
caoying03 已提交
325

326 327
或者:

C
caoying03 已提交
328
```bash
329 330
ctest -R test_mul_op
```
L
Luo Tao 已提交
331 332 333

## 注意事项

Y
Yang Yang(Tony) 已提交
334
- 注册Op时的类型名,需要和该Op的名字一样。即不允许在`A_op.cc`里面,注册`REGISTER_OPERATOR(B, ...)`等,这将会导致单元测试出错。
Q
QI JUN 已提交
335
- 如果Op没有实现CUDA Kernel,请不要创建空的`*_op.cu`,这将会导致单元测试出错。
L
Luo Tao 已提交
336
- 如果多个Op依赖一些共用的函数,可以创建非`*_op.*`格式的文件来存放,如`gather.h`文件。
337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403

### PADDLE_ENFORCE使用注意

实现Op时检查数据的合法性需要使用PADDLE_ENFORCE以及PADDLE_ENFORCE_EQ等宏定义,基本格式如下:

```
PADDLE_ENFORCE(表达式, 错误提示信息)
PADDLE_ENFORCE_EQ(比较对象A, 比较对象B, 错误提示信息)
```

如果表达式为真,或者比较对象A=B,则检查通过,否则会终止程序运行,向用户反馈相应的错误提示信息。
为了确保提示友好易懂,开发者需要注意其使用方法。

#### 总体原则

任何使用了PADDLE_ENFORCE与PADDLE_ENFORCE_**检查的地方,必须有详略得当的备注解释!**错误提示信息**不能为空!

#### 提示信息书写标准

1. [required] 哪里错了?为什么错了?
    - 例如:`ValueError: Mismatched label shape`
2. [optional] 期望的输入是什么样的?实际的输入是怎样的?
    - 例如:`Expected labels dimension=1. Received 4.`
3. [optional] 能否给出修改意见?
    - 例如:`Suggested Fix:If your classifier expects one-hot encoding label,check your n_classes argument to the estimatorand/or the shape of your label.Otherwise, check the shape of your label.`

如果并非必要或者简洁的描述即可表达清楚以上要点,根据情况书写亦可。

##### FAQ 典型问题

1. 无报错信息或报错信息过于简单,不能给用户提供有效的提示!

问题示例1 :未写提示信息
```
PADDLE_ENFORCE(ctx->HasInput("X"), "");
```
问题示例2 :提示信息过于简单
```
PADDLE_ENFORCE(i != nullptr, "I must be set"); // I是什么?
```

2. 在报错信息中使用开发人员定义的变量缩写,不易理解!

问题示例:
```
PADDLE_ENFORCE(forward_pd != nullptr,
                    "Fail to find eltwise_fwd_pd in device context");  //eltwise_fwd_pd用户可能看不懂
```

#### OP InferShape检查提示信息特别说明

- 检查输入输出变量,请统一遵循以下格式
`Input(变量名) of OP名 operator should not be null.`  

正确示例:
```
PADDLE_ENFORCE(ctx->HasInput("Input"),
                        "Input(Input) of LSTMP operator should not be null.");
```

- 反向Op的输入输出检查,要写明反向Op的名字

正确示例:
```
PADDLE_ENFORCE(ctx->HasInput("X"),
                        "Input(X) of LoDResetGrad opreator should not be null.");
```