new_op_cn.md 17.4 KB
Newer Older
1 2 3
# 如何写新的Operator

 - [概念简介](#概念简介)
T
tensor-tang 已提交
4 5 6 7 8
 - [实现C++类](#实现c类)
   - [定义ProtoMaker类](#定义protomaker类)
   - [定义Operator类](#定义operator类)
   - [定义OpKernel类](#定义opkernel类)
   - [注册Operator](#注册operator)
9
   - [编译](#编译)
T
tensor-tang 已提交
10
 - [绑定Python](#绑定python)
11
 - [实现单元测试](#实现单元测试)
T
tensor-tang 已提交
12 13
   - [前向Operator单测](#前向operator单测)
   - [反向Operator单测](#反向operator单测)
14
   - [编译和执行](#编译和执行)
T
tensor-tang 已提交
15
 - [注意事项](#注意事项)
16 17 18 19 20 21 22 23 24 25 26


## 概念简介

简单介绍需要用到基类,详细介绍请参考设计文档。

- `framework::OperatorBase`: Operator(简写,Op)基类。
- `framework::OpKernel`: Op计算函数的基类,称作Kernel。
- `framework::OperatorWithKernel`:继承自OperatorBase,Op有计算函数,称作有Kernel。
- `class OpProtoAndCheckerMaker`:描述该Op的输入、输出、属性、注释,主要用于Python API接口生成

Y
Yancey1989 已提交
27
依据是否包含kernel,可以将Op分为两种:包含Kernel的Op和不包含kernel的Op,前者Op的定义继承自`OperatorWithKernel`,后者继承自`OperatorBase`。本教程主要介绍带Kernel的Op如何写,简单总结Op需要包含的内容如下:
28

_青葱's avatar
_青葱 已提交
29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
<table>
<thead>
<tr>
<th>内容</th>
<th>定义位置</th>
</tr>
</thead>
<tbody>
<tr>
<td>OpProtoMake定义 </td>
<td>`.cc`文件,Backward Op不需要定义OpProtoMake </td>
</tr>
<tr>
<td>Op定义 </td>
<td> `.cc`文件</td>
</tr>
<tr>
<td>Kernel实现 </td>
<td> CPU、CUDA共享Kernel实现在`.h`文件中,否则,CPU 实现在`.cc`文件中,CUDA 实现在`.cu`文件中。</td>
</tr>
<tr>
<td>注册Op </td>
<td> Op注册实现在`.cc`文件;Kernel注册CPU实现在`.cc`文件中,CUDA实现在`.cu`文件中</td>
</tr>
</tbody>
</table>
C
caoying03 已提交
55

56

Y
Yang Yang(Tony) 已提交
57
实现新的op都添加至目录[paddle/fluid/operators](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/fluid/operators)下,文件命名以`*_op.h`(如有) 、 `*_op.cc``*_op.cu`(如有)结尾。**系统会根据文件名自动构建op和其对应的Python扩展。**
58 59


Y
Yang Yang(Tony) 已提交
60
下面以矩阵乘操作,即[MulOp](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc)为例来介绍如何写带Kernel的Operator。
61

C
caoying03 已提交
62

63 64 65
## 实现C++类


T
tensor-tang 已提交
66
### 定义ProtoMaker类
67

C
caoying03 已提交
68 69 70
矩阵乘法的公式:$Out = X * Y$, 可见该计算由两个输入,一个输出组成。

首先定义`ProtoMaker`来描述该Op的输入、输出,并添加注释:
71 72

```cpp
Q
qingqing01 已提交
73 74
class MulOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
75
  MulOpMaker(OpProto *proto, OpAttrChecker *op_checker)
Q
qingqing01 已提交
76
      : OpProtoAndCheckerMaker(proto, op_checker) {
D
dongzhihong 已提交
77 78 79
    AddInput("X", "(Tensor), 2D tensor of size (M x K)");
    AddInput("Y", "(Tensor), 2D tensor of size (K x N)");
    AddOutput("Out", "(Tensor), 2D tensor of size (M x N)");
Q
qingqing01 已提交
80 81 82 83 84 85 86
    AddComment(R"DOC(
Two Element Mul Operator.
The equation is: Out = X * Y
)DOC");
  }
};
```
87

Y
Yang Yang(Tony) 已提交
88
[`MulOpMaker`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L76-L127)继承自`framework::OpProtoAndCheckerMaker`,构造函数含有2个参数:
89 90 91

   - `framework::OpProto` : 前者存储Op的输入输出和参数属性,将用于Python API接口的生成。
   - `framework::OpAttrChecker` :后者用于检查参数属性的合法性。
92

C
caoying03 已提交
93
构造函数里通过`AddInput`添加输入参数,通过`AddOutput`添加输出参数,通过`AddComment`添加Op的注释。这些函数会将对应内容添加到`OpProto`中。
94

Y
Yang Yang(Tony) 已提交
95
上面的代码在`MulOp`中添加两个输入`X``Y`,添加了一个输出`Out`,并解释了各自含义,命名请遵守[命名规范](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/dev/name_convention.md)
96

97

Y
Yang Yang(Tony) 已提交
98
再以[`ScaleOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/scale_op.cc#L38-L55)为例:
99 100

```cpp
Q
qingqing01 已提交
101
template <typename AttrType>
102 103
class ScaleOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
104
  ScaleOpMaker(OpProto *proto, OpAttrChecker *op_checker)
105
      : OpProtoAndCheckerMaker(proto, op_checker) {
Y
Yang Yang(Tony) 已提交
106 107 108 109 110
    AddInput("X", "(Tensor) Input tensor of scale operator.");
    AddOutput("Out", "(Tensor) Output tensor of scale operator.");
    AddComment(R"DOC(
Scale operator
$$Out = scale*X$$
111
)DOC");
Y
Yang Yang(Tony) 已提交
112 113 114 115
    AddAttr<AttrType>("scale",
                      "(float, default 1.0)"
                      "The scaling factor of the scale operator.")
        .SetDefault(1.0);
116 117 118
  }
};
```
119

Y
Yang Yang(Tony) 已提交
120
这个例子有`AddAttr<AttrType>("scale", "...").SetDefault(1.0);` : 增加`scale`系数,作为参数属性,并且设置默认值为1.0。
121

D
dzhwinter 已提交
122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140
### 定义GradProtoMaker类
每个Op的必须有一个对应的GraProtoMaker,若未定制对应前向Op的GradProtoMaker,fluid提供了DefaultGradProtoMaker,默认注册会使用全部输入输出,包括Input, Output, Output@Grad等,使用不需要的变量的会造成显存浪费。
下面示例定义了ScaleOp的GradProtoMaker。

```cpp
class ScaleGradMaker : public framework::SingleGradOpDescMaker {
 public:
  using framework::SingleGradOpDescMaker::SingleGradOpDescMaker;

  std::unique_ptr<framework::OpDesc> Apply() const override {
    auto *grad_op = new framework::OpDesc();
    grad_op->SetType("scale");
    grad_op->SetInput("X", OutputGrad("Out"));
    grad_op->SetOutput("Out", InputGrad("X"));
    grad_op->SetAttr("scale", GetAttr("scale"));
    return std::unique_ptr<framework::OpDesc>(grad_op);
  }
};
```
141

T
tensor-tang 已提交
142
### 定义Operator类
143

D
dzhwinter 已提交
144
下面实现了MulOp的定义:
145

146
```cpp
Q
qingqing01 已提交
147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167
class MulOp : public framework::OperatorWithKernel {
 public:
  using framework::OperatorWithKernel::OperatorWithKernel;

 protected:
  void InferShape(const framework::InferShapeContext &ctx) const override {
    auto dim0 = ctx.Input<Tensor>("X")->dims();
    auto dim1 = ctx.Input<Tensor>("Y")->dims();
    PADDLE_ENFORCE_EQ(dim0.size(), 2,
                      "input X(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("X"));
    PADDLE_ENFORCE_EQ(dim1.size(), 2,
                      "input Y(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("Y"));
    PADDLE_ENFORCE_EQ(
        dim0[1], dim1[0],
        "First matrix's width must be equal with second matrix's height.");
    ctx.Output<Tensor>("Out")->Resize({dim0[0], dim1[1]});
  }
};
```
168

W
weixing02 已提交
169
[`MulOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L22)继承自`OperatorWithKernel``public`成员:
170 171

```cpp
172 173 174 175
using framework::OperatorWithKernel::OperatorWithKernel;
```

这句表示使用基类`OperatorWithKernel`的构造函数,也可写成:
176 177

```cpp
Q
qingqing01 已提交
178 179 180 181
MulOp(const std::string &type, const framework::VariableNameMap &inputs,
      const framework::VariableNameMap &outputs,
      const framework::AttributeMap &attrs)
  : OperatorWithKernel(type, inputs, outputs, attrs) {}
182 183
```

184
还需要重写`InferShape`接口。`InferShape`为const函数,不能修改Op的成员变量,参数为`const framework::InferShapeContext &ctx`,通过该参数可获取到输入输出以及属性。它的功能是:
185 186 187

  - 1). 做检查, 尽早报错:检查输入数据维度、类型等是否合法。
  - 2). 设置输出Tensor的形状。
188

C
caoying03 已提交
189
通常`OpProtoMaker``Op`类的定义写在`.cc`文件中,和下面将要介绍的注册函数一起放在`.cc`
190

T
tensor-tang 已提交
191
### 定义OpKernel类
192

C
caoying03 已提交
193 194
`MulKernel`继承自`framework::OpKernel`,带有下面两个模板参数:

W
weixing02 已提交
195
- `typename DeviceContext`: 表示设备类型,不同设备(CPU、CUDA)共享同一个Kernel时,需加该模板参数,不共享则不加,一个不共享的例子是[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)
C
caoying03 已提交
196 197 198 199 200 201 202 203 204 205 206

- `typename T` : 表示数据类型,如`float`, `double`等。

需要为`MulKernel`类重写`Compute`接口。
- `Compute`接受一个输入参数:`const framework::ExecutionContext& context`
-`InferShapeContext`相比,`ExecutionContext`增加了设备类型,同样可获取到输入输出和属性参数。
- `Compute`函数里实现`OpKernel`的具体计算逻辑。

下面是 `MulKernel` `Compute`的实现:

  ```cpp
Q
QI JUN 已提交
207
  template <typename DeviceContext, typename T>
C
caoying03 已提交
208 209
  class MulKernel : public framework::OpKernel {
  public:
210 211 212 213 214
  void Compute(const framework::ExecutionContext& context) const override {
    auto* X = context.Input<Tensor>("X");
    auto* Y = context.Input<Tensor>("Y");
    auto* Z = context.Output<Tensor>("Out");
    Z->mutable_data<T>(context.GetPlace());
Q
QI JUN 已提交
215 216
    auto& device_context = context.template device_context<DeviceContext>();
    math::matmul<DeviceContext, T>(*X, false, *Y, false, 1, Z, 0, device_context);
217
  }
C
caoying03 已提交
218
  };
T
tensor-tang 已提交
219
  ```
220

Q
QI JUN 已提交
221
需要注意:**不同设备(CPU、CUDA)共享一个Op定义,是否则共享同一个`OpKernel`,取决于`Compute`调用的函数是否支持不同设备。**
222

W
weixing02 已提交
223
`MulOp`的CPU、CUDA实现共享同一个`Kernel``OpKernel`不共享的例子可以参考:[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)
224

W
weixing02 已提交
225
为了使`OpKernel`的计算过程书写更加简单,并且CPU、CUDA的代码可以复用,我们通常借助 Eigen unsupported Tensor模块来实现`Compute`接口。关于在PaddlePaddle中如何使用Eigen库,请参考[使用文档](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/dev/use_eigen_cn.md)
226

C
caoying03 已提交
227 228
到此,前向Op实现完成。接下来,需要在`.cc`文件中注册该op和kernel。
反向Op类的定义,反向OpKernel的定义与前向Op类似,这里不再赘述。**但需注意反向Op没有`ProtoMaker`**
Q
qijun 已提交
229

T
tensor-tang 已提交
230
### 注册Operator
231

C
caoying03 已提交
232
-`.cc`文件中注册前向、反向Op类,注册CPU Kernel。
233

C
caoying03 已提交
234 235
    ```cpp
    namespace ops = paddle::operators;
Y
Yang Yang(Tony) 已提交
236 237 238
    REGISTER_OPERATOR(mul, ops::MulOp, ops::MulOpMaker,
                  paddle::framework::DefaultGradOpDescMaker<true>)
    REGISTER_OPERATOR(mul_grad, ops::MulGradOp)
Q
QI JUN 已提交
239
    REGISTER_OP_CPU_KERNEL(mul, ops::MulKernel<paddle::platform::CPUDeviceContext, float>);
C
caoying03 已提交
240
    REGISTER_OP_CPU_KERNEL(mul_grad,
Q
QI JUN 已提交
241
                  ops::MulGradKernel<paddle::platform::CPUDeviceContext, float>);
C
caoying03 已提交
242
    ```
243

C
caoying03 已提交
244
   在上面的代码中:
245

Y
Yang Yang(Tony) 已提交
246
    - `REGISTER_OPERATOR` : 注册`ops::MulOp`类,类型名为`mul`,该类的`ProtoMaker`为`ops::MulOpMaker`,注册`ops::MulOpGrad`,类型名为`mul_grad`。
K
kexinzhao 已提交
247
    - `REGISTER_OP_CPU_KERNEL` :注册`ops::MulKernel`类,并特化模板参数为`paddle::platform::CPUPlace`和`float`类型,同理,注册`ops::MulGradKernel`类。
248

249

Q
QI JUN 已提交
250 251
-`.cu`文件中注册CUDA Kernel。
    - 请注意,如果CUDA Kernel的实现基于Eigen unsupported模块,那么在 `.cu`的开始请加上宏定义 `#define EIGEN_USE_GPU`,代码示例如下:
252

C
caoying03 已提交
253 254
    ```cpp
    // if use Eigen unsupported module before include head files
Q
QI JUN 已提交
255
    #define EIGEN_USE_GPU
Q
qijun 已提交
256

C
caoying03 已提交
257
    namespace ops = paddle::operators;
Q
QI JUN 已提交
258 259 260
    REGISTER_OP_CUDA_KERNEL(mul, ops::MulKernel<paddle::platform::CUDADeviceContext, float>);
    REGISTER_OP_CUDA_KERNEL(mul_grad,
                           ops::MulGradKernel<paddle::platform::CUDADeviceContext, float>);
C
caoying03 已提交
261
    ```
262

T
tensor-tang 已提交
263
### 编译
264

L
Luo Tao 已提交
265
运行下面命令可以进行编译:
266

L
Luo Tao 已提交
267 268 269
```
make mul_op
```
270 271 272

## 绑定Python

L
Luo Tao 已提交
273
系统会对新增的op自动绑定Python,并链接到生成的lib库中。
274 275 276

## 实现单元测试

Y
Yang Yang(Tony) 已提交
277
单测包括对比前向Op不同设备(CPU、CUDA)的实现、对比反向OP不同设备(CPU、CUDA)的实现、反向Op的梯度测试。下面介绍介绍[`MulOp`的单元测试](https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/fluid/tests/unittests/test_mul_op.py)
278

T
tensor-tang 已提交
279
### 前向Operator单测
280

Q
QI JUN 已提交
281
Op单元测试继承自`OpTest`。各项更加具体的单元测试在`TestMulOp`里完成。测试Operator,需要:
282

C
caoying03 已提交
283 284 285
1.`setUp`函数定义输入、输出,以及相关的属性参数。
2. 生成随机的输入数据。
3. 在Python脚本中实现与前向operator相同的计算逻辑,得到输出值,与operator前向计算的输出进行对比。
Q
QI JUN 已提交
286
4. 反向计算已经自动集成进测试框架,直接调用相应接口即可。
287 288


C
caoying03 已提交
289 290 291
  ```python
  import unittest
  import numpy as np
Q
QI JUN 已提交
292
  from op_test import OpTest
C
caoying03 已提交
293

294

Q
QI JUN 已提交
295
  class TestMulOp(OpTest):
C
caoying03 已提交
296
      def setUp(self):
Q
QI JUN 已提交
297
          self.op_type = "mul"
C
caoying03 已提交
298 299 300 301 302 303
          self.inputs = {
              'X': np.random.random((32, 84)).astype("float32"),
              'Y': np.random.random((84, 100)).astype("float32")
          }
          self.outputs = {'Out': np.dot(self.inputs['X'], self.inputs['Y'])}

Q
QI JUN 已提交
304 305
      def test_check_output(self):
          self.check_output()
306

Q
QI JUN 已提交
307 308
      def test_check_grad_normal(self):
          self.check_grad(['X', 'Y'], 'Out', max_relative_error=0.5)
309

Q
QI JUN 已提交
310 311 312
      def test_check_grad_ingore_x(self):
          self.check_grad(
              ['Y'], 'Out', max_relative_error=0.5, no_grad_set=set("X"))
313

Q
QI JUN 已提交
314 315 316
      def test_check_grad_ingore_y(self):
          self.check_grad(
              ['X'], 'Out', max_relative_error=0.5, no_grad_set=set('Y'))
T
tensor-tang 已提交
317
  ```
318

Q
QI JUN 已提交
319
上面的代码首先导入依赖的包,下面是对`setUp`函数中操作的重要变量的详细解释:
320

Q
QI JUN 已提交
321 322 323
- `self.op_type = "mul" ` : 定义类型,与operator注册时注册的类型一致。
- `self.inputs` : 定义输入,类型为`numpy.array`,并初始化。
- `self.outputs` : 定义输出,并在Python脚本中完成与operator同样的计算逻辑,返回Python端的计算结果。
324

T
tensor-tang 已提交
325 326
### 反向operator单测

Q
QI JUN 已提交
327
而反向测试中:
328 329 330 331 332
- `test_check_grad_normal`中调用`check_grad`使用数值法检测梯度正确性和稳定性。
  - 第一个参数`["X", "Y"]` : 指定对输入变量`X``Y`做梯度检测。
  - 第二个参数`"Out"` : 指定前向网络最终的输出目标变量`Out`
  - 第三个参数`max_relative_error`:指定检测梯度时能容忍的最大错误值。
- `test_check_grad_ingore_x``test_check_grad_ingore_y`分支用来测试只需要计算一个输入梯度的情况。
333 334


T
tensor-tang 已提交
335
### 编译和执行
336

Y
Yang Yang(Tony) 已提交
337
`python/paddle/fluid/tests/unittests/` 目录下新增的 `test_*.py` 单元测试会被自动加入工程进行编译。
338

C
caoying03 已提交
339
请注意,**不同于Op的编译测试,运行单元测试测时需要编译整个工程**,并且编译时需要打开`WITH_TESTING`, 即`cmake paddle_dir -DWITH_TESTING=ON`。编译成功后,执行下面的命令来运行单元测试:
340

C
caoying03 已提交
341
```bash
342 343
make test ARGS="-R test_mul_op -V"
```
C
caoying03 已提交
344

345 346
或者:

C
caoying03 已提交
347
```bash
348 349
ctest -R test_mul_op
```
L
Luo Tao 已提交
350 351 352

## 注意事项

Y
Yang Yang(Tony) 已提交
353
- 注册Op时的类型名,需要和该Op的名字一样。即不允许在`A_op.cc`里面,注册`REGISTER_OPERATOR(B, ...)`等,这将会导致单元测试出错。
Q
QI JUN 已提交
354
- 如果Op没有实现CUDA Kernel,请不要创建空的`*_op.cu`,这将会导致单元测试出错。
L
Luo Tao 已提交
355
- 如果多个Op依赖一些共用的函数,可以创建非`*_op.*`格式的文件来存放,如`gather.h`文件。
356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404

### PADDLE_ENFORCE使用注意

实现Op时检查数据的合法性需要使用PADDLE_ENFORCE以及PADDLE_ENFORCE_EQ等宏定义,基本格式如下:

```
PADDLE_ENFORCE(表达式, 错误提示信息)
PADDLE_ENFORCE_EQ(比较对象A, 比较对象B, 错误提示信息)
```

如果表达式为真,或者比较对象A=B,则检查通过,否则会终止程序运行,向用户反馈相应的错误提示信息。
为了确保提示友好易懂,开发者需要注意其使用方法。

#### 总体原则

任何使用了PADDLE_ENFORCE与PADDLE_ENFORCE_**检查的地方,必须有详略得当的备注解释!**错误提示信息**不能为空!

#### 提示信息书写标准

1. [required] 哪里错了?为什么错了?
    - 例如:`ValueError: Mismatched label shape`
2. [optional] 期望的输入是什么样的?实际的输入是怎样的?
    - 例如:`Expected labels dimension=1. Received 4.`
3. [optional] 能否给出修改意见?
    - 例如:`Suggested Fix:If your classifier expects one-hot encoding label,check your n_classes argument to the estimatorand/or the shape of your label.Otherwise, check the shape of your label.`

如果并非必要或者简洁的描述即可表达清楚以上要点,根据情况书写亦可。

##### FAQ 典型问题

1. 无报错信息或报错信息过于简单,不能给用户提供有效的提示!

问题示例1 :未写提示信息
```
PADDLE_ENFORCE(ctx->HasInput("X"), "");
```
问题示例2 :提示信息过于简单
```
PADDLE_ENFORCE(i != nullptr, "I must be set"); // I是什么?
```

2. 在报错信息中使用开发人员定义的变量缩写,不易理解!

问题示例:
```
PADDLE_ENFORCE(forward_pd != nullptr,
                    "Fail to find eltwise_fwd_pd in device context");  //eltwise_fwd_pd用户可能看不懂
```

D
dzhwinter 已提交
405 406 407 408 409 410 411 412 413 414 415 416 417
3. OP内部调用非法接口:Op内部如果出现Output = ShareDataWith(Input) 
问题示例:
```cpp
auto *out = ctx.Output<framework::LoDTensor>("Out");
auto *in = ctx.Input<framework::LoDTensor>("X");
out->ShareDataWith(*in);
```
Op内部如果出现Output = ShareDataWith(Input),相当于operator图的中有一条隐藏边,连接了Input和Output,这条边无法在图分析中表达,引发基于图优化的错误。

4. OP实现的性能实践
调用了eigen的broadcast, chop等操作,性能会比手写cuda kernel差几倍以上。此时cpu的实现可以复用eigen,gpu实现可以实现cuda kernel.


418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435
#### OP InferShape检查提示信息特别说明

- 检查输入输出变量,请统一遵循以下格式
`Input(变量名) of OP名 operator should not be null.`  

正确示例:
```
PADDLE_ENFORCE(ctx->HasInput("Input"),
                        "Input(Input) of LSTMP operator should not be null.");
```

- 反向Op的输入输出检查,要写明反向Op的名字

正确示例:
```
PADDLE_ENFORCE(ctx->HasInput("X"),
                        "Input(X) of LoDResetGrad opreator should not be null.");
```