new_op_cn.md 18.1 KB
Newer Older
J
Jeff Wang 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152
# 如何写新的Operator

 - [概念简介](#概念简介)
 - [实现C++类](#实现c类)
   - [定义ProtoMaker类](#定义protomaker类)
   - [定义Operator类](#定义operator类)
   - [定义OpKernel类](#定义opkernel类)
   - [注册Operator](#注册operator)
   - [编译](#编译)
 - [绑定Python](#绑定python)
 - [实现单元测试](#实现单元测试)
   - [前向Operator单测](#前向operator单测)
   - [反向Operator单测](#反向operator单测)
   - [编译和执行](#编译和执行)
 - [注意事项](#注意事项)


## 概念简介

简单介绍需要用到基类,详细介绍请参考设计文档。

- `framework::OperatorBase`: Operator(简写,Op)基类。
- `framework::OpKernel`: Op计算函数的基类,称作Kernel。
- `framework::OperatorWithKernel`:继承自OperatorBase,Op有计算函数,称作有Kernel。
- `class OpProtoAndCheckerMaker`:描述该Op的输入、输出、属性、注释,主要用于Python API接口生成

依据是否包含kernel,可以将Op分为两种:包含Kernel的Op和不包含kernel的Op,前者Op的定义继承自`OperatorWithKernel`,后者继承自`OperatorBase`。本教程主要介绍带Kernel的Op如何写,简单总结Op需要包含的内容如下:

<table>
<thead>
<tr>
<th>内容</th>
<th>定义位置</th>
</tr>
</thead>
<tbody>
<tr>
<td>OpProtoMake定义 </td>
<td>.cc 文件,Backward Op不需要定义OpProtoMake </td>
</tr>
<tr>
<td>Op定义 </td>
<td> .cc 文件</td>
</tr>
<tr>
<td>Kernel实现 </td>
<td> CPU、CUDA共享Kernel实现在.h 文件中,否则,CPU 实现在.cc 文件中,CUDA 实现在.cu 文件中。</td>
</tr>
<tr>
<td>注册Op </td>
<td> Op注册实现在.cc 文件;Kernel注册CPU实现在.cc 文件中,CUDA实现在.cu 文件中</td>
</tr>
</tbody>
</table>


实现新的op都添加至目录[paddle/fluid/operators](https://github.com/PaddlePaddle/Paddle/tree/develop/paddle/fluid/operators)下,文件命名以`*_op.h`(如有) 、 `*_op.cc``*_op.cu`(如有)结尾。**系统会根据文件名自动构建op和其对应的Python扩展。**


下面以矩阵乘操作,即[MulOp](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc)为例来介绍如何写带Kernel的Operator。


## 实现C++类


### 定义ProtoMaker类

矩阵乘法的公式:$Out = X * Y$, 可见该计算由两个输入,一个输出组成。

首先定义`ProtoMaker`来描述该Op的输入、输出,并添加注释:

```cpp
class MulOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
  MulOpMaker(OpProto *proto, OpAttrChecker *op_checker)
      : OpProtoAndCheckerMaker(proto, op_checker) {
    AddInput("X", "(Tensor), 2D tensor of size (M x K)");
    AddInput("Y", "(Tensor), 2D tensor of size (K x N)");
    AddOutput("Out", "(Tensor), 2D tensor of size (M x N)");
    AddComment(R"DOC(
Two Element Mul Operator.
The equation is: Out = X * Y
)DOC");
  }
};
```

[`MulOpMaker`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L76-L127)继承自`framework::OpProtoAndCheckerMaker`,构造函数含有2个参数:

   - `framework::OpProto` : 前者存储Op的输入输出和参数属性,将用于Python API接口的生成。
   - `framework::OpAttrChecker` :后者用于检查参数属性的合法性。

构造函数里通过`AddInput`添加输入参数,通过`AddOutput`添加输出参数,通过`AddComment`添加Op的注释。这些函数会将对应内容添加到`OpProto`中。

上面的代码在`MulOp`中添加两个输入`X``Y`,添加了一个输出`Out`,并解释了各自含义,命名请遵守[命名规范](https://github.com/PaddlePaddle/Paddle/blob/develop/doc/fluid/dev/name_convention.md)


再以[`ScaleOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/scale_op.cc#L38-L55)为例:

```cpp
template <typename AttrType>
class ScaleOpMaker : public framework::OpProtoAndCheckerMaker {
 public:
  ScaleOpMaker(OpProto *proto, OpAttrChecker *op_checker)
      : OpProtoAndCheckerMaker(proto, op_checker) {
    AddInput("X", "(Tensor) Input tensor of scale operator.");
    AddOutput("Out", "(Tensor) Output tensor of scale operator.");
    AddComment(R"DOC(
Scale operator
$$Out = scale*X$$
)DOC");
    AddAttr<AttrType>("scale",
                      "(float, default 1.0)"
                      "The scaling factor of the scale operator.")
        .SetDefault(1.0);
  }
};
```

这个例子有`AddAttr<AttrType>("scale", "...").SetDefault(1.0);` : 增加`scale`系数,作为参数属性,并且设置默认值为1.0。

### 定义GradProtoMaker类
每个Op的必须有一个对应的GraProtoMaker,若未定制对应前向Op的GradProtoMaker,fluid提供了DefaultGradProtoMaker,默认注册会使用全部输入输出,包括Input, Output, Output@Grad等,使用不需要的变量的会造成显存浪费。
下面示例定义了ScaleOp的GradProtoMaker。

```cpp
class ScaleGradMaker : public framework::SingleGradOpDescMaker {
 public:
  using framework::SingleGradOpDescMaker::SingleGradOpDescMaker;

  std::unique_ptr<framework::OpDesc> Apply() const override {
    auto *grad_op = new framework::OpDesc();
    grad_op->SetType("scale");
    grad_op->SetInput("X", OutputGrad("Out"));
    grad_op->SetOutput("Out", InputGrad("X"));
    grad_op->SetAttr("scale", GetAttr("scale"));
    return std::unique_ptr<framework::OpDesc>(grad_op);
  }
};
```

### 定义Operator类

下面实现了MulOp的定义:

```cpp
class MulOp : public framework::OperatorWithKernel {
 public:
  using framework::OperatorWithKernel::OperatorWithKernel;

 protected:
  void InferShape(const framework::InferShapeContext &ctx) const override {
T
Tink_Y 已提交
153
    //never use Input<Tensor> or Output<Tensor> if you want a to get a LoDTensor.
T
Tink_Y 已提交
154 155
    auto dim0 = ctx.Input<LoDTensor>("X")->dims();
    auto dim1 = ctx.Input<LoDTensor>("Y")->dims();
J
Jeff Wang 已提交
156 157 158 159 160 161 162 163 164
    PADDLE_ENFORCE_EQ(dim0.size(), 2,
                      "input X(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("X"));
    PADDLE_ENFORCE_EQ(dim1.size(), 2,
                      "input Y(%s) should be a tensor with 2 dims, a matrix",
                      ctx.op_.Input("Y"));
    PADDLE_ENFORCE_EQ(
        dim0[1], dim1[0],
        "First matrix's width must be equal with second matrix's height.");
T
Tink_Y 已提交
165
    ctx.Output<LoDTensor>("Out")->Resize({dim0[0], dim1[1]});
J
Jeff Wang 已提交
166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186
  }
};
```

[`MulOp`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/mul_op.cc#L22)继承自`OperatorWithKernel``public`成员:

```cpp
using framework::OperatorWithKernel::OperatorWithKernel;
```

这句表示使用基类`OperatorWithKernel`的构造函数,也可写成:

```cpp
MulOp(const std::string &type, const framework::VariableNameMap &inputs,
      const framework::VariableNameMap &outputs,
      const framework::AttributeMap &attrs)
  : OperatorWithKernel(type, inputs, outputs, attrs) {}
```

还需要重写`InferShape`接口。`InferShape`为const函数,不能修改Op的成员变量,参数为`const framework::InferShapeContext &ctx`,通过该参数可获取到输入输出以及属性。它的功能是:

T
Tink_Y 已提交
187 188
  - 做检查, 尽早报错:检查输入数据维度、类型等是否合法。
  - 设置输出Tensor的形状。
J
Jeff Wang 已提交
189 190 191 192 193 194 195 196 197 198 199 200

通常`OpProtoMaker``Op`类的定义写在`.cc`文件中,和下面将要介绍的注册函数一起放在`.cc`

### 定义OpKernel类

`MulKernel`继承自`framework::OpKernel`,带有下面两个模板参数:

- `typename DeviceContext`: 表示设备类型,不同设备(CPU、CUDA)共享同一个Kernel时,需加该模板参数,不共享则不加,一个不共享的例子是[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)

- `typename T` : 表示数据类型,如`float`, `double`等。

需要为`MulKernel`类重写`Compute`接口。
T
Tink_Y 已提交
201

J
Jeff Wang 已提交
202
- `Compute`接受一个输入参数:`const framework::ExecutionContext& context`
T
Tink_Y 已提交
203

J
Jeff Wang 已提交
204
-`InferShapeContext`相比,`ExecutionContext`增加了设备类型,同样可获取到输入输出和属性参数。
T
Tink_Y 已提交
205

J
Jeff Wang 已提交
206 207
- `Compute`函数里实现`OpKernel`的具体计算逻辑。

T
Tink_Y 已提交
208 209 210
Op的输入和输出可分别通过`ExecutionContext::Input<T>()``ExecutionContext::Output<T>()`获得。

**注意:** 若op的输入/输出的变量类型是`LoDTensor`(fluid默认所有的Tensor默认都是LoDTensor类型),请写成`ExecutionContext::Input<LoDTensor>()``ExecutionContext::Output<LoDTensor>()`,不要写`ExecutionContext::Input<Tensor>()``ExecutionContext::Output<Tensor>()`。因为若实际的变量类型为`SelectedRows``Input<Tensor>()``Output<Tensor>()`方法会将`SelectedRows`类型特化为`Tensor`,导致潜在的错误。
T
Tink_Y 已提交
211

J
Jeff Wang 已提交
212 213 214 215 216 217 218
下面是 `MulKernel` `Compute`的实现:

  ```cpp
  template <typename DeviceContext, typename T>
  class MulKernel : public framework::OpKernel {
  public:
  void Compute(const framework::ExecutionContext& context) const override {
T
Tink_Y 已提交
219 220 221
    auto* X = context.Input<LoDTensor>("X");
    auto* Y = context.Input<LoDTensor>("Y");
    auto* Z = context.Output<LoDTensor>("Out");
J
Jeff Wang 已提交
222 223 224 225 226 227 228 229 230 231 232
    Z->mutable_data<T>(context.GetPlace());
    auto& device_context = context.template device_context<DeviceContext>();
    math::matmul<DeviceContext, T>(*X, false, *Y, false, 1, Z, 0, device_context);
  }
  };
  ```

需要注意:**不同设备(CPU、CUDA)共享一个Op定义,是否则共享同一个`OpKernel`,取决于`Compute`调用的函数是否支持不同设备。**

`MulOp`的CPU、CUDA实现共享同一个`Kernel``OpKernel`不共享的例子可以参考:[`OnehotCrossEntropyOpKernel`](https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/fluid/operators/cross_entropy_op.h#L43)

T
Tink_Y 已提交
233
为了使`OpKernel`的计算过程书写更加简单,并且CPU、CUDA的代码可以复用,我们通常借助 Eigen unsupported Tensor模块来实现`Compute`接口。关于在PaddlePaddle中如何使用Eigen库,请参考[使用文档](https://github.com/PaddlePaddle/FluidDoc/blob/release/1.0/doc/fluid/dev/use_eigen_cn.md)
J
Jeff Wang 已提交
234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251

到此,前向Op实现完成。接下来,需要在`.cc`文件中注册该op和kernel。
反向Op类的定义,反向OpKernel的定义与前向Op类似,这里不再赘述。**但需注意反向Op没有`ProtoMaker`**

### 注册Operator

-`.cc`文件中注册前向、反向Op类,注册CPU Kernel。

    ```cpp
    namespace ops = paddle::operators;
    REGISTER_OPERATOR(mul, ops::MulOp, ops::MulOpMaker,
                  paddle::framework::DefaultGradOpDescMaker<true>)
    REGISTER_OPERATOR(mul_grad, ops::MulGradOp)
    REGISTER_OP_CPU_KERNEL(mul, ops::MulKernel<paddle::platform::CPUDeviceContext, float>);
    REGISTER_OP_CPU_KERNEL(mul_grad,
                  ops::MulGradKernel<paddle::platform::CPUDeviceContext, float>);
    ```

T
Tink_Y 已提交
252
    在上面的代码中:
J
Jeff Wang 已提交
253

T
Tink_Y 已提交
254 255 256
	   - `REGISTER_OPERATOR` : 注册`ops::MulOp`类,类型名为`mul`,该类的`ProtoMaker`为`ops::MulOpMaker`,注册`ops::MulOpGrad`,类型名为`mul_grad`。

	   - `REGISTER_OP_CPU_KERNEL` :注册`ops::MulKernel`类,并特化模板参数为`paddle::platform::CPUPlace`和`float`类型,同理,注册`ops::MulGradKernel`类。
J
Jeff Wang 已提交
257 258 259 260 261


-`.cu`文件中注册CUDA Kernel。
    - 请注意,如果CUDA Kernel的实现基于Eigen unsupported模块,那么在 `.cu`的开始请加上宏定义 `#define EIGEN_USE_GPU`,代码示例如下:

T
Tink_Y 已提交
262

J
Jeff Wang 已提交
263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298
    ```cpp
    // if use Eigen unsupported module before include head files
    #define EIGEN_USE_GPU

    namespace ops = paddle::operators;
    REGISTER_OP_CUDA_KERNEL(mul, ops::MulKernel<paddle::platform::CUDADeviceContext, float>);
    REGISTER_OP_CUDA_KERNEL(mul_grad,
                           ops::MulGradKernel<paddle::platform::CUDADeviceContext, float>);
    ```

### 编译

运行下面命令可以进行编译:

```
make mul_op
```

## 绑定Python

系统会对新增的op自动绑定Python,并链接到生成的lib库中。

## 实现单元测试

单测包括对比前向Op不同设备(CPU、CUDA)的实现、对比反向OP不同设备(CPU、CUDA)的实现、反向Op的梯度测试。下面介绍介绍[`MulOp`的单元测试](https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/fluid/tests/unittests/test_mul_op.py)

### 前向Operator单测

Op单元测试继承自`OpTest`。各项更加具体的单元测试在`TestMulOp`里完成。测试Operator,需要:

1.`setUp`函数定义输入、输出,以及相关的属性参数。
2. 生成随机的输入数据。
3. 在Python脚本中实现与前向operator相同的计算逻辑,得到输出值,与operator前向计算的输出进行对比。
4. 反向计算已经自动集成进测试框架,直接调用相应接口即可。


T
Tink_Y 已提交
299 300 301 302
	  ```python
	  import unittest
	  import numpy as np
	  from op_test import OpTest
J
Jeff Wang 已提交
303 304


T
Tink_Y 已提交
305 306 307 308 309 310 311 312
	  class TestMulOp(OpTest):
	      def setUp(self):
	          self.op_type = "mul"
	          self.inputs = {
	              'X': np.random.random((32, 84)).astype("float32"),
	              'Y': np.random.random((84, 100)).astype("float32")
	          }
	          self.outputs = {'Out': np.dot(self.inputs['X'], self.inputs['Y'])}
J
Jeff Wang 已提交
313

T
Tink_Y 已提交
314 315
	      def test_check_output(self):
	          self.check_output()
J
Jeff Wang 已提交
316

T
Tink_Y 已提交
317 318
	      def test_check_grad_normal(self):
	          self.check_grad(['X', 'Y'], 'Out', max_relative_error=0.5)
J
Jeff Wang 已提交
319

T
Tink_Y 已提交
320 321 322
	      def test_check_grad_ingore_x(self):
	          self.check_grad(
	              ['Y'], 'Out', max_relative_error=0.5, no_grad_set=set("X"))
J
Jeff Wang 已提交
323

T
Tink_Y 已提交
324 325 326 327
	      def test_check_grad_ingore_y(self):
	          self.check_grad(
	              ['X'], 'Out', max_relative_error=0.5, no_grad_set=set('Y'))
	  ```
J
Jeff Wang 已提交
328

T
Tink_Y 已提交
329
	上面的代码首先导入依赖的包,下面是对`setUp`函数中操作的重要变量的详细解释:
J
Jeff Wang 已提交
330

T
Tink_Y 已提交
331 332 333
	- `self.op_type = "mul" ` : 定义类型,与operator注册时注册的类型一致。
	- `self.inputs` : 定义输入,类型为`numpy.array`,并初始化。
	- `self.outputs` : 定义输出,并在Python脚本中完成与operator同样的计算逻辑,返回Python端的计算结果。
J
Jeff Wang 已提交
334 335 336 337

### 反向operator单测

而反向测试中:
T
Tink_Y 已提交
338

J
Jeff Wang 已提交
339 340 341 342
- `test_check_grad_normal`中调用`check_grad`使用数值法检测梯度正确性和稳定性。
  - 第一个参数`["X", "Y"]` : 指定对输入变量`X``Y`做梯度检测。
  - 第二个参数`"Out"` : 指定前向网络最终的输出目标变量`Out`
  - 第三个参数`max_relative_error`:指定检测梯度时能容忍的最大错误值。
T
Tink_Y 已提交
343

J
Jeff Wang 已提交
344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387
- `test_check_grad_ingore_x``test_check_grad_ingore_y`分支用来测试只需要计算一个输入梯度的情况。


### 编译和执行

`python/paddle/fluid/tests/unittests/` 目录下新增的 `test_*.py` 单元测试会被自动加入工程进行编译。

请注意,**不同于Op的编译测试,运行单元测试测时需要编译整个工程**,并且编译时需要打开`WITH_TESTING`, 即`cmake paddle_dir -DWITH_TESTING=ON`。编译成功后,执行下面的命令来运行单元测试:

```bash
make test ARGS="-R test_mul_op -V"
```

或者:

```bash
ctest -R test_mul_op
```

## 注意事项

- 注册Op时的类型名,需要和该Op的名字一样。即不允许在`A_op.cc`里面,注册`REGISTER_OPERATOR(B, ...)`等,这将会导致单元测试出错。
- 如果Op没有实现CUDA Kernel,请不要创建空的`*_op.cu`,这将会导致单元测试出错。
- 如果多个Op依赖一些共用的函数,可以创建非`*_op.*`格式的文件来存放,如`gather.h`文件。

### PADDLE_ENFORCE使用注意

实现Op时检查数据的合法性需要使用PADDLE_ENFORCE以及PADDLE_ENFORCE_EQ等宏定义,基本格式如下:

```
PADDLE_ENFORCE(表达式, 错误提示信息)
PADDLE_ENFORCE_EQ(比较对象A, 比较对象B, 错误提示信息)
```

如果表达式为真,或者比较对象A=B,则检查通过,否则会终止程序运行,向用户反馈相应的错误提示信息。
为了确保提示友好易懂,开发者需要注意其使用方法。

#### 总体原则

任何使用了PADDLE_ENFORCE与PADDLE_ENFORCE_**检查的地方,必须有详略得当的备注解释!**错误提示信息**不能为空!

#### 提示信息书写标准

1. [required] 哪里错了?为什么错了?
T
Tink_Y 已提交
388

J
Jeff Wang 已提交
389
    - 例如:`ValueError: Mismatched label shape`
T
Tink_Y 已提交
390

J
Jeff Wang 已提交
391
2. [optional] 期望的输入是什么样的?实际的输入是怎样的?
T
Tink_Y 已提交
392

J
Jeff Wang 已提交
393
    - 例如:`Expected labels dimension=1. Received 4.`
T
Tink_Y 已提交
394

J
Jeff Wang 已提交
395
3. [optional] 能否给出修改意见?
T
Tink_Y 已提交
396

J
Jeff Wang 已提交
397 398 399 400
    - 例如:`Suggested Fix:If your classifier expects one-hot encoding label,check your n_classes argument to the estimatorand/or the shape of your label.Otherwise, check the shape of your label.`

如果并非必要或者简洁的描述即可表达清楚以上要点,根据情况书写亦可。

T
Tink_Y 已提交
401
#### FAQ 典型问题
J
Jeff Wang 已提交
402 403 404

1. 无报错信息或报错信息过于简单,不能给用户提供有效的提示!

T
Tink_Y 已提交
405 406 407 408 409 410 411 412
	问题示例1 :未写提示信息
	```
	PADDLE_ENFORCE(ctx->HasInput("X"), "");
	```
	问题示例2 :提示信息过于简单
	```
	PADDLE_ENFORCE(i != nullptr, "i must be set"); // i是什么?
	```
J
Jeff Wang 已提交
413 414 415

2. 在报错信息中使用开发人员定义的变量缩写,不易理解!

T
Tink_Y 已提交
416 417 418 419 420
	问题示例:
	```
	PADDLE_ENFORCE(forward_pd != nullptr,
	                    "Fail to find eltwise_fwd_pd in device context");  //eltwise_fwd_pd用户可能看不懂
	```
J
Jeff Wang 已提交
421 422

3. OP内部调用非法接口:Op内部如果出现Output = ShareDataWith(Input) 
T
Tink_Y 已提交
423 424 425 426 427 428 429
	问题示例:
	```cpp
	auto *out = ctx.Output<framework::LoDTensor>("Out");
	auto *in = ctx.Input<framework::LoDTensor>("X");
	out->ShareDataWith(*in);
	```
	Op内部如果出现Output = ShareDataWith(Input),相当于operator图的中有一条隐藏边,连接了Input和Output,这条边无法在图分析中表达,引发基于图优化的错误。
J
Jeff Wang 已提交
430 431

4. OP实现的性能实践
T
Tink_Y 已提交
432
	调用了eigen的broadcast, chop等操作,性能会比手写cuda kernel差几倍以上。此时cpu的实现可以复用eigen,gpu实现可以实现cuda kernel.
J
Jeff Wang 已提交
433 434 435 436 437 438 439


#### OP InferShape检查提示信息特别说明

- 检查输入输出变量,请统一遵循以下格式
`Input(变量名) of OP名 operator should not be null.`  

T
Tink_Y 已提交
440 441 442 443 444
	正确示例:
	```
	PADDLE_ENFORCE(ctx->HasInput("Input"),
	                        "Input(Input) of LSTMP operator should not be null.");
	```
J
Jeff Wang 已提交
445 446 447

- 反向Op的输入输出检查,要写明反向Op的名字

T
Tink_Y 已提交
448 449 450 451 452
	正确示例:
	```
	PADDLE_ENFORCE(ctx->HasInput("X"),
	                        "Input(X) of LoDResetGrad opreator should not be null.");
	```