[DOC][cherry-pick] fix doc and update supported op list, test=develop, test=docume… (#4272)

* [DOC] fix doc and update supported op list, test=develop, test=document_fix (#4248)

[DOC][cherry-pick] fix doc and update supported op list, test=develop, test=docume… (#4272)
* [DOC] fix doc and update supported op list, test=develop, test=document_fix (#4248)
c9dab9e4 · Qi Li · GitHub · cd53c297 · c9dab9e4 · c9dab9e4
8 changed file
--- a/README.md
+++ b/README.md
@@ -46,10 +46,10 @@ Paddle Lite提供了C++、Java、Python三种API，并且提供了相应API的
 - [CUDA示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/cuda.html)
 - [OpenCL示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/opencl.html)
 - [FPGA示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/fpga.html)
- [Huawei NPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/npu.html)
+- [华为NPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/huawei_kirin_npu.html)
- [Baidu XPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/baidu_xpu.html)
+- [百度XPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/baidu_xpu.html)
- [RKNPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/rockchip_npu.html)
+- [瑞芯微NPU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/rockchip_npu.html)
- [MTK APU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/mediatek_apu.html)
+- [联发科APU示例](https://paddle-lite.readthedocs.io/zh/latest/demo_guides/mediatek_apu.html)

--- a/docs/introduction/support_operation_list.md
+++ b/docs/introduction/support_operation_list.md
-# 支持OP
+# 支持算子
-## Ops （共计158个算子）
+当前Paddle-Lite共计支持算子204个，其中基础算子78个，附加算子126个。
-### Basic Operators (默认编译的算子)
+### 基础算子
- affine_channel
- arg_max
- batch_norm
- bilinear_interp
- box_coder
- calib
- cast
- concat
- conv2d
- conv2d_transpose
- density_prior_box
- depthwise_conv2d
- dropout
- elementwise_add
- elementwise_div
- elementwise_max
- elementwise_mul
- elementwise_sub
- exp
- expand
- fake_channel_wise_dequantize_max_abs
- fake_dequantize_max_abs
- fake_quantize_abs_max
- fake_quantize_dequantize_moving_average_abs_max
- fake_quantize_moving_average_abs_max
- fake_quantize_range_abs_max
- fc
- feed
- fetch
- fill_constant
- fill_constant_batch_size_like
- flatten
- flatten2
- floor
- fusion_elementwise_add_activation
- fusion_elementwise_div_activation
- fusion_elementwise_max_activation
- fusion_elementwise_mul_activation
- fusion_elementwise_sub_activation
- gelu
- grid_sampler
- hard_sigmoid
- instance_norm
- io_copy
- io_copy_once
- layout
- leaky_relu
- log
- matmul
- mean
- mul
- multiclass_nms
- nearest_interp
- pad2d
- pool2d
- prelu
- prior_box
- range
- reduce_mean
- relu
- relu6
- relu_clipped
- reshape
- reshape2
- rsqrt
- scale
- search_fc
- sequence_topk_avg_pooling
- shuffle_channel
- sigmoid
- slice
- softmax
- softsign
- split
- sqrt
- square
- squeeze
- squeeze2
- stack
- subgraph
- swish
- tanh
- transpose
- transpose2
- unsqueeze
- unsqueeze2
- yolo_box
-### Extra Operators (打开 `--build_extra=ON`开关才会编译)
+默认编译的算子，共计78个：
- anchor_generator
+| OP Name | Host | X86 | CUDA | ARM | OpenCL | FPGA | 华为NPU | 百度XPU | 瑞芯微NPU | 联发科APU |
- assign
+|-:|-|-|-|-|-|-|-|-|-|-|
- assign_value
+| affine_channel | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- attention_padding_mask
+| affine_grid | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- axpy
+| arg_max | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- beam_search
+| assign_value | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- beam_search_decode
+| batch_norm | 　 | Y | 　 | Y | 　 | 　 | Y | Y | Y | 　 |
- box_clip
+| bilinear_interp | 　 | 　 | Y | Y | Y | 　 | Y | 　 | 　 | 　 |
- calib_once
+| box_coder | 　 | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- collect_fpn_proposals
+| calib | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 | 　 |
- conditional_block
+| cast | 　 | Y | 　 | Y | 　 | 　 | 　 | Y | 　 | 　 |
- crop
+| concat | 　 | Y | Y | Y | Y | 　 | Y | 　 | Y | 　 |
- decode_bboxes
+| conv2d | 　 | Y | Y | Y | Y | Y | Y | Y | Y | Y |
- distribute_fpn_proposals
+| conv2d_transpose | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- equal
+| density_prior_box | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- gather
+| depthwise_conv2d | 　 | Y | Y | Y | Y | Y | Y | Y | Y | Y |
- generate_proposals
+| depthwise_conv2d_transpose | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- graph_op
+| dropout | 　 | Y | Y | Y | Y | Y | Y | Y | 　 | 　 |
- greater_equal
+| elementwise_add | 　 | Y | Y | Y | Y | Y | Y | Y | Y | Y |
- greater_than
+| elementwise_div | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | Y | 　 |
- gru
+| elementwise_max | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- gru_unit
+| elementwise_mod | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- im2sequence
+| elementwise_mul | 　 | Y | Y | Y | Y | Y | Y | 　 | Y | Y |
- increment
+| elementwise_pow | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- is_empty
+| elementwise_sub | 　 | Y | Y | Y | Y | 　 | Y | 　 | Y | 　 |
- layer_norm
+| elu | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- layout_once
+| expand | Y | 　 | 　 | 　 | Y | 　 | Y | 　 | 　 | 　 |
- less_equal
+| expand_as | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- less_than
+| fc | 　 | Y | Y | Y | Y | Y | Y | 　 | Y | Y |
- lod_reset
+| feed | Y | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 | 　 |
- logical_and
+| fetch | Y | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 |
- logical_not
+| fill_constant | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- logical_or
+| fill_constant_batch_size_like | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- logical_xor
+| flatten | Y | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 |
- lookup_table
+| flatten2 | Y | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 |
- lookup_table_v2
+| fusion_elementwise_add_activation | 　 | 　 | Y | Y | Y | Y | Y | 　 | 　 | 　 |
- lrn
+| fusion_elementwise_div_activation | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- match_matrix_tensor
+| fusion_elementwise_max_activation | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- merge_lod_tensor
+| fusion_elementwise_mul_activation | 　 | 　 | Y | Y | 　 | 　 | Y | 　 | 　 | 　 |
- negative
+| fusion_elementwise_sub_activation | 　 | 　 | Y | Y | Y | 　 | Y | 　 | 　 | 　 |
- norm
+| grid_sampler | 　 | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- not_equal
+| instance_norm | 　 | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 |
- power
+| io_copy | 　 | 　 | Y | 　 | Y | Y | 　 | 　 | 　 | 　 |
- read_from_array
+| io_copy_once | 　 | 　 | Y | 　 | Y | Y | 　 | 　 | 　 | 　 |
- reduce_max
+| layout | 　 | 　 | Y | Y | Y | Y | 　 | 　 | 　 | 　 |
- reduce_prod
+| leaky_relu | 　 | Y | Y | Y | Y | 　 | Y | 　 | 　 | 　 |
- reduce_sum
+| matmul | 　 | Y | Y | Y | 　 | 　 | Y | Y | 　 | 　 |
- roi_align
+| mul | 　 | Y | Y | Y | 　 | 　 | Y | Y | 　 | 　 |
- search_aligned_mat_mul
+| multiclass_nms | Y | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 |
- search_attention_padding_mask
+| multiclass_nms2 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- search_grnn
+| nearest_interp | 　 | 　 | Y | Y | Y | 　 | Y | 　 | 　 | 　 |
- search_group_padding
+| pad2d | 　 | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 |
- search_seq_arithmetic
+| pool2d | 　 | Y | Y | Y | Y | Y | Y | Y | Y | Y |
- search_seq_depadding
+| prelu | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- search_seq_fc
+| prior_box | 　 | 　 | 　 | Y | 　 | Y | 　 | 　 | 　 | 　 |
- search_seq_softmax
+| range | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- sequence_arithmetic
+| reduce_mean | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- sequence_concat
+| relu | 　 | Y | Y | Y | Y | 　 | Y | 　 | Y | Y |
- sequence_expand
+| relu6 | 　 | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 |
- sequence_expand_as
+| reshape | Y | Y | 　 | 　 | Y | 　 | Y | Y | 　 | 　 |
- sequence_pool
+| reshape2 | Y | Y | 　 | 　 | Y | 　 | Y | Y | 　 | 　 |
- sequence_reshape
+| scale | 　 | Y | Y | Y | Y | Y | Y | Y | 　 | 　 |
- sequence_reverse
+| search_fc | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- sequence_softmax
+| sequence_topk_avg_pooling | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- shape
+| shuffle_channel | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- split_lod_tensor
+| sigmoid | 　 | Y | Y | Y | Y | 　 | Y | 　 | 　 | 　 |
- top_k
+| slice | 　 | Y | 　 | Y | Y | 　 | 　 | Y | 　 | 　 |
- uniform_random
+| softmax | 　 | Y | Y | Y | 　 | 　 | Y | Y | Y | Y |
- var_conv_2d
+| split | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- while
+| squeeze | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- write_to_array
+| squeeze2 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
+| stack | 　 | Y | 　 | Y | 　 | 　 | 　 | Y | 　 | 　 |
+| subgraph | 　 | 　 | 　 | 　 | 　 | 　 | Y | Y | Y | Y |
+| tanh | 　 | Y | Y | Y | Y | 　 | Y | Y | 　 | 　 |
+| thresholded_relu | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
+| transpose | 　 | Y | Y | Y | Y | 　 | Y | Y | 　 | 　 |
+| transpose2 | 　 | Y | Y | Y | Y | 　 | Y | Y | 　 | 　 |
+| unsqueeze | Y | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 |
+| unsqueeze2 | Y | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 |
+| yolo_box | 　 | 　 | Y | Y | 　 | 　 | 　 | Y | 　 | 　 |
+### 附加算子
-## Kernels
+附加算子共计126个，需要在编译时打开`--build_extra=ON`开关才会编译，具体请参考[参数详情](../source_compile/library)。
-### Host kernels
+| OP Name | Host | X86 | CUDA | ARM | OpenCL | FPGA | 华为NPU | 百度XPU | 瑞芯微NPU | 联发科APU |
+|-:|-|-|-|-|-|-|-|-|-|-|
- feed
+| abs | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- fetch
+| anchor_generator | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- flatten
+| assign | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- flatten2
+| attention_padding_mask | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- multiclass_nms
+| axpy | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- reshape
+| beam_search_decode | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- reshape2
+| beam_search_decode | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
+| box_clip | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
-### ARM kernels
+| calib_once | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 | 　 |
+| clip | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- affine_channel
+| collect_fpn_proposals | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- anchor_generator
+| conditional_block | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- arg_max
+| crf_decoding | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- assign
+| crop | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- assign_value
+| ctc_align | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- axpy
+| decode_bboxes | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- batch_norm
+| deformable_conv | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- beam_search
+| distribute_fpn_proposals | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- beam_search_decode
+| equal | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- bilinear_interp
+| exp | 　 | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- box_clip
+| fake_channel_wise_dequantize_max_abs | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- box_coder
+| fake_dequantize_max_abs | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- cast
+| fake_quantize_abs_max | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- collect_fpn_proposals
+| fake_quantize_dequantize_abs_max | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- concat
+| fake_quantize_dequantize_moving_average_abs_max | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- conditional_block
+| fake_quantize_moving_average_abs_max | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- conv2d
+| fake_quantize_range_abs_max | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- conv2d_transpose
+| floor | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- crop
+| gather | 　 | Y | 　 | Y | 　 | 　 | 　 | Y | 　 | 　 |
- decode_bboxes
+| gelu | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- density_prior_box
+| generate_proposals | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- depthwise_conv2d
+| greater_equal | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- distribute_fpn_proposals
+| greater_than | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- dropout
+| group_norm | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- elementwise_add
+| gru | 　 | Y | Y | Y | 　 | Y | 　 | 　 | 　 | 　 |
- elementwise_div
+| gru_unit | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- elementwise_max
+| hard_sigmoid | 　 | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 |
- elementwise_mul
+| hard_swish | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- elementwise_sub
+| im2sequence | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- equal
+| increment | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- exp
+| is_empty | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- expand
+| layer_norm | 　 | Y | 　 | Y | 　 | 　 | Y | Y | 　 | 　 |
- fc
+| layout_once | 　 | 　 | Y | Y | 　 | Y | 　 | 　 | 　 | 　 |
- fill_constant
+| less_equal | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- fill_constant_batch_size_like
+| less_than | Y | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 |
- floor
+| lod_reset | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- fusion_elementwise_add_activation
+| log | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- fusion_elementwise_div_activation
+| logical_and | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- fusion_elementwise_max_activation
+| logical_not | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- fusion_elementwise_mul_activation
+| logical_or | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- fusion_elementwise_sub_activation
+| logical_xor | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- gather
+| lookup_table | 　 | Y | Y | Y | 　 | 　 | 　 | Y | 　 | 　 |
- generate_proposals
+| lookup_table_dequant | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- greater_equal
+| lookup_table_v2 | 　 | Y | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- greater_than
+| lrn | 　 | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- gru
+| lstm | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- gru_unit
+| match_matrix_tensor | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- hard_sigmoid
+| max_pool2d_with_index | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- im2sequence
+| mean | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- increment
+| merge_lod_tensor | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- instance_norm
+| negative | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- is_empty
+| norm | 　 | 　 | 　 | Y | 　 | Y | 　 | 　 | 　 | 　 |
- layer_norm
+| not_equal | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- layout
+| one_hot | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- layout_once
+| pixel_shuffle | Y | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- leaky_relu
+| pow | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- less_equal
+| power | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- less_than
+| print | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- lod_reset
+| read_from_array | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- log
+| reciprocal | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- logical_and
+| reduce_max | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- logical_not
+| reduce_prod | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- logical_or
+| reduce_sum | 　 | Y | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- logical_xor
+| relu_clipped | 　 | 　 | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- lookup_table
+| retinanet_detection_output | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- lookup_table_v2
+| roi_align | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- lrn
+| rsqrt | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- matmul
+| search_aligned_mat_mul | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- merge_lod_tensor
+| search_attention_padding_mask | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- mul
+| search_grnn | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- nearest_interp
+| search_group_padding | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- negative
+| search_seq_arithmetic | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- norm
+| search_seq_depadding | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- not_equal
+| search_seq_fc | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- pad2d
+| search_seq_softmax | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- pool2d
+| sequence_arithmetic | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- power
+| sequence_concat | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- prelu
+| sequence_conv | 　 | Y | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- prior_box
+| sequence_expand | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- range
+| sequence_expand_as | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- read_from_array
+| sequence_mask | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- reduce_max
+| sequence_pad | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- reduce_mean
+| sequence_pool | 　 | Y | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- reduce_prod
+| sequence_pool_concat | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- relu
+| sequence_reshape | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- relu6
+| sequence_reverse | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- relu_clipped
+| sequence_reverse_embedding | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- roi_align
+| sequence_softmax | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- rsqrt
+| sequence_unpad | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- scale
+| shape | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- sequence_expand
+| sign | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- sequence_pool
+| softsign | 　 | Y | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 |
- sequence_softmax
+| split_lod_tensor | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- shape
+| sqrt | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 | 　 |
- shuffle_channel
+| square | 　 | Y | 　 | Y | 　 | 　 | Y | 　 | 　 | 　 |
- sigmoid
+| swish | 　 | 　 | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 |
- slice
+| top_k | 　 | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 |
- softmax
+| topk_pooling | 　 | 　 | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- split
+| uniform_random | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- split_lod_tensor
+| var_conv_2d | 　 | Y | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- squeeze
+| where_index | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- squeeze2
+| while | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- stack
+| write_to_array | Y | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | 　 |
- swish
+| __xpu__conv2d | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- tanh
+| __xpu__embedding_with_eltwise_add | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- top_k
+| __xpu__fc | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- transpose
+| __xpu__mmdnn_bid_emb_att | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- transpose2
+| __xpu__mmdnn_bid_emb_grnn_att | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- unsqueeze
+| __xpu__mmdnn_bid_emb_grnn_att2 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- unsqueeze2
+| __xpu__mmdnn_match_conv_topk | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- while
+| __xpu__mmdnn_merge_all | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- write_to_array
+| __xpu__mmdnn_search_attention | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- yolo_box
+| __xpu__multi_encoder | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
+| __xpu__resnet_cbam | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
+| __xpu__resnet50 | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
-### X86 kernels
+| __xpu__sfa_head | 　 | 　 | 　 | 　 | 　 | 　 | 　 | Y | 　 | 　 |
- batch_norm
- cast
- concat
- conv2d
- depthwise_conv2d
- dropout
- elementwise_add
- elementwise_sub
- fc
- fill_constant_batch_size_like
- gather
- gelu
- gru
- layer_norm
- match_matrix_tensor
- matmul
- mul
- pool2d
- reduce_sum
- relu
- reshape
- reshape2
- scale
- search_aligned_mat_mul
- search_attention_padding_mask
- search_fc
- search_grnn
- search_group_padding
- search_seq_arithmetic
- search_seq_depadding
- search_seq_fc
- search_seq_softmax
- sequence_arithmetic
- sequence_concat
- sequence_expand_as
- sequence_pool
- sequence_reverse
- sequence_topk_avg_pooling
- shape
- slice
- softmax
- softsign
- square
- squeeze
- squeeze2
- stack
- tanh
- transpose
- transpose2
- var_conv_2d
-### CUDA kernels
- attention_padding_mask
- bilinear_interp
- calib
- concat
- conv
- dropout
- elementwise_add
- fusion_elementwise_add_activation
- fusion_elementwise_mul_activation
- elementwise_mul
- feed
- io_copy
- layout
- layout_once
- leaky_relu
- lookup_table
- match_matrix_tensor
- mul
- nearest_interp
- pool2d
- relu
- scale
- search_aligned_mat_mul
- search_fc
- search_grnn
- search_group_padding
- search_seq_depadding
- search_seq_fc
- sequence_arithmetic
- sequence_concat
- sequence_pool
- sequence_reverse
- sequence_topk_avg_pooling
- softmax
- transpose
- var_conv_2d
- yolo_box
-### OpenCL kernels
- conv2d
- depthwise_conv2d
- elementwise_add
- fc
- fusion_elementwise_add_activation
- layout
- layout_once
- io_copy
- io_copy_once
- mul
- pool2d
- relu
--- a/docs/quick_start/release_lib.md
+++ b/docs/quick_start/release_lib.md
@@ -78,7 +78,7 @@ pip install paddlelite
 - [opencl源码编译](../demo_guides/opencl)
 - [CUDA源码编译](../demo_guides/cuda)
 - [FPGA源码编译](../demo_guides/fpga)
- [华为NPU源码编译](../demo_guides/npu)
+- [华为NPU源码编译](../demo_guides/huawei_kirin_npu)
 - [百度XPU源码编译](../demo_guides/baidu_xpu)
- [Rockchip NPU源码编译](../demo_guides/rockchip_npu)
+- [瑞芯微NPU源码编译](../demo_guides/rockchip_npu)
- [MediaTek APU源码编译](../demo_guides/mediatek_apu)
+- [联发科APU源码编译](../demo_guides/mediatek_apu)
--- a/docs/source_compile/compile_andriod.md
+++ b/docs/source_compile/compile_andriod.md
@@ -90,7 +90,7 @@ inference_lite_lib.android.armv8/
- 编译 Android npu 预测库方法，详情请参考：[PaddleLite使用华为NPU预测部署](../demo_guides/npu)
+- 编译 Android npu 预测库方法，详情请参考：[PaddleLite使用华为NPU预测部署](../demo_guides/huawei_kirin_npu)
 ```shell
 ./lite/tools/build_android.sh --with_huawei_kirin_npu=ON \

--- a/docs/source_compile/compile_env.md
+++ b/docs/source_compile/compile_env.md
@@ -17,14 +17,14 @@ Paddle Lite提供了Android/iOS/X86平台的官方Release预测库下载，如
 - [Android源码编译](../source_compile/compile_andriod)
 - [iOS源码编译](../source_compile/compile_ios)
 - [ArmLinux源码编译](../source_compile/compile_linux)
- [x86源码编译](../demo_guides/x86)
+- [X86源码编译](../demo_guides/x86)
 - [OpenCL源码编译](../demo_guides/opencl)
 - [CUDA源码编译](../demo_guides/cuda)
 - [FPGA源码编译](../demo_guides/fpga)
- [华为NPU源码编译](../demo_guides/npu)
+- [华为NPU源码编译](../demo_guides/huawei_kirin_npu)
 - [百度XPU源码编译](../demo_guides/baidu_xpu)
- [Rockchip NPU源码编译](../demo_guides/rockchip_npu)
+- [瑞芯微NPU源码编译](../demo_guides/rockchip_npu)
- [MediaTek APU源码编译](../demo_guides/mediatek_apu)
+- [联发科APU源码编译](../demo_guides/mediatek_apu)
 - [模型优化工具opt源码编译](../user_guides/model_optimize_tool.html#opt)
 ## 1. Docker开发环境

--- a/docs/source_compile/compile_linux.md
+++ b/docs/source_compile/compile_linux.md
@@ -90,7 +90,7 @@ inference_lite_lib.armlinux.armv8
 --opt_model_dir:          输入模型的绝对路径，需要为opt转化之后的模型
 ```
- 编译 Rockchip NPU 预测库方法，详情请参考：[PaddleLite使用RK NPU预测部署](../demo_guides/rockchip_npu)
+- 编译 瑞芯微(Rockchip) NPU 预测库方法，详情请参考：[PaddleLite使用RK NPU预测部署](../demo_guides/rockchip_npu)
 ```shell
 --with_rockchip_npu: (OFF|ON)    是否编译编译 huawei_kirin_npu 的预测库，默认为OFF
@@ -98,7 +98,7 @@ inference_lite_lib.armlinux.armv8
 ```
- 编译 Baidu XPU 预测库方法, 详情请参考：[PaddleLite使用百度XPU预测部署](../demo_guides/baidu_xpu)
+- 编译 百度(Baidu) XPU 预测库方法, 详情请参考：[PaddleLite使用百度XPU预测部署](../demo_guides/baidu_xpu)
 ```shell
 --with_baidu_xpu: (OFF|ON)    是否编译编译 baidu_xpu 的预测库，默认为OFF

--- a/docs/source_compile/compile_options.md
+++ b/docs/source_compile/compile_options.md
@@ -51,8 +51,8 @@
 | LITE_WITH_PYTHON |  编译支持[Python API](../api_reference/python_api_doc.html)的预测库 | X86 / CUDA |OFF |
 | LITE_WITH_OPENCL |  编译[OpenCL平台](../demo_guides/opencl.html)预测库 | OpenCL | OFF |
 | LITE_WITH_FPGA |  编译[FPGA平台](../demo_guides/fpga.html)预测库 | FPGA | OFF |
-| LITE_WITH_NPU |  编译[华为NPU平台](../demo_guides/npu.html)预测库 | NPU | OFF |
+| LITE_WITH_NPU |  编译[华为NPU平台](../demo_guides/huawei_kirin_npu.html)预测库 | NPU | OFF |
-| LITE_WITH_RKNPU |  编译[RK NPU平台](../demo_guides/rockchip_npu.html)预测库 | RKNPU | OFF |
+| LITE_WITH_RKNPU |  编译[瑞芯微NPU平台](../demo_guides/rockchip_npu.html)预测库 | RKNPU | OFF |
 | LITE_WITH_XPU |  编译[百度XPU平台](../demo_guides/baidu_xpu.html)预测库 | XPU |OFF |
 | LITE_WITH_XTCL | 通过XTCL方式支持百度XPU，默认Kernel方式 | XPU |OFF IF LITE_WITH_XPU |
-| LITE_WITH_APU | 编译[MTK APU平台](../demo_guides/mediatek_apu.html)预测库 | APU |OFF |
+| LITE_WITH_APU | 编译[联发科APU平台](../demo_guides/mediatek_apu.html)预测库 | APU |OFF |
--- a/docs/source_compile/library.md
+++ b/docs/source_compile/library.md
@@ -5,12 +5,12 @@ Lite预测库分为**基础预测库**和**全量预测库(with_extra)**：基
 编译时由编译选项 `build_extra`(默认为OFF)控制，`--build_extra=OFF`时编译**基础预测库**，`--build_extra=ON`时编译**全量预测库**。
-## 基础预测库( [基础OP列表](../introduction/support_operation_list.html#basic-operators) )
+## 基础预测库( [基础算子](../introduction/support_operation_list.html#id2) )
 ### 支持功能
-（1）87个[基础OP](../introduction/support_operation_list.html#basic-operators)       （2）9个基础模型       （3）3个in8量化模型
+（1）78个[基础算子](../introduction/support_operation_list.html#id2)       （2）9个基础模型       （3）3个in8量化模型
 ### 支持的模型
@@ -39,12 +39,12 @@ mobilenet_v1   mobilenet_v2   resnet50
 ```
-## 全量预测库( [OP列表](../introduction/support_operation_list.html#op) )
+## 全量预测库( [支持算子](../introduction/support_operation_list.html#id1) )
 ### 支持功能
-   Paddle-Lite中的全量算子（ [基础OP](../introduction/support_operation_list.html#basic-operators) + [Extra OP](../introduction/support_operation_list.html#extra-operators-build-extra-on) ）
+   Paddle-Lite中的全量算子（ [基础算子](../introduction/support_operation_list.html#id2) + [附加算子](../introduction/support_operation_list.html#id3) ）
 ### 特点
   包含更多算子、支持更多模型，但体量更大。