algorithm_overview.md 12.0 KB
Newer Older
M
MissPenguin 已提交
1
# 前沿算法与模型
qq_25193841's avatar
qq_25193841 已提交
2

littletomatodonkey's avatar
littletomatodonkey 已提交
3
- [1. 两阶段OCR算法](#1)
文幕地方's avatar
文幕地方 已提交
4 5
  - [1.1 文本检测算法](#11)
  - [1.2 文本识别算法](#12)
6 7
  - [1.3 文本超分辨率算法](#13)
  - [1.4 公式识别算法](#14)
littletomatodonkey's avatar
littletomatodonkey 已提交
8
- [2. 端到端OCR算法](#2)
文幕地方's avatar
文幕地方 已提交
9
- [3. 表格识别算法](#3)
littletomatodonkey's avatar
littletomatodonkey 已提交
10
- [4. 关键信息抽取算法](#4)
M
MissPenguin 已提交
11

M
MissPenguin 已提交
12
本文给出了PaddleOCR已支持的OCR算法列表,以及每个算法在**英文公开数据集**上的模型和指标,主要用于算法简介和算法性能对比,更多包括中文在内的其他数据集上的模型请参考[PP-OCRv3 系列模型下载](./models_list.md)
qq_25193841's avatar
qq_25193841 已提交
13

M
MissPenguin 已提交
14 15 16 17 18 19
>>
PaddleOCR将**持续新增**支持OCR领域前沿算法与模型,**欢迎广大开发者合作共建,贡献更多算法,合入有奖🎁!具体可查看[社区常规赛](https://github.com/PaddlePaddle/PaddleOCR/issues/4982)。**
>>
新增算法可参考教程:[使用PaddleOCR架构添加新算法](./add_new_algorithm.md)


qq_25193841's avatar
qq_25193841 已提交
20 21
<a name="1"></a>

M
MissPenguin 已提交
22
## 1. 两阶段算法
W
WenmuZhou 已提交
23

qq_25193841's avatar
qq_25193841 已提交
24
<a name="11"></a>
W
WenmuZhou 已提交
25

qq_25193841's avatar
qq_25193841 已提交
26
### 1.1 文本检测算法
W
WenmuZhou 已提交
27

M
MissPenguin 已提交
28
已支持的文本检测算法列表(戳链接获取使用教程):
W
wangjingyeye 已提交
29
- [x]  [DB与DB++](./algorithm_det_db.md)
M
MissPenguin 已提交
30 31 32 33
- [x]  [EAST](./algorithm_det_east.md)
- [x]  [SAST](./algorithm_det_sast.md)
- [x]  [PSENet](./algorithm_det_psenet.md)
- [x]  [FCENet](./algorithm_det_fcenet.md)
z37757's avatar
z37757 已提交
34
- [x]  [DRRG](./algorithm_det_drrg.md)
W
WenmuZhou 已提交
35 36

在ICDAR2015文本检测公开数据集上,算法效果如下:
M
MissPenguin 已提交
37

W
WenmuZhou 已提交
38
|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
39
| --- | --- | --- | --- | --- | --- |
文幕地方's avatar
文幕地方 已提交
40
|EAST|ResNet50_vd|88.71%|81.36%|84.88%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
41
|EAST|MobileNetV3|78.20%|79.10%|78.65%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
42 43 44
|DB|ResNet50_vd|86.41%|78.72%|82.38%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_db_v2.0_train.tar)|
|DB|MobileNetV3|77.29%|73.08%|75.12%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_db_v2.0_train.tar)|
|SAST|ResNet50_vd|91.39%|83.77%|87.42%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_icdar15_v2.0_train.tar)|
qq_25193841's avatar
qq_25193841 已提交
45 46
|PSE|ResNet50_vd|85.81%|79.53%|82.55%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_r50_vd_pse_v2.0_train.tar)|
|PSE|MobileNetV3|82.20%|70.48%|75.89%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_mv3_pse_v2.0_train.tar)|
W
wangjingyeye 已提交
47
|DB++|ResNet50|90.89%|82.66%|86.58%|[合成数据预训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/ResNet50_dcn_asf_synthtext_pretrained.pdparams)/[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_r50_db%2B%2B_icdar15_train.tar)|
W
WenmuZhou 已提交
48 49 50 51

在Total-text文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
52
| --- | --- | --- | --- | --- | --- |
53
|SAST|ResNet50_vd|89.63%|78.44%|83.66%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_totaltext_v2.0_train.tar)|
W
WenmuZhou 已提交
54

z37757's avatar
z37757 已提交
55 56 57
在CTW1500文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
T
Topdu 已提交
58
| --- | --- | --- | --- | --- | --- |  
文幕地方's avatar
文幕地方 已提交
59
|FCE|ResNet50_dcn|88.39%|82.18%|85.27%|[训练模型](https://paddleocr.bj.bcebos.com/contribution/det_r50_dcn_fce_ctw_v2.0_train.tar)|
文幕地方's avatar
文幕地方 已提交
60
|DRRG|ResNet50_vd|89.92%|80.91%|85.18%|[训练模型](https://paddleocr.bj.bcebos.com/contribution/det_r50_drrg_ctw_train.tar)|
z37757's avatar
z37757 已提交
61

62 63 64
**说明:** SAST模型训练额外加入了icdar2013、icdar2017、COCO-Text、ArT等公开数据集进行调优。PaddleOCR用到的经过整理格式的英文公开数据集下载:
* [百度云地址](https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw) (提取码: 2bpi)
* [Google Drive下载地址](https://drive.google.com/drive/folders/1ll2-XEVyCQLpJjawLDiRlvo_i4BqHCJe?usp=sharing)
W
WenmuZhou 已提交
65

M
MissPenguin 已提交
66

qq_25193841's avatar
qq_25193841 已提交
67
<a name="12"></a>
W
WenmuZhou 已提交
68

qq_25193841's avatar
qq_25193841 已提交
69
### 1.2 文本识别算法
W
WenmuZhou 已提交
70

M
MissPenguin 已提交
71 72 73 74 75 76 77 78 79
已支持的文本识别算法列表(戳链接获取使用教程):
- [x]  [CRNN](./algorithm_rec_crnn.md)
- [x]  [Rosetta](./algorithm_rec_rosetta.md)
- [x]  [STAR-Net](./algorithm_rec_starnet.md)
- [x]  [RARE](./algorithm_rec_rare.md)
- [x]  [SRN](./algorithm_rec_srn.md)
- [x]  [NRTR](./algorithm_rec_nrtr.md)
- [x]  [SAR](./algorithm_rec_sar.md)
- [x]  [SEED](./algorithm_rec_seed.md)
T
Topdu 已提交
80
- [x]  [SVTR](./algorithm_rec_svtr.md)
T
Topdu 已提交
81
- [x]  [ViTSTR](./algorithm_rec_vitstr.md)
T
Topdu 已提交
82
- [x]  [ABINet](./algorithm_rec_abinet.md)
A
andyjpaddle 已提交
83
- [x]  [VisionLAN](./algorithm_rec_visionlan.md)
xuyang2233's avatar
add pr  
xuyang2233 已提交
84
- [x]  [SPIN](./algorithm_rec_spin.md)
xuyang2233's avatar
xuyang2233 已提交
85
- [x]  [RobustScanner](./algorithm_rec_robustscanner.md)
z37757's avatar
z37757 已提交
86
- [x]  [RFL](./algorithm_rec_rfl.md)
W
WenmuZhou 已提交
87

qq_25193841's avatar
qq_25193841 已提交
88
参考[DTRB](https://arxiv.org/abs/1904.01906)[3]文字识别训练和评估流程,使用MJSynth和SynthText两个文字识别数据集训练,在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估,算法效果如下:
W
WenmuZhou 已提交
89 90

|模型|骨干网络|Avg Accuracy|模型存储命名|下载链接|
W
WenmuZhou 已提交
91
|---|---|---|---|---|
文幕地方's avatar
文幕地方 已提交
92 93 94 95 96 97 98 99 100 101 102 103
|Rosetta|Resnet34_vd|79.11%|rec_r34_vd_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_none_ctc_v2.0_train.tar)|
|Rosetta|MobileNetV3|75.80%|rec_mv3_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_none_ctc_v2.0_train.tar)|
|CRNN|Resnet34_vd|81.04%|rec_r34_vd_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_bilstm_ctc_v2.0_train.tar)|
|CRNN|MobileNetV3|77.95%|rec_mv3_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar)|
|StarNet|Resnet34_vd|82.85%|rec_r34_vd_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_ctc_v2.0_train.tar)|
|StarNet|MobileNetV3|79.28%|rec_mv3_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_ctc_v2.0_train.tar)|
|RARE|Resnet34_vd|83.98%|rec_r34_vd_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_att_v2.0_train.tar)|
|RARE|MobileNetV3|81.76%|rec_mv3_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_att_v2.0_train.tar)|
|SRN|Resnet50_vd_fpn| 86.31% | rec_r50fpn_vd_none_srn | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r50_vd_srn_train.tar) |
|NRTR|NRTR_MTB| 84.21% | rec_mtb_nrtr | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mtb_nrtr_train.tar) |
|SAR|Resnet31| 87.20% | rec_r31_sar | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_r31_sar_train.tar) |
|SEED|Aster_Resnet| 85.35% | rec_resnet_stn_bilstm_att | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_resnet_stn_bilstm_att.tar) |
T
Topdu 已提交
104
|SVTR|SVTR-Tiny| 89.25% | rec_svtr_tiny_none_ctc_en | [训练模型](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_tiny_none_ctc_en_train.tar) |
T
Topdu 已提交
105 106
|ViTSTR|ViTSTR| 79.82% | rec_vitstr_none_ce | [训练模型](https://paddleocr.bj.bcebos.com/rec_vitstr_none_ce_train.tar) |
|ABINet|Resnet45| 90.75% | rec_r45_abinet | [训练模型](https://paddleocr.bj.bcebos.com/rec_r45_abinet_train.tar) |
A
andyj 已提交
107
|VisionLAN|Resnet45| 90.30% | rec_r45_visionlan | [训练模型](https://paddleocr.bj.bcebos.com/VisionLAN/rec_r45_visionlan_train.tar) |
108 109
|SPIN|ResNet32| 90.00% | rec_r32_gaspin_bilstm_att | [训练模型](https://paddleocr.bj.bcebos.com/contribution/rec_r32_gaspin_bilstm_att.tar) |
|RobustScanner|ResNet31| 87.77% | rec_r31_robustscanner | [训练模型](https://paddleocr.bj.bcebos.com/contribution/rec_r31_robustscanner.tar)|
文幕地方's avatar
文幕地方 已提交
110
|RFL|ResNetRFL| 88.63% | rec_resnet_rfl_att | [训练模型](https://paddleocr.bj.bcebos.com/contribution/rec_resnet_rfl_att_train.tar) |
qq_25193841's avatar
qq_25193841 已提交
111

112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139

<a name="13"></a>

### 1.3 文本超分辨率算法
已支持的文本超分辨率算法列表(戳链接获取使用教程):
- [x]  [Text Gestalt](./algorithm_sr_gestalt.md)
- [x]  [Text Telescope](./algorithm_sr_telescope.md)

在TextZoom公开数据集上,算法效果如下:

|模型|骨干网络|PSNR_Avg|SSIM_Avg|配置文件|下载链接|
|---|---|---|---|---|---|
|Text Gestalt|tsrn|19.28|0.6560| [configs/sr/sr_tsrn_transformer_strock.yml](../../configs/sr/sr_tsrn_transformer_strock.yml)|[训练模型](https://paddleocr.bj.bcebos.com/sr_tsrn_transformer_strock_train.tar)|
|Text Telescope|tbsrn|21.56|0.7411| [configs/sr/sr_telescope.yml](../../configs/sr/sr_telescope.yml)|[训练模型](https://paddleocr.bj.bcebos.com/contribution/sr_telescope_train.tar)|

<a name="14"></a>

### 1.4 公式识别算法

已支持的公式识别算法列表(戳链接获取使用教程):
- [x]  [CAN](./algorithm_rec_can.md.md)

在CROHME手写公式数据集上,算法效果如下:

|模型    |骨干网络|配置文件|ExpRate|下载链接|
| ----- | ----- | ----- | ----- | ----- |
|CAN|DenseNet|[rec_d28_can.yml](../../configs/rec/rec_d28_can.yml)|51.72%|[训练模型](https://paddleocr.bj.bcebos.com/contribution/rec_d28_can_train.tar)|

qq_25193841's avatar
qq_25193841 已提交
140 141
<a name="2"></a>

M
MissPenguin 已提交
142 143
## 2. 端到端算法

M
MissPenguin 已提交
144 145
已支持的端到端OCR算法列表(戳链接获取使用教程):
- [x]  [PGNet](./algorithm_e2e_pgnet.md)
文幕地方's avatar
add ref  
文幕地方 已提交
146

文幕地方's avatar
文幕地方 已提交
147 148
<a name="3"></a>

文幕地方's avatar
add ref  
文幕地方 已提交
149 150 151 152 153 154 155 156 157
## 3. 表格识别算法

已支持的表格识别算法列表(戳链接获取使用教程):
- [x]  [TableMaster](./algorithm_table_master.md)

在PubTabNet表格识别公开数据集上,算法效果如下:

|模型|骨干网络|配置文件|acc|下载链接|
|---|---|---|---|---|
文幕地方's avatar
fix bug  
文幕地方 已提交
158
|TableMaster|TableResNetExtra|[configs/table/table_master.yml](../../configs/table/table_master.yml)|77.47%|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_train.tar) / [推理模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_infer.tar)|
littletomatodonkey's avatar
littletomatodonkey 已提交
159 160 161 162 163 164 165



## 4. 关键信息抽取算法

已支持的关键信息抽取算法列表(戳链接获取使用教程):

littletomatodonkey's avatar
littletomatodonkey 已提交
166 167 168 169
- [x]  [VI-LayoutXLM](./algorithm_kie_vi_layoutxlm.md)
- [x]  [LayoutLM](./algorithm_kie_layoutxlm.md)
- [x]  [LayoutLMv2](./algorithm_kie_layoutxlm.md)
- [x]  [LayoutXLM](./algorithm_kie_layoutxlm.md)
littletomatodonkey's avatar
littletomatodonkey 已提交
170 171 172 173 174 175
- [x]  [SDMGR](././algorithm_kie_sdmgr.md)

在wildreceipt发票公开数据集上,算法复现效果如下:

|模型|骨干网络|配置文件|hmean|下载链接|
| --- | --- | --- | --- | --- |
176
|SDMGR|VGG6|[configs/kie/sdmgr/kie_unet_sdmgr.yml](../../configs/kie/sdmgr/kie_unet_sdmgr.yml)|86.70%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/kie/kie_vgg16.tar)|
littletomatodonkey's avatar
littletomatodonkey 已提交
177 178 179 180 181 182 183 184 185 186 187 188 189


在XFUND_zh公开数据集上,算法效果如下:

|模型|骨干网络|任务|配置文件|hmean|下载链接|
| --- | --- |  --- | --- | --- | --- |
|VI-LayoutXLM| VI-LayoutXLM-base | SER | [ser_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh_udml.yml)|**93.19%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/ser_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | SER | [ser_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutxlm_xfund_zh.yml)|90.38%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutXLM_xfun_zh.tar)|
|LayoutLM| LayoutLM-base | SER | [ser_layoutlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlm_xfund_zh.yml)|77.31%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | SER | [ser_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlmv2_xfund_zh.yml)|85.44%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLMv2_xfun_zh.tar)|
|VI-LayoutXLM| VI-LayoutXLM-base | RE | [re_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/re_vi_layoutxlm_xfund_zh_udml.yml)|**83.92%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/re_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | RE | [re_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutxlm_xfund_zh.yml)|74.83%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutXLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | RE | [re_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutlmv2_xfund_zh.yml)|67.77%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutLMv2_xfun_zh.tar)|