algorithm_overview.md 9.9 KB
Newer Older
M
MissPenguin 已提交
1
# 前沿算法与模型
qq_25193841's avatar
qq_25193841 已提交
2

littletomatodonkey's avatar
littletomatodonkey 已提交
3
- [1. 两阶段OCR算法](#1)
文幕地方's avatar
文幕地方 已提交
4 5
  - [1.1 文本检测算法](#11)
  - [1.2 文本识别算法](#12)
littletomatodonkey's avatar
littletomatodonkey 已提交
6
- [2. 端到端OCR算法](#2)
文幕地方's avatar
文幕地方 已提交
7
- [3. 表格识别算法](#3)
littletomatodonkey's avatar
littletomatodonkey 已提交
8
- [4. 关键信息抽取算法](#4)
M
MissPenguin 已提交
9

M
MissPenguin 已提交
10
本文给出了PaddleOCR已支持的OCR算法列表,以及每个算法在**英文公开数据集**上的模型和指标,主要用于算法简介和算法性能对比,更多包括中文在内的其他数据集上的模型请参考[PP-OCRv3 系列模型下载](./models_list.md)
qq_25193841's avatar
qq_25193841 已提交
11

M
MissPenguin 已提交
12 13 14 15 16 17
>>
PaddleOCR将**持续新增**支持OCR领域前沿算法与模型,**欢迎广大开发者合作共建,贡献更多算法,合入有奖🎁!具体可查看[社区常规赛](https://github.com/PaddlePaddle/PaddleOCR/issues/4982)。**
>>
新增算法可参考教程:[使用PaddleOCR架构添加新算法](./add_new_algorithm.md)


qq_25193841's avatar
qq_25193841 已提交
18 19
<a name="1"></a>

M
MissPenguin 已提交
20
## 1. 两阶段算法
W
WenmuZhou 已提交
21

qq_25193841's avatar
qq_25193841 已提交
22
<a name="11"></a>
W
WenmuZhou 已提交
23

qq_25193841's avatar
qq_25193841 已提交
24
### 1.1 文本检测算法
W
WenmuZhou 已提交
25

M
MissPenguin 已提交
26 27 28 29 30 31
已支持的文本检测算法列表(戳链接获取使用教程):
- [x]  [DB](./algorithm_det_db.md)
- [x]  [EAST](./algorithm_det_east.md)
- [x]  [SAST](./algorithm_det_sast.md)
- [x]  [PSENet](./algorithm_det_psenet.md)
- [x]  [FCENet](./algorithm_det_fcenet.md)
W
WenmuZhou 已提交
32 33

在ICDAR2015文本检测公开数据集上,算法效果如下:
M
MissPenguin 已提交
34

W
WenmuZhou 已提交
35
|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
36
| --- | --- | --- | --- | --- | --- |
文幕地方's avatar
文幕地方 已提交
37 38
|EAST|ResNet50_vd|88.71%|81.36%|84.88%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
|EAST|MobileNetV3|78.2%|79.1%|78.65%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
39 40 41
|DB|ResNet50_vd|86.41%|78.72%|82.38%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_db_v2.0_train.tar)|
|DB|MobileNetV3|77.29%|73.08%|75.12%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_db_v2.0_train.tar)|
|SAST|ResNet50_vd|91.39%|83.77%|87.42%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_icdar15_v2.0_train.tar)|
qq_25193841's avatar
qq_25193841 已提交
42 43
|PSE|ResNet50_vd|85.81%|79.53%|82.55%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_r50_vd_pse_v2.0_train.tar)|
|PSE|MobileNetV3|82.20%|70.48%|75.89%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_mv3_pse_v2.0_train.tar)|
W
WenmuZhou 已提交
44 45 46 47

在Total-text文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
48
| --- | --- | --- | --- | --- | --- |
49
|SAST|ResNet50_vd|89.63%|78.44%|83.66%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_totaltext_v2.0_train.tar)|
W
WenmuZhou 已提交
50

z37757's avatar
z37757 已提交
51 52 53
在CTW1500文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
T
Topdu 已提交
54
| --- | --- | --- | --- | --- | --- |  
文幕地方's avatar
文幕地方 已提交
55
|FCE|ResNet50_dcn|88.39%|82.18%|85.27%|[训练模型](https://paddleocr.bj.bcebos.com/contribution/det_r50_dcn_fce_ctw_v2.0_train.tar)|
z37757's avatar
z37757 已提交
56

57 58 59
**说明:** SAST模型训练额外加入了icdar2013、icdar2017、COCO-Text、ArT等公开数据集进行调优。PaddleOCR用到的经过整理格式的英文公开数据集下载:
* [百度云地址](https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw) (提取码: 2bpi)
* [Google Drive下载地址](https://drive.google.com/drive/folders/1ll2-XEVyCQLpJjawLDiRlvo_i4BqHCJe?usp=sharing)
W
WenmuZhou 已提交
60

M
MissPenguin 已提交
61

qq_25193841's avatar
qq_25193841 已提交
62
<a name="12"></a>
W
WenmuZhou 已提交
63

qq_25193841's avatar
qq_25193841 已提交
64
### 1.2 文本识别算法
W
WenmuZhou 已提交
65

M
MissPenguin 已提交
66 67 68 69 70 71 72 73 74
已支持的文本识别算法列表(戳链接获取使用教程):
- [x]  [CRNN](./algorithm_rec_crnn.md)
- [x]  [Rosetta](./algorithm_rec_rosetta.md)
- [x]  [STAR-Net](./algorithm_rec_starnet.md)
- [x]  [RARE](./algorithm_rec_rare.md)
- [x]  [SRN](./algorithm_rec_srn.md)
- [x]  [NRTR](./algorithm_rec_nrtr.md)
- [x]  [SAR](./algorithm_rec_sar.md)
- [x]  [SEED](./algorithm_rec_seed.md)
T
Topdu 已提交
75
- [x]  [SVTR](./algorithm_rec_svtr.md)
T
Topdu 已提交
76
- [x]  [ViTSTR](./algorithm_rec_vitstr.md)
T
Topdu 已提交
77
- [x]  [ABINet](./algorithm_rec_abinet.md)
A
andyjpaddle 已提交
78
- [x]  [VisionLAN](./algorithm_rec_visionlan.md)
xuyang2233's avatar
add pr  
xuyang2233 已提交
79
- [x]  [SPIN](./algorithm_rec_spin.md)
xuyang2233's avatar
xuyang2233 已提交
80
- [x]  [RobustScanner](./algorithm_rec_robustscanner.md)
W
WenmuZhou 已提交
81

qq_25193841's avatar
qq_25193841 已提交
82
参考[DTRB](https://arxiv.org/abs/1904.01906)[3]文字识别训练和评估流程,使用MJSynth和SynthText两个文字识别数据集训练,在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估,算法效果如下:
W
WenmuZhou 已提交
83 84

|模型|骨干网络|Avg Accuracy|模型存储命名|下载链接|
W
WenmuZhou 已提交
85
|---|---|---|---|---|
文幕地方's avatar
文幕地方 已提交
86 87 88 89 90 91 92 93 94 95 96 97
|Rosetta|Resnet34_vd|79.11%|rec_r34_vd_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_none_ctc_v2.0_train.tar)|
|Rosetta|MobileNetV3|75.80%|rec_mv3_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_none_ctc_v2.0_train.tar)|
|CRNN|Resnet34_vd|81.04%|rec_r34_vd_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_bilstm_ctc_v2.0_train.tar)|
|CRNN|MobileNetV3|77.95%|rec_mv3_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar)|
|StarNet|Resnet34_vd|82.85%|rec_r34_vd_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_ctc_v2.0_train.tar)|
|StarNet|MobileNetV3|79.28%|rec_mv3_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_ctc_v2.0_train.tar)|
|RARE|Resnet34_vd|83.98%|rec_r34_vd_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_att_v2.0_train.tar)|
|RARE|MobileNetV3|81.76%|rec_mv3_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_att_v2.0_train.tar)|
|SRN|Resnet50_vd_fpn| 86.31% | rec_r50fpn_vd_none_srn | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r50_vd_srn_train.tar) |
|NRTR|NRTR_MTB| 84.21% | rec_mtb_nrtr | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mtb_nrtr_train.tar) |
|SAR|Resnet31| 87.20% | rec_r31_sar | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_r31_sar_train.tar) |
|SEED|Aster_Resnet| 85.35% | rec_resnet_stn_bilstm_att | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_resnet_stn_bilstm_att.tar) |
T
Topdu 已提交
98
|SVTR|SVTR-Tiny| 89.25% | rec_svtr_tiny_none_ctc_en | [训练模型](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_tiny_none_ctc_en_train.tar) |
T
Topdu 已提交
99 100
|ViTSTR|ViTSTR| 79.82% | rec_vitstr_none_ce | [训练模型](https://paddleocr.bj.bcebos.com/rec_vitstr_none_ce_train.tar) |
|ABINet|Resnet45| 90.75% | rec_r45_abinet | [训练模型](https://paddleocr.bj.bcebos.com/rec_r45_abinet_train.tar) |
A
andyjpaddle 已提交
101
|VisionLAN|Resnet45| 90.30% | rec_r45_visionlan | [训练模型](https://paddleocr.bj.bcebos.com/rec_r45_visionlan_train.tar) |
xuyang2233's avatar
xuyang2233 已提交
102
|SPIN|ResNet32| 90.00% | rec_r32_gaspin_bilstm_att | coming soon |
103
|RobustScanner|ResNet31| 87.77% | rec_r31_robustscanner | coming soon |
qq_25193841's avatar
qq_25193841 已提交
104 105 106 107


<a name="2"></a>

M
MissPenguin 已提交
108 109
## 2. 端到端算法

M
MissPenguin 已提交
110 111
已支持的端到端OCR算法列表(戳链接获取使用教程):
- [x]  [PGNet](./algorithm_e2e_pgnet.md)
文幕地方's avatar
add ref  
文幕地方 已提交
112

文幕地方's avatar
文幕地方 已提交
113 114
<a name="3"></a>

文幕地方's avatar
add ref  
文幕地方 已提交
115 116 117 118 119 120 121 122 123
## 3. 表格识别算法

已支持的表格识别算法列表(戳链接获取使用教程):
- [x]  [TableMaster](./algorithm_table_master.md)

在PubTabNet表格识别公开数据集上,算法效果如下:

|模型|骨干网络|配置文件|acc|下载链接|
|---|---|---|---|---|
文幕地方's avatar
fix bug  
文幕地方 已提交
124
|TableMaster|TableResNetExtra|[configs/table/table_master.yml](../../configs/table/table_master.yml)|77.47%|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_train.tar) / [推理模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_infer.tar)|
littletomatodonkey's avatar
littletomatodonkey 已提交
125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155



## 4. 关键信息抽取算法

已支持的关键信息抽取算法列表(戳链接获取使用教程):

- [x]  [VI-LayoutXLM](./algorithm_kie_vi_laoutxlm.md)
- [x]  [LayoutLM](./algorithm_kie_laoutxlm.md)
- [x]  [LayoutLMv2](./algorithm_kie_laoutxlm.md)
- [x]  [LayoutXLM](./algorithm_kie_laoutxlm.md)
- [x]  [SDMGR](././algorithm_kie_sdmgr.md)

在wildreceipt发票公开数据集上,算法复现效果如下:

|模型|骨干网络|配置文件|hmean|下载链接|
| --- | --- | --- | --- | --- |
|SDMGR|VGG6|[configs/kie/sdmgr/kie_unet_sdmgr.yml](../../configs/kie/sdmgr/kie_unet_sdmgr.yml)|86.7%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/kie/kie_vgg16.tar)|


在XFUND_zh公开数据集上,算法效果如下:

|模型|骨干网络|任务|配置文件|hmean|下载链接|
| --- | --- |  --- | --- | --- | --- |
|VI-LayoutXLM| VI-LayoutXLM-base | SER | [ser_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh_udml.yml)|**93.19%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/ser_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | SER | [ser_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutxlm_xfund_zh.yml)|90.38%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutXLM_xfun_zh.tar)|
|LayoutLM| LayoutLM-base | SER | [ser_layoutlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlm_xfund_zh.yml)|77.31%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | SER | [ser_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlmv2_xfund_zh.yml)|85.44%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLMv2_xfun_zh.tar)|
|VI-LayoutXLM| VI-LayoutXLM-base | RE | [re_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/re_vi_layoutxlm_xfund_zh_udml.yml)|**83.92%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/re_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | RE | [re_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutxlm_xfund_zh.yml)|74.83%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutXLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | RE | [re_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutlmv2_xfund_zh.yml)|67.77%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutLMv2_xfun_zh.tar)|