algorithm_overview.md 9.4 KB
Newer Older
littletomatodonkey's avatar
littletomatodonkey 已提交
1
# 算法汇总
qq_25193841's avatar
qq_25193841 已提交
2

littletomatodonkey's avatar
littletomatodonkey 已提交
3
- [1. 两阶段OCR算法](#1)
文幕地方's avatar
文幕地方 已提交
4 5
  - [1.1 文本检测算法](#11)
  - [1.2 文本识别算法](#12)
littletomatodonkey's avatar
littletomatodonkey 已提交
6
- [2. 端到端OCR算法](#2)
文幕地方's avatar
文幕地方 已提交
7
- [3. 表格识别算法](#3)
littletomatodonkey's avatar
littletomatodonkey 已提交
8
- [4. 关键信息抽取算法](#4)
M
MissPenguin 已提交
9 10 11


本文给出了PaddleOCR已支持的OCR算法列表,以及每个算法在**英文公开数据集**上的模型和指标,主要用于算法简介和算法性能对比,更多包括中文在内的其他数据集上的模型请参考[PP-OCR v2.0 系列模型下载](./models_list.md)
qq_25193841's avatar
qq_25193841 已提交
12 13 14

<a name="1"></a>

M
MissPenguin 已提交
15
## 1. 两阶段算法
W
WenmuZhou 已提交
16

qq_25193841's avatar
qq_25193841 已提交
17
<a name="11"></a>
W
WenmuZhou 已提交
18

qq_25193841's avatar
qq_25193841 已提交
19
### 1.1 文本检测算法
W
WenmuZhou 已提交
20

M
MissPenguin 已提交
21 22 23 24 25 26
已支持的文本检测算法列表(戳链接获取使用教程):
- [x]  [DB](./algorithm_det_db.md)
- [x]  [EAST](./algorithm_det_east.md)
- [x]  [SAST](./algorithm_det_sast.md)
- [x]  [PSENet](./algorithm_det_psenet.md)
- [x]  [FCENet](./algorithm_det_fcenet.md)
W
WenmuZhou 已提交
27 28

在ICDAR2015文本检测公开数据集上,算法效果如下:
M
MissPenguin 已提交
29

W
WenmuZhou 已提交
30
|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
31
| --- | --- | --- | --- | --- | --- |
文幕地方's avatar
文幕地方 已提交
32 33
|EAST|ResNet50_vd|88.71%|81.36%|84.88%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
|EAST|MobileNetV3|78.2%|79.1%|78.65%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
34 35 36
|DB|ResNet50_vd|86.41%|78.72%|82.38%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_db_v2.0_train.tar)|
|DB|MobileNetV3|77.29%|73.08%|75.12%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_db_v2.0_train.tar)|
|SAST|ResNet50_vd|91.39%|83.77%|87.42%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_icdar15_v2.0_train.tar)|
qq_25193841's avatar
qq_25193841 已提交
37 38
|PSE|ResNet50_vd|85.81%|79.53%|82.55%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_r50_vd_pse_v2.0_train.tar)|
|PSE|MobileNetV3|82.20%|70.48%|75.89%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/en_det/det_mv3_pse_v2.0_train.tar)|
W
WenmuZhou 已提交
39 40 41 42

在Total-text文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
M
MissPenguin 已提交
43
| --- | --- | --- | --- | --- | --- |
44
|SAST|ResNet50_vd|89.63%|78.44%|83.66%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_totaltext_v2.0_train.tar)|
W
WenmuZhou 已提交
45

z37757's avatar
z37757 已提交
46 47 48
在CTW1500文本检测公开数据集上,算法效果如下:

|模型|骨干网络|precision|recall|Hmean|下载链接|
T
Topdu 已提交
49
| --- | --- | --- | --- | --- | --- |  
文幕地方's avatar
文幕地方 已提交
50
|FCE|ResNet50_dcn|88.39%|82.18%|85.27%|[训练模型](https://paddleocr.bj.bcebos.com/contribution/det_r50_dcn_fce_ctw_v2.0_train.tar)|
z37757's avatar
z37757 已提交
51

52 53 54
**说明:** SAST模型训练额外加入了icdar2013、icdar2017、COCO-Text、ArT等公开数据集进行调优。PaddleOCR用到的经过整理格式的英文公开数据集下载:
* [百度云地址](https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw) (提取码: 2bpi)
* [Google Drive下载地址](https://drive.google.com/drive/folders/1ll2-XEVyCQLpJjawLDiRlvo_i4BqHCJe?usp=sharing)
W
WenmuZhou 已提交
55

M
MissPenguin 已提交
56

qq_25193841's avatar
qq_25193841 已提交
57
<a name="12"></a>
W
WenmuZhou 已提交
58

qq_25193841's avatar
qq_25193841 已提交
59
### 1.2 文本识别算法
W
WenmuZhou 已提交
60

M
MissPenguin 已提交
61 62 63 64 65 66 67 68 69
已支持的文本识别算法列表(戳链接获取使用教程):
- [x]  [CRNN](./algorithm_rec_crnn.md)
- [x]  [Rosetta](./algorithm_rec_rosetta.md)
- [x]  [STAR-Net](./algorithm_rec_starnet.md)
- [x]  [RARE](./algorithm_rec_rare.md)
- [x]  [SRN](./algorithm_rec_srn.md)
- [x]  [NRTR](./algorithm_rec_nrtr.md)
- [x]  [SAR](./algorithm_rec_sar.md)
- [x]  [SEED](./algorithm_rec_seed.md)
T
Topdu 已提交
70
- [x]  [SVTR](./algorithm_rec_svtr.md)
T
Topdu 已提交
71
- [x]  [ViTSTR](./algorithm_rec_vitstr.md)
T
Topdu 已提交
72
- [x]  [ABINet](./algorithm_rec_abinet.md)
A
andyjpaddle 已提交
73
- [x]  [VisionLAN](./algorithm_rec_visionlan.md)
xuyang2233's avatar
add pr  
xuyang2233 已提交
74
- [x]  [SPIN](./algorithm_rec_spin.md)
W
WenmuZhou 已提交
75

qq_25193841's avatar
qq_25193841 已提交
76
参考[DTRB](https://arxiv.org/abs/1904.01906)[3]文字识别训练和评估流程,使用MJSynth和SynthText两个文字识别数据集训练,在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估,算法效果如下:
W
WenmuZhou 已提交
77 78

|模型|骨干网络|Avg Accuracy|模型存储命名|下载链接|
W
WenmuZhou 已提交
79
|---|---|---|---|---|
文幕地方's avatar
文幕地方 已提交
80 81 82 83 84 85 86 87 88 89 90 91
|Rosetta|Resnet34_vd|79.11%|rec_r34_vd_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_none_ctc_v2.0_train.tar)|
|Rosetta|MobileNetV3|75.80%|rec_mv3_none_none_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_none_ctc_v2.0_train.tar)|
|CRNN|Resnet34_vd|81.04%|rec_r34_vd_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_none_bilstm_ctc_v2.0_train.tar)|
|CRNN|MobileNetV3|77.95%|rec_mv3_none_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar)|
|StarNet|Resnet34_vd|82.85%|rec_r34_vd_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_ctc_v2.0_train.tar)|
|StarNet|MobileNetV3|79.28%|rec_mv3_tps_bilstm_ctc|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_ctc_v2.0_train.tar)|
|RARE|Resnet34_vd|83.98%|rec_r34_vd_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r34_vd_tps_bilstm_att_v2.0_train.tar)|
|RARE|MobileNetV3|81.76%|rec_mv3_tps_bilstm_att |[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_tps_bilstm_att_v2.0_train.tar)|
|SRN|Resnet50_vd_fpn| 86.31% | rec_r50fpn_vd_none_srn | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_r50_vd_srn_train.tar) |
|NRTR|NRTR_MTB| 84.21% | rec_mtb_nrtr | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mtb_nrtr_train.tar) |
|SAR|Resnet31| 87.20% | rec_r31_sar | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_r31_sar_train.tar) |
|SEED|Aster_Resnet| 85.35% | rec_resnet_stn_bilstm_att | [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/rec/rec_resnet_stn_bilstm_att.tar) |
T
Topdu 已提交
92
|SVTR|SVTR-Tiny| 89.25% | rec_svtr_tiny_none_ctc_en | [训练模型](https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/rec_svtr_tiny_none_ctc_en_train.tar) |
T
Topdu 已提交
93 94
|ViTSTR|ViTSTR| 79.82% | rec_vitstr_none_ce | [训练模型](https://paddleocr.bj.bcebos.com/rec_vitstr_none_ce_train.tar) |
|ABINet|Resnet45| 90.75% | rec_r45_abinet | [训练模型](https://paddleocr.bj.bcebos.com/rec_r45_abinet_train.tar) |
A
andyjpaddle 已提交
95
|VisionLAN|Resnet45| 90.30% | rec_r45_visionlan | [训练模型](https://paddleocr.bj.bcebos.com/rec_r45_visionlan_train.tar) |
xuyang2233's avatar
xuyang2233 已提交
96
|SPIN|ResNet32| 90.00% | rec_r32_gaspin_bilstm_att | coming soon |
qq_25193841's avatar
qq_25193841 已提交
97

M
MissPenguin 已提交
98

qq_25193841's avatar
qq_25193841 已提交
99 100
<a name="2"></a>

M
MissPenguin 已提交
101 102
## 2. 端到端算法

M
MissPenguin 已提交
103 104
已支持的端到端OCR算法列表(戳链接获取使用教程):
- [x]  [PGNet](./algorithm_e2e_pgnet.md)
文幕地方's avatar
add ref  
文幕地方 已提交
105

文幕地方's avatar
文幕地方 已提交
106 107
<a name="3"></a>

文幕地方's avatar
add ref  
文幕地方 已提交
108 109 110 111 112 113 114 115 116
## 3. 表格识别算法

已支持的表格识别算法列表(戳链接获取使用教程):
- [x]  [TableMaster](./algorithm_table_master.md)

在PubTabNet表格识别公开数据集上,算法效果如下:

|模型|骨干网络|配置文件|acc|下载链接|
|---|---|---|---|---|
文幕地方's avatar
fix bug  
文幕地方 已提交
117
|TableMaster|TableResNetExtra|[configs/table/table_master.yml](../../configs/table/table_master.yml)|77.47%|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_train.tar) / [推理模型](https://paddleocr.bj.bcebos.com/ppstructure/models/tablemaster/table_structure_tablemaster_infer.tar)|
littletomatodonkey's avatar
littletomatodonkey 已提交
118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148



## 4. 关键信息抽取算法

已支持的关键信息抽取算法列表(戳链接获取使用教程):

- [x]  [VI-LayoutXLM](./algorithm_kie_vi_laoutxlm.md)
- [x]  [LayoutLM](./algorithm_kie_laoutxlm.md)
- [x]  [LayoutLMv2](./algorithm_kie_laoutxlm.md)
- [x]  [LayoutXLM](./algorithm_kie_laoutxlm.md)
- [x]  [SDMGR](././algorithm_kie_sdmgr.md)

在wildreceipt发票公开数据集上,算法复现效果如下:

|模型|骨干网络|配置文件|hmean|下载链接|
| --- | --- | --- | --- | --- |
|SDMGR|VGG6|[configs/kie/sdmgr/kie_unet_sdmgr.yml](../../configs/kie/sdmgr/kie_unet_sdmgr.yml)|86.7%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.1/kie/kie_vgg16.tar)|


在XFUND_zh公开数据集上,算法效果如下:

|模型|骨干网络|任务|配置文件|hmean|下载链接|
| --- | --- |  --- | --- | --- | --- |
|VI-LayoutXLM| VI-LayoutXLM-base | SER | [ser_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh_udml.yml)|**93.19%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/ser_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | SER | [ser_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutxlm_xfund_zh.yml)|90.38%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutXLM_xfun_zh.tar)|
|LayoutLM| LayoutLM-base | SER | [ser_layoutlm_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlm_xfund_zh.yml)|77.31%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | SER | [ser_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/ser_layoutlmv2_xfund_zh.yml)|85.44%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLMv2_xfun_zh.tar)|
|VI-LayoutXLM| VI-LayoutXLM-base | RE | [re_vi_layoutxlm_xfund_zh_udml.yml](../../configs/kie/vi_layoutxlm/re_vi_layoutxlm_xfund_zh_udml.yml)|**83.92%**|[训练模型](https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/re_vi_layoutxlm_xfund_pretrained.tar)|
|LayoutXLM| LayoutXLM-base | RE | [re_layoutxlm_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutxlm_xfund_zh.yml)|74.83%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutXLM_xfun_zh.tar)|
|LayoutLMv2| LayoutLMv2-base | RE | [re_layoutlmv2_xfund_zh.yml](../../configs/kie/layoutlm_series/re_layoutlmv2_xfund_zh.yml)|67.77%|[训练模型](https://paddleocr.bj.bcebos.com/pplayout/re_LayoutLMv2_xfun_zh.tar)|