Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleOCR
提交
8a591a74
P
PaddleOCR
项目概览
PaddlePaddle
/
PaddleOCR
大约 1 年 前同步成功
通知
1528
Star
32962
Fork
6643
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
108
列表
看板
标记
里程碑
合并请求
7
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleOCR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
108
Issue
108
列表
看板
标记
里程碑
合并请求
7
合并请求
7
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
8a591a74
编写于
4月 19, 2022
作者:
M
MissPenguin
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update
上级
f9a9492f
变更
31
隐藏空白更改
内联
并排
Showing
31 changed file
with
143 addition
and
85 deletion
+143
-85
README_ch.md
README_ch.md
+27
-16
ppstructure/README_ch.md
ppstructure/README_ch.md
+45
-28
ppstructure/docs/imgs/0.png
ppstructure/docs/imgs/0.png
+0
-0
ppstructure/docs/inference.md
ppstructure/docs/inference.md
+0
-0
ppstructure/docs/installation.md
ppstructure/docs/installation.md
+0
-0
ppstructure/docs/kie.md
ppstructure/docs/kie.md
+0
-0
ppstructure/docs/kie_en.md
ppstructure/docs/kie_en.md
+0
-0
ppstructure/docs/models_list.md
ppstructure/docs/models_list.md
+0
-0
ppstructure/docs/quickstart.md
ppstructure/docs/quickstart.md
+0
-0
ppstructure/docs/table/1.png
ppstructure/docs/table/1.png
+0
-0
ppstructure/docs/table/layout.jpg
ppstructure/docs/table/layout.jpg
+0
-0
ppstructure/docs/table/paper-image.jpg
ppstructure/docs/table/paper-image.jpg
+0
-0
ppstructure/docs/table/pipeline.jpg
ppstructure/docs/table/pipeline.jpg
+0
-0
ppstructure/docs/table/pipeline_en.jpg
ppstructure/docs/table/pipeline_en.jpg
+0
-0
ppstructure/docs/table/ppstructure.GIF
ppstructure/docs/table/ppstructure.GIF
+0
-0
ppstructure/docs/table/result_all.jpg
ppstructure/docs/table/result_all.jpg
+0
-0
ppstructure/docs/table/result_text.jpg
ppstructure/docs/table/result_text.jpg
+0
-0
ppstructure/docs/table/table.jpg
ppstructure/docs/table/table.jpg
+0
-0
ppstructure/docs/table/tableocr_pipeline.jpg
ppstructure/docs/table/tableocr_pipeline.jpg
+0
-0
ppstructure/docs/table/tableocr_pipeline_en.jpg
ppstructure/docs/table/tableocr_pipeline_en.jpg
+0
-0
ppstructure/docs/vqa/input/zh_val_0.jpg
ppstructure/docs/vqa/input/zh_val_0.jpg
+0
-0
ppstructure/docs/vqa/input/zh_val_21.jpg
ppstructure/docs/vqa/input/zh_val_21.jpg
+0
-0
ppstructure/docs/vqa/input/zh_val_40.jpg
ppstructure/docs/vqa/input/zh_val_40.jpg
+0
-0
ppstructure/docs/vqa/input/zh_val_42.jpg
ppstructure/docs/vqa/input/zh_val_42.jpg
+0
-0
ppstructure/docs/vqa/result_re/zh_val_21_re.jpg
ppstructure/docs/vqa/result_re/zh_val_21_re.jpg
+0
-0
ppstructure/docs/vqa/result_re/zh_val_40_re.jpg
ppstructure/docs/vqa/result_re/zh_val_40_re.jpg
+0
-0
ppstructure/docs/vqa/result_ser/zh_val_0_ser.jpg
ppstructure/docs/vqa/result_ser/zh_val_0_ser.jpg
+0
-0
ppstructure/docs/vqa/result_ser/zh_val_42_ser.jpg
ppstructure/docs/vqa/result_ser/zh_val_42_ser.jpg
+0
-0
ppstructure/layout/README_ch.md
ppstructure/layout/README_ch.md
+15
-9
ppstructure/table/README_ch.md
ppstructure/table/README_ch.md
+21
-10
ppstructure/vqa/README.md
ppstructure/vqa/README.md
+35
-22
未找到文件。
README_ch.md
浏览文件 @
8a591a74
...
...
@@ -69,14 +69,6 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
更多模型下载(包括多语言),可以参考
[
PP-OCR 系列模型下载
](
./doc/doc_ch/models_list.md
)
## PP-Structure系列模型列表(更新中)
| 模型简介 | 模型名称 | 推荐场景 | 版面分析 | 表格识别 | DocVQA |
| ------- | ------- | ------- | -------- | --------- | -------- |
| | | | | | |
更多模型下载(包括多语言),可以参考
[
PP-Structure 系列模型下载
](
./doc/ppstructure/models_list.md
)
## 文档教程
...
...
@@ -101,16 +93,16 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
-
[
Paddle2ONNX模型转化与预测
](
./deploy/paddle2onnx/readme.md
)
-
[
Benchmark
](
./doc/doc_ch/benchmark.md
)
-
[
PP-Structure文档分析🔥
](
./ppstructure/README_ch.md
)
-
[
快速开始
](
./
doc/ppstructure
/quickstart.md
)
-
[
模型库
](
./
doc/ppstructure
/models_list.md
)
-
[
快速开始
](
./
ppstructure/docs
/quickstart.md
)
-
[
模型库
](
./
ppstructure/docs
/models_list.md
)
-
[
模型训练
](
./doc/doc_ch/training.md
)
-
[
版面分析
](
./ppstructure/layout/README_ch.md
)
-
[
表格识别
](
./ppstructure/table/README_ch.md
)
-
[
关键信息提取
](
./
doc/ppstructure
/kie.md
)
-
[
关键信息提取
](
./
ppstructure/docs
/kie.md
)
-
[
DocVQA
](
./ppstructure/vqa/README_ch.md
)
-
[
推理部署
](
./deploy/readme_ch.md
)
-
[
基于Python预测引擎推理
](
./
doc/ppstructure
/inference.md
)
-
[
基于C++预测引擎推理
](
./doc/ppstructure/inference_cpp.md
)
-
[
基于Python预测引擎推理
](
./
ppstructure/docs
/inference.md
)
-
[
基于C++预测引擎推理
](
)
-
[
服务化部署
](
./deploy/pdserving/README_CN.md
)
-
[
前沿算法与模型🚀
](
./doc/doc_ch/algorithm.md
)
-
[
文本检测算法
](
./doc/doc_ch/algorithm_overview.md#11-%E6%96%87%E6%9C%AC%E6%A3%80%E6%B5%8B%E7%AE%97%E6%B3%95
)
...
...
@@ -146,7 +138,7 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
## 效果展示 [more](./doc/doc_ch/visualization.md)
<details
open
>
<summary>
中文模型
</summary>
<summary>
PP-OCRv2
中文模型
</summary>
<div
align=
"center"
>
<img
src=
"doc/imgs_results/ch_ppocr_mobile_v2.0/test_add_91.jpg"
width=
"800"
>
...
...
@@ -161,7 +153,7 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
<details
open
>
<summary>
英文模型
</summary>
<summary>
PP-OCRv2
英文模型
</summary>
<div
align=
"center"
>
<img
src=
"./doc/imgs_results/ch_ppocr_mobile_v2.0/img_12.jpg"
width=
"800"
>
...
...
@@ -171,7 +163,7 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
<details
open
>
<summary>
其他语言模型
</summary>
<summary>
PP-OCRv2
其他语言模型
</summary>
<div
align=
"center"
>
<img
src=
"./doc/imgs_results/french_0.jpg"
width=
"800"
>
...
...
@@ -180,6 +172,25 @@ PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力
</details>
<details
open
>
<summary>
PP-Structure 文档分析
</summary>
-
版面分析+表格识别
<div
align=
"center"
>
<img
src=
"./ppstructure/docs/table/ppstructure.GIF"
width=
"800"
>
</div>
-
SER(语义实体识别)
<div
align=
"center"
>
<img
src=
"./ppstructure/docs/vqa/result_ser/zh_val_0_ser.jpg"
width=
"800"
>
</div>
-
RE(关系提取)
<div
align=
"center"
>
<img
src=
"./ppstructure/docs/vqa/result_re/zh_val_21_re.jpg"
width=
"800"
>
</div>
</details>
<a
name=
"许可证书"
></a>
...
...
ppstructure/README_ch.md
浏览文件 @
8a591a74
[
English
](
README.md
)
| 简体中文
-
[
1. 简介
](
#1-简介
)
-
[
2. 近期更新
](
#2-近期更新
)
-
[
3. 特性
](
#3-特性
)
-
[
4. 效果展示
](
#4-效果展示
)
-
[
4.1 版面分析和表格识别
](
#41-版面分析和表格识别
)
-
[
4.2 DOC-VQA
](
#42-doc-vqa
)
-
[
5. 快速体验
](
#5-快速体验
)
-
[
6. PP-Structure 介绍
](
#6-pp-structure-介绍
)
-
[
6.1 版面分析+表格识别
](
#61-版面分析表格识别
)
-
[
6.1.1 版面分析
](
#611-版面分析
)
-
[
6.1.2 表格识别
](
#612-表格识别
)
-
[
6.2 DOC-VQA
](
#62-doc-vqa
)
-
[
7. 模型库
](
#7-模型库
)
-
[
7.1 版面分析模型
](
#71-版面分析模型
)
-
[
7.2 OCR和表格识别模型
](
#72-ocr和表格识别模型
)
-
[
7.2 DOC-VQA 模型
](
#72-doc-vqa-模型
)
# PP-Structure
-
[
1. 简介
](
#1
)
-
[
2. 近期更新
](
#2
)
-
[
3. 特性
](
#3
)
-
[
4. 效果展示
](
#4
)
-
[
4.1 版面分析和表格识别
](
#41
)
-
[
4.2 DocVQA
](
#42
)
-
[
5. 快速体验
](
#5
)
-
[
6. PP-Structure 介绍
](
#6
)
-
[
6.1 版面分析+表格识别
](
#61
)
-
[
6.1.1 版面分析
](
#611
)
-
[
6.1.2 表格识别
](
#612
)
-
[
6.2 DocVQA
](
#62
)
-
[
7. 模型库
](
#7
)
-
[
7.1 版面分析模型
](
#71
)
-
[
7.2 OCR和表格识别模型
](
#72
)
-
[
7.3 DocVQA 模型
](
#73
)
<a
name=
"1"
></a>
## 1. 简介
PP-Structure是一个可用于复杂文档结构分析和处理的OCR工具包,旨在帮助开发者更好的完成文档理解相关任务。
<a
name=
"2"
></a>
## 2. 近期更新
*
2022.02.12 D
OC-
VQA增加LayoutLMv2模型。
*
2022.02.12 D
oc
VQA增加LayoutLMv2模型。
*
2021.12.07 新增
[
DOC-VQA任务SER和RE
](
vqa/README.md
)
。
<a
name=
"3"
></a>
## 3. 特性
PP-Structure的主要特性如下:
...
...
@@ -33,21 +37,24 @@ PP-Structure的主要特性如下:
-
支持表格区域进行结构化分析,最终结果输出Excel文件
-
支持python whl包和命令行两种方式,简单易用
-
支持版面分析和表格结构化两类任务自定义训练
-
支持文档视觉问答(Document Visual Question Answering,D
OC-
VQA)任务-语义实体识别(Semantic Entity Recognition,SER)和关系抽取(Relation Extraction,RE)
-
支持文档视觉问答(Document Visual Question Answering,D
oc
VQA)任务-语义实体识别(Semantic Entity Recognition,SER)和关系抽取(Relation Extraction,RE)
<a
name=
"4"
></a>
## 4. 效果展示
<a
name=
"41"
></a>
### 4.1 版面分析和表格识别
<img
src=
".
./doc
/table/ppstructure.GIF"
width=
"100%"
/>
<img
src=
".
/docs
/table/ppstructure.GIF"
width=
"100%"
/>
图中展示了版面分析+表格识别的整体流程,图片先有版面分析划分为图像、文本、标题和表格四种区域,然后对图像、文本和标题三种区域进行OCR的检测识别,对表格进行表格识别,其中图像还会被存储下来以便使用。
<a
name=
"42"
></a>
### 4.2 DOC-VQA
*
SER
![](
.
./doc/vqa/result_ser/zh_val_0_ser.jpg
)
| !
[](
../doc
/vqa/result_ser/zh_val_42_ser.jpg
)
![](
.
/docs/vqa/result_ser/zh_val_0_ser.jpg
)
| !
[](
./docs
/vqa/result_ser/zh_val_42_ser.jpg
)
---|---
图中不同颜色的框表示不同的类别,对于XFUN数据集,有
`QUESTION`
,
`ANSWER`
,
`HEADER`
3种类别
...
...
@@ -60,46 +67,55 @@ PP-Structure的主要特性如下:
*
RE
![](
.
./doc/vqa/result_re/zh_val_21_re.jpg
)
| !
[](
../doc
/vqa/result_re/zh_val_40_re.jpg
)
![](
.
/docs/vqa/result_re/zh_val_21_re.jpg
)
| !
[](
./docs
/vqa/result_re/zh_val_40_re.jpg
)
---|---
图中红色框表示问题,蓝色框表示答案,问题和答案之间使用绿色线连接。在OCR检测框的左上方也标出了对应的类别和OCR识别结果。
<a
name=
"5"
></a>
## 5. 快速体验
请参考
[
快速
安装
](
./docs/quickstart.md
)
教程。
请参考
[
快速
使用
](
./docs/quickstart.md
)
教程。
<a
name=
"6"
></a>
## 6. PP-Structure 介绍
<a
name=
"61"
></a>
### 6.1 版面分析+表格识别
![
pipeline
](
.
./doc
/table/pipeline.jpg
)
![
pipeline
](
.
/docs
/table/pipeline.jpg
)
在PP-Structure中,图片会先经由Layout-Parser进行版面分析,在版面分析中,会对图片里的区域进行分类,包括
**文字、标题、图片、列表和表格**
5类。对于前4类区域,直接使用PP-OCR完成对应区域文字检测与识别。对于表格类区域,经过表格结构化处理后,表格图片转换为相同表格样式的Excel文件。
<a
name=
"611"
></a>
#### 6.1.1 版面分析
版面分析对文档数据进行区域分类,其中包括版面分析工具的Python脚本使用、提取指定类别检测框、性能指标以及自定义训练版面分析模型,详细内容可以参考
[
文档
](
layout/README_ch.md
)
。
<a
name=
"612"
></a>
#### 6.1.2 表格识别
表格识别将表格图片转换为excel文档,其中包含对于表格文本的检测和识别以及对于表格结构和单元格坐标的预测,详细说明参考
[
文档
](
table/README_ch.md
)
。
### 6.2 DOC-VQA
<a
name=
"62"
></a>
### 6.2 DocVQA
D
OC-
VQA指文档视觉问答,其中包括语义实体识别 (Semantic Entity Recognition, SER) 和关系抽取 (Relation Extraction, RE) 任务。基于 SER 任务,可以完成对图像中的文本识别与分类;基于 RE 任务,可以完成对图象中的文本内容的关系提取,如判断问题对(pair),详细说明参考
[
文档
](
vqa/README.md
)
。
D
oc
VQA指文档视觉问答,其中包括语义实体识别 (Semantic Entity Recognition, SER) 和关系抽取 (Relation Extraction, RE) 任务。基于 SER 任务,可以完成对图像中的文本识别与分类;基于 RE 任务,可以完成对图象中的文本内容的关系提取,如判断问题对(pair),详细说明参考
[
文档
](
vqa/README.md
)
。
<a
name=
"7"
></a>
## 7. 模型库
PP-Structure系列模型列表(更新中)
<a
name=
"71"
></a>
### 7.1 版面分析模型
|模型名称|模型简介|下载地址| label_map|
| --- | --- | --- | --- |
| ppyolov2_r50vd_dcn_365e_publaynet | PubLayNet 数据集训练的版面分析模型,可以划分
**文字、标题、表格、图片以及列表**
5类区域 |
[
PubLayNet
](
https://paddle-model-ecology.bj.bcebos.com/model/layout-parser/ppyolov2_r50vd_dcn_365e_publaynet.tar
)
| {0: "Text", 1: "Title", 2: "List", 3:"Table", 4:"Figure"}|
<a
name=
"72"
></a>
### 7.2 OCR和表格识别模型
|模型名称|模型简介|模型大小|下载地址|
...
...
@@ -108,7 +124,8 @@ PP-Structure系列模型列表(更新中)
|ch_PP-OCRv2_rec_slim|【最新】slim量化版超轻量模型,支持中英文、数字识别| 9M |
[
推理模型
](
https://paddleocr.bj.bcebos.com/PP-OCRv2/chinese/ch_PP-OCRv2_rec_slim_quant_infer.tar
)
/
[
训练模型
](
https://paddleocr.bj.bcebos.com/PP-OCRv2/chinese/ch_PP-OCRv2_rec_slim_quant_train.tar
)
|
|en_ppocr_mobile_v2.0_table_structure|PubLayNet数据集训练的英文表格场景的表格结构预测|18.6M|
[
推理模型
](
https://paddleocr.bj.bcebos.com/dygraph_v2.0/table/en_ppocr_mobile_v2.0_table_structure_infer.tar
)
/
[
训练模型
](
https://paddleocr.bj.bcebos.com/dygraph_v2.1/table/en_ppocr_mobile_v2.0_table_structure_train.tar
)
|
### 7.2 DOC-VQA 模型
<a
name=
"73"
></a>
### 7.3 DocVQA 模型
|模型名称|模型简介|模型大小|下载地址|
| --- | --- | --- | --- |
...
...
doc/ppstructure
/imgs/0.png
→
ppstructure/docs
/imgs/0.png
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/inference.md
→
ppstructure/docs
/inference.md
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/installation.md
→
ppstructure/docs
/installation.md
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/kie.md
→
ppstructure/docs
/kie.md
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/kie_en.md
→
ppstructure/docs
/kie_en.md
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/models_list.md
→
ppstructure/docs
/models_list.md
浏览文件 @
8a591a74
文件已移动
doc/ppstructure
/quickstart.md
→
ppstructure/docs
/quickstart.md
浏览文件 @
8a591a74
文件已移动
doc
/table/1.png
→
ppstructure/docs
/table/1.png
浏览文件 @
8a591a74
文件已移动
doc
/table/layout.jpg
→
ppstructure/docs
/table/layout.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/paper-image.jpg
→
ppstructure/docs
/table/paper-image.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/pipeline.jpg
→
ppstructure/docs
/table/pipeline.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/pipeline_en.jpg
→
ppstructure/docs
/table/pipeline_en.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/ppstructure.GIF
→
ppstructure/docs
/table/ppstructure.GIF
浏览文件 @
8a591a74
文件已移动
doc
/table/result_all.jpg
→
ppstructure/docs
/table/result_all.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/result_text.jpg
→
ppstructure/docs
/table/result_text.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/table.jpg
→
ppstructure/docs
/table/table.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/tableocr_pipeline.jpg
→
ppstructure/docs
/table/tableocr_pipeline.jpg
浏览文件 @
8a591a74
文件已移动
doc
/table/tableocr_pipeline_en.jpg
→
ppstructure/docs
/table/tableocr_pipeline_en.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/input/zh_val_0.jpg
→
ppstructure/docs
/vqa/input/zh_val_0.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/input/zh_val_21.jpg
→
ppstructure/docs
/vqa/input/zh_val_21.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/input/zh_val_40.jpg
→
ppstructure/docs
/vqa/input/zh_val_40.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/input/zh_val_42.jpg
→
ppstructure/docs
/vqa/input/zh_val_42.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/result_re/zh_val_21_re.jpg
→
ppstructure/docs
/vqa/result_re/zh_val_21_re.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/result_re/zh_val_40_re.jpg
→
ppstructure/docs
/vqa/result_re/zh_val_40_re.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/result_ser/zh_val_0_ser.jpg
→
ppstructure/docs
/vqa/result_ser/zh_val_0_ser.jpg
浏览文件 @
8a591a74
文件已移动
doc
/vqa/result_ser/zh_val_42_ser.jpg
→
ppstructure/docs
/vqa/result_ser/zh_val_42_ser.jpg
浏览文件 @
8a591a74
文件已移动
ppstructure/layout/README_ch.md
浏览文件 @
8a591a74
[
English
](
README.md
)
| 简体中文
-
[
版面分析使用说明
](
#版面分析使用说明
)
-
[
1. 安装whl包
](
#1--安装whl包
)
-
[
2. 使用
](
#2-使用
)
-
[
3. 后处理
](
#3-后处理
)
-
[
4. 指标
](
#4-指标
)
-
[
5. 训练版面分析模型
](
#5-训练版面分析模型
)
# 版面分析使用说明
-
[
1. 安装whl包
](
#1
)
-
[
2. 使用
](
#2
)
-
[
3. 后处理
](
#3
)
-
[
4. 指标
](
#4
)
-
[
5. 训练版面分析模型
](
#5
)
<a
name=
"1"
></a>
## 1. 安装whl包
```
bash
pip
install
-U
https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
```
<a
name=
"2"
></a>
## 2. 使用
使用layoutparser识别给定文档的布局:
...
...
@@ -20,7 +23,7 @@ pip install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-a
```
python
import
cv2
import
layoutparser
as
lp
image
=
cv2
.
imread
(
"
doc
/table/layout.jpg"
)
image
=
cv2
.
imread
(
"
ppstructure/docs
/table/layout.jpg"
)
image
=
image
[...,
::
-
1
]
# 加载模型
...
...
@@ -40,7 +43,7 @@ show_img.show()
下图展示了结果,不同颜色的检测框表示不同的类别,并通过
`show_element_type`
在框的左上角显示具体类别:
<div
align=
"center"
>
<img
src=
"../
../doc
/table/result_all.jpg"
width =
"600"
/>
<img
src=
"../
docs
/table/result_all.jpg"
width =
"600"
/>
</div>
`PaddleDetectionLayoutModel`
函数参数说明如下:
...
...
@@ -68,6 +71,7 @@ show_img.show()
*
TableBank word和TableBank latex分别在word文档、latex文档数据集训练;
*
下载的TableBank数据集里同时包含word和latex。
<a
name=
"3"
></a>
## 3. 后处理
版面分析检测包含多个类别,如果只想获取指定类别(如"Text"类别)的检测框、可以使用下述代码:
...
...
@@ -106,9 +110,10 @@ show_img.show()
显示只有"Text"类别的结果:
<div
align=
"center"
>
<img
src=
"../
../doc
/table/result_text.jpg"
width =
"600"
/>
<img
src=
"../
docs
/table/result_text.jpg"
width =
"600"
/>
</div>
<a
name=
"4"
></a>
## 4. 指标
| Dataset | mAP | CPU time cost | GPU time cost |
...
...
@@ -122,6 +127,7 @@ show_img.show()
**GPU:**
a single NVIDIA Tesla P40
<a
name=
"5"
></a>
## 5. 训练版面分析模型
上述模型基于
[
PaddleDetection
](
https://github.com/PaddlePaddle/PaddleDetection
)
训练,如果您想训练自己的版面分析模型,请参考:
[
train_layoutparser_model
](
train_layoutparser_model_ch.md
)
ppstructure/table/README_ch.md
浏览文件 @
8a591a74
-
[
表格识别
](
#表格识别
)
-
[
1. 表格识别 pipeline
](
#1-表格识别-pipeline
)
-
[
2. 性能
](
#2-性能
)
-
[
3. 使用
](
#3-使用
)
-
[
3.1 快速开始
](
#31-快速开始
)
-
[
3.2 训练
](
#32-训练
)
-
[
3.3 评估
](
#33-评估
)
-
[
3.4 预测
](
#34-预测
)
[
English
](
README.md
)
| 简体中文
# 表格识别
-
[
1. 表格识别 pipeline
](
#1
)
-
[
2. 性能
](
#2
)
-
[
3. 使用
](
#3
)
-
[
3.1 快速开始
](
#31
)
-
[
3.2 训练
](
#32
)
-
[
3.3 评估
](
#33
)
-
[
3.4 预测
](
#34
)
<a
name=
"1"
></a>
## 1. 表格识别 pipeline
表格识别主要包含三个模型
...
...
@@ -18,7 +21,7 @@
具体流程图如下
![
tableocr_pipeline
](
../
../doc
/table/tableocr_pipeline.jpg
)
![
tableocr_pipeline
](
../
docs
/table/tableocr_pipeline.jpg
)
流程说明:
...
...
@@ -28,7 +31,9 @@
4.
单元格的识别结果和表格结构一起构造表格的html字符串。
<a
name=
"2"
></a>
## 2. 性能
我们在 PubTabNet
<sup>
[1]
</sup>
评估数据集上对算法进行了评估,性能如下
...
...
@@ -37,8 +42,10 @@
| EDD
<sup>
[2]
</sup>
| 88.3 |
| Ours | 93.32 |
<a
name=
"3"
></a>
## 3. 使用
<a
name=
"31"
></a>
### 3.1 快速开始
```
python
...
...
@@ -60,6 +67,7 @@ python3 table/predict_table.py --det_model_dir=inference/en_ppocr_mobile_v2.0_ta
note: 上述模型是在 PubLayNet 数据集上训练的表格识别模型,仅支持英文扫描场景,如需识别其他场景需要自己训练模型后替换
`det_model_dir`
,
`rec_model_dir`
,
`table_model_dir`
三个字段即可。
<a
name=
"32"
></a>
### 3.2 训练
在这一章节中,我们仅介绍表格结构模型的训练,
[
文字检测
](
../../doc/doc_ch/detection.md
)
和
[
文字识别
](
../../doc/doc_ch/recognition.md
)
的模型训练请参考对应的文档。
...
...
@@ -89,6 +97,7 @@ python3 tools/train.py -c configs/table/table_mv3.yml -o Global.checkpoints=./yo
**注意**
:
`Global.checkpoints`
的优先级高于
`Global.pretrain_weights`
的优先级,即同时指定两个参数时,优先加载
`Global.checkpoints`
指定的模型,如果
`Global.checkpoints`
指定的模型路径有误,会加载
`Global.pretrain_weights`
指定的模型。
<a
name=
"33"
></a>
### 3.3 评估
表格使用
[
TEDS(Tree-Edit-Distance-based Similarity)
](
https://github.com/ibm-aur-nlp/PubTabNet/tree/master/src
)
作为模型的评估指标。在进行模型评估之前,需要将pipeline中的三个模型分别导出为inference模型(我们已经提供好),还需要准备评估的gt, gt示例如下:
...
...
@@ -113,6 +122,8 @@ python3 table/eval_table.py --det_model_dir=path/to/det_model_dir --rec_model_di
```
bash
teds: 93.32
```
<a
name=
"34"
></a>
### 3.4 预测
```
python
...
...
@@ -120,6 +131,6 @@ cd PaddleOCR/ppstructure
python3
table
/
predict_table
.
py
--
det_model_dir
=
path
/
to
/
det_model_dir
--
rec_model_dir
=
path
/
to
/
rec_model_dir
--
table_model_dir
=
path
/
to
/
table_model_dir
--
image_dir
=
..
/
doc
/
table
/
1.
png
--
rec_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_dict
.
txt
--
table_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_structure_dict
.
txt
--
rec_char_type
=
EN
--
det_limit_side_len
=
736
--
det_limit_type
=
min
--
output
..
/
output
/
table
```
Reference
#
Reference
1.
https://github.com/ibm-aur-nlp/PubTabNet
2.
https://arxiv.org/pdf/1911.10683
ppstructure/vqa/README.md
浏览文件 @
8a591a74
-
[
文档视觉问答(DOC-VQA)
](
#文档视觉问答doc-vqa
)
-
[
1. 简介
](
#1-简介
)
-
[
2. 性能
](
#2-性能
)
-
[
3. 效果演示
](
#3-效果演示
)
-
[
3.1 SER
](
#31-ser
)
-
[
3.2 RE
](
#32-re
)
-
[
4. 安装
](
#4-安装
)
-
[
4.1 安装依赖
](
#41-安装依赖
)
-
[
4.2 安装PaddleOCR(包含 PP-OCR 和 VQA)
](
#42-安装paddleocr包含-pp-ocr-和-vqa
)
-
[
5. 使用
](
#5-使用
)
-
[
5.1 数据和预训练模型准备
](
#51-数据和预训练模型准备
)
-
[
5.2 SER
](
#52-ser
)
-
[
5.3 RE
](
#53-re
)
-
[
6. 参考链接
](
#6-参考链接
)
# 文档视觉问答(DOC-VQA)
# 文档视觉问答(DocVQA)
-
[
1. 简介
](
#1
)
-
[
2. 性能
](
#2
)
-
[
3. 效果演示
](
#3
)
-
[
3.1 SER
](
#31
)
-
[
3.2 RE
](
#32
)
-
[
4. 安装
](
#4
)
-
[
4.1 安装依赖
](
#41
)
-
[
4.2 安装PaddleOCR
](
#42
)
-
[
5. 使用
](
#5
)
-
[
5.1 数据和预训练模型准备
](
#51
)
-
[
5.2 SER
](
#52
)
-
[
5.3 RE
](
#53
)
-
[
6. 参考链接
](
#6
)
<a
name=
"1"
></a>
## 1. 简介
VQA指视觉问答,主要针对图像内容进行提问和回答
,DOC-VQA是VQA任务中的一种,DOC-
VQA主要针对文本图像的文字内容提出问题。
VQA指视觉问答,主要针对图像内容进行提问和回答
,DocVQA是VQA任务中的一种,Doc
VQA主要针对文本图像的文字内容提出问题。
PP-Structure 里的
DOC-
VQA算法基于PaddleNLP自然语言处理算法库进行开发。
PP-Structure 里的
Doc
VQA算法基于PaddleNLP自然语言处理算法库进行开发。
主要特性如下:
...
...
@@ -34,6 +35,7 @@ PP-Structure 里的 DOC-VQA算法基于PaddleNLP自然语言处理算法库进
本项目是
[
LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
](
https://arxiv.org/pdf/2104.08836.pdf
)
在 Paddle 2.2上的开源实现,
包含了在
[
XFUND数据集
](
https://github.com/doc-analysis/XFUND
)
上的微调代码。
<a
name=
"2"
></a>
## 2. 性能
我们在
[
XFUN
](
https://github.com/doc-analysis/XFUND
)
的中文数据集上对算法进行了评估,性能如下
...
...
@@ -46,13 +48,15 @@ PP-Structure 里的 DOC-VQA算法基于PaddleNLP自然语言处理算法库进
| LayoutLMv2 | RE | 0.6777 |
[
链接
](
https://paddleocr.bj.bcebos.com/pplayout/re_LayoutLMv2_xfun_zh.tar
)
|
| LayoutLM | SER | 0.7731 |
[
链接
](
https://paddleocr.bj.bcebos.com/pplayout/ser_LayoutLM_xfun_zh.tar
)
|
<a
name=
"3"
></a>
## 3. 效果演示
**注意:**
测试图片来源于XFUN数据集。
<a
name=
"31"
></a>
### 3.1 SER
![](
../
../doc/vqa/result_ser/zh_val_0_ser.jpg
)
| !
[](
../../doc
/vqa/result_ser/zh_val_42_ser.jpg
)
![](
../
docs/vqa/result_ser/zh_val_0_ser.jpg
)
| !
[](
../docs
/vqa/result_ser/zh_val_42_ser.jpg
)
---|---
图中不同颜色的框表示不同的类别,对于XFUN数据集,有
`QUESTION`
,
`ANSWER`
,
`HEADER`
3种类别
...
...
@@ -63,16 +67,19 @@ PP-Structure 里的 DOC-VQA算法基于PaddleNLP自然语言处理算法库进
在OCR检测框的左上方也标出了对应的类别和OCR识别结果。
<a
name=
"32"
></a>
### 3.2 RE
![](
../
../doc/vqa/result_re/zh_val_21_re.jpg
)
| !
[](
../../doc
/vqa/result_re/zh_val_40_re.jpg
)
![](
../
docs/vqa/result_re/zh_val_21_re.jpg
)
| !
[](
../docs
/vqa/result_re/zh_val_40_re.jpg
)
---|---
图中红色框表示问题,蓝色框表示答案,问题和答案之间使用绿色线连接。在OCR检测框的左上方也标出了对应的类别和OCR识别结果。
<a
name=
"4"
></a>
## 4. 安装
<a
name=
"41"
></a>
### 4.1 安装依赖
-
**(1) 安装PaddlePaddle**
...
...
@@ -89,7 +96,8 @@ python3 -m pip install "paddlepaddle>=2.2" -i https://mirror.baidu.com/pypi/simp
```
更多需求,请参照
[
安装文档
](
https://www.paddlepaddle.org.cn/install/quick
)
中的说明进行操作。
### 4.2 安装PaddleOCR(包含 PP-OCR 和 VQA)
<a
name=
"42"
></a>
### 4.2 安装PaddleOCR
-
**(1)pip快速安装PaddleOCR whl包(仅预测)**
...
...
@@ -114,8 +122,10 @@ git clone https://gitee.com/paddlepaddle/PaddleOCR
python3
-m
pip
install
-r
ppstructure/vqa/requirements.txt
```
<a
name=
"5"
></a>
## 5. 使用
<a
name=
"51"
></a>
### 5.1 数据和预训练模型准备
如果希望直接体验预测过程,可以下载我们提供的预训练模型,跳过训练过程,直接预测即可。
...
...
@@ -139,6 +149,7 @@ wget https://paddleocr.bj.bcebos.com/dataset/XFUND.tar
python3 ppstructure/vqa/helper/trans_xfun_data.py
--ori_gt_path
=
path/to/json_path
--output_path
=
path/to/save_path
```
<a
name=
"52"
></a>
### 5.2 SER
启动训练之前,需要修改下面的四个字段
...
...
@@ -192,6 +203,7 @@ export CUDA_VISIBLE_DEVICES=0
python3 helper/eval_with_label_end2end.py
--gt_json_path
XFUND/zh_val/xfun_normalize_val.json
--pred_json_path
output_res/infer_results.txt
```
<a
name=
"53"
></a>
### 5.3 RE
*
启动训练
...
...
@@ -237,6 +249,7 @@ python3 tools/infer_vqa_token_ser_re.py -c configs/vqa/re/layoutxlm.yml -o Archi
最终会在
`config.Global.save_res_path`
字段所配置的目录下保存预测结果可视化图像以及预测结果文本文件,预测结果文本文件名为
`infer_results.txt`
。
<a
name=
"6"
></a>
## 6. 参考链接
-
LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding, https://arxiv.org/pdf/2104.08836.pdf
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录