README_ch.md 5.5 KB
Newer Older
G
grasswolfs 已提交
1
[English](README.md) | 简体中文
W
WenmuZhou 已提交
2

M
update  
MissPenguin 已提交
3
# PP-Structure 文档分析
M
update  
MissPenguin 已提交
4 5

- [1. 简介](#1)
M
MissPenguin 已提交
6 7 8 9 10 11 12
- [2. 特性](#2)
- [3. 效果展示](#3)
  - [3.1 版面分析和表格识别](#31)
  - [3.2 版面恢复](#32)
  - [3.3 关键信息抽取](#33)
- [4. 快速体验](#4)
- [5. 模型库](#5)
M
update  
MissPenguin 已提交
13 14

<a name="1"></a>
文幕地方's avatar
文幕地方 已提交
15
## 1. 简介
文幕地方's avatar
文幕地方 已提交
16

M
MissPenguin 已提交
17
PP-Structure是PaddleOCR团队自研的智能文档分析系统,旨在帮助开发者更好的完成版面分析、表格识别等文档理解相关任务。
18

M
MissPenguin 已提交
19 20 21 22
PP-Structurev2系统流程图如下所示,文档图像首先经过图像矫正模块,判断整图方向并完成转正,随后可以完成版面信息分析与关键信息抽取2类任务。
- 版面分析任务中,图像首先经过版面分析模型,将图像划分为文本、表格、图像等不同区域,随后对这些区域分别进行识别,如,将表格区域送入表格识别模块进行结构化识别,将文本区域送入OCR引擎进行文字识别,最后使用版面恢复模块将其恢复为与原始图像布局一致的word或者pdf格式的文件;
- 关键信息抽取任务中,首先使用OCR引擎提取文本内容,然后由语义实体识别模块获取图像中的语义实体,最后经关系抽取模块获取语义实体之间的对应关系,从而提取需要的关键信息。
<img src="./docs/ppstructurev2_pipeline.png" width="100%"/>
23

M
MissPenguin 已提交
24
更多技术细节:👉 [PP-Structurev2技术报告]()
25

M
MissPenguin 已提交
26
PP-Structurev2支持各个模块独立使用或灵活搭配,如,可以单独使用版面分析,或单独使用表格识别,点击下面相应链接获取各个独立模块的使用教程:
27

M
MissPenguin 已提交
28 29 30 31
- [版面分析](layout/README_ch.md)
- [表格识别](table/README_ch.md)
- [关键信息抽取](kie/README_ch.md)
- [版面复原](recovery/README_ch.md)
32

M
MissPenguin 已提交
33 34
<a name="2"></a>
## 2. 特性
文幕地方's avatar
文幕地方 已提交
35

M
MissPenguin 已提交
36 37 38 39 40 41 42 43
PP-Structurev2的主要特性如下:
- 支持对图片/pdf形式的文档进行版面分析,可以划分**文字、标题、表格、图片、公式等**区域;
- 支持通用的中英文**表格检测**任务;
- 支持表格区域进行结构化识别,最终结果输出**Excel文件**
- 支持基于多模态的关键信息抽取(Key Information Extraction,KIE)任务-**语义实体识别**(Semantic Entity Recognition,SER)和**关系抽取**(Relation Extraction,RE);
- 支持**版面复原**,即恢复为与原始图像布局一致的word或者pdf格式的文件;
- 支持自定义训练及python whl包调用等多种推理部署方式,简单易用;
- 与半自动数据标注工具PPOCRLabel打通,支持版面分析、表格识别、SER三种任务的标注。
44

M
MissPenguin 已提交
45 46 47
<a name="3"></a>
## 3. 效果展示
PP-Structurev2支持各个模块独立使用或灵活搭配,如,可以单独使用版面分析,或单独使用表格识别,这里仅展示几种代表性使用方式的可视化效果。
48

M
MissPenguin 已提交
49 50 51 52
<a name="31"></a>
### 3.1 版面分析和表格识别
下图展示了版面分析+表格识别的整体流程,图片先有版面分析划分为图像、文本、标题和表格四种区域,然后对图像、文本和标题三种区域进行OCR的检测识别,对表格进行表格识别,其中图像还会被存储下来以便使用。
<img src="./docs/table/ppstructure.GIF" width="100%"/>
W
opt doc  
WenmuZhou 已提交
53

M
MissPenguin 已提交
54 55 56 57
<a name="32"></a>
### 3.2 版面恢复
下图展示了基于上一节版面分析和表格识别的结果进行版面恢复的效果。
<img src="./docs/recovery/recovery.jpg" width="100%"/>
W
opt doc  
WenmuZhou 已提交
58 59


M
MissPenguin 已提交
60 61
<a name="33"></a>
### 3.3 关键信息抽取
W
opt doc  
WenmuZhou 已提交
62

M
MissPenguin 已提交
63
* SER
W
opt doc  
WenmuZhou 已提交
64

M
MissPenguin 已提交
65
图中不同颜色的框表示不同的类别。
W
opt doc  
WenmuZhou 已提交
66

M
MissPenguin 已提交
67 68 69
<div align="center">
    <img src="https://user-images.githubusercontent.com/14270174/185539141-68e71c75-5cf7-4529-b2ca-219d29fa5f68.jpg" width="600">
</div>
W
opt doc  
WenmuZhou 已提交
70

M
MissPenguin 已提交
71 72 73
<div align="center">
    <img src="https://user-images.githubusercontent.com/14270174/185310636-6ce02f7c-790d-479f-b163-ea97a5a04808.jpg" width="600">
</div>
74

M
MissPenguin 已提交
75 76 77
<div align="center">
    <img src="https://user-images.githubusercontent.com/14270174/185539517-ccf2372a-f026-4a7c-ad28-c741c770f60a.png" width="600">
</div>
78

M
MissPenguin 已提交
79 80 81 82 83 84 85 86
<div align="center">
    <img src="https://user-images.githubusercontent.com/25809855/186094456-01a1dd11-1433-4437-9ab2-6480ac94ec0a.png" width="600">
</div>

<div align="center">
    <img src="https://user-images.githubusercontent.com/25809855/186095702-9acef674-12af-4d09-97fc-abf4ab32600e.png" width="600">
</div>

M
MissPenguin 已提交
87
* RE
文幕地方's avatar
文幕地方 已提交
88

M
MissPenguin 已提交
89
图中红色框表示`问题`,蓝色框表示`答案``问题``答案`之间使用绿色线连接。
文幕地方's avatar
文幕地方 已提交
90

M
MissPenguin 已提交
91 92 93
<div align="center">
    <img src="https://user-images.githubusercontent.com/14270174/185393805-c67ff571-cf7e-4217-a4b0-8b396c4f22bb.jpg" width="600">
</div>
文幕地方's avatar
文幕地方 已提交
94

M
MissPenguin 已提交
95 96 97
<div align="center">
    <img src="https://user-images.githubusercontent.com/14270174/185540080-0431e006-9235-4b6d-b63d-0b3c6e1de48f.jpg" width="600">
</div>
文幕地方's avatar
文幕地方 已提交
98

M
MissPenguin 已提交
99 100 101 102 103 104 105 106
<div align="center">
    <img src="https://user-images.githubusercontent.com/25809855/186094813-3a8e16cc-42e5-4982-b9f4-0134dfb5688d.png" width="600">
</div>  

<div align="center">
    <img src="https://user-images.githubusercontent.com/25809855/186095641-5843b4da-34d7-4c1c-943a-b1036a859fe3.png" width="600">
</div> 

M
MissPenguin 已提交
107 108
<a name="4"></a>
## 4. 快速体验
文幕地方's avatar
文幕地方 已提交
109

M
MissPenguin 已提交
110
请参考[快速使用](./docs/quickstart.md)教程。
文幕地方's avatar
文幕地方 已提交
111

M
MissPenguin 已提交
112 113
<a name="5"></a>
## 5. 模型库
文幕地方's avatar
文幕地方 已提交
114

M
MissPenguin 已提交
115
部分任务需要同时用到结构化分析模型和OCR模型,如表格识别需要使用表格识别模型进行结构化解析,同时也要用到OCR模型对表格内的文字进行识别,请根据具体需求选择合适的模型。
文幕地方's avatar
文幕地方 已提交
116

M
MissPenguin 已提交
117 118
结构化分析相关模型下载可以参考:
- [PP-Structure 模型库](./docs/models_list.md)
文幕地方's avatar
文幕地方 已提交
119

M
MissPenguin 已提交
120 121
OCR相关模型下载可以参考:
- [PP-OCR 模型库](../doc/doc_ch/models_list.md)
文幕地方's avatar
文幕地方 已提交
122