Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleDetection
提交
fd949c73
P
PaddleDetection
项目概览
PaddlePaddle
/
PaddleDetection
大约 1 年 前同步成功
通知
695
Star
11112
Fork
2696
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
184
列表
看板
标记
里程碑
合并请求
40
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleDetection
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
184
Issue
184
列表
看板
标记
里程碑
合并请求
40
合并请求
40
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
fd949c73
编写于
8月 23, 2022
作者:
U
user1018
提交者:
GitHub
8月 23, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update layout (#6710)
上级
d446fd2f
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
28 addition
and
16 deletion
+28
-16
configs/picodet/legacy_model/application/layout_analysis/README.md
...icodet/legacy_model/application/layout_analysis/README.md
+24
-16
configs/picodet/legacy_model/application/layout_analysis/picodet_lcnet_x1_0_layout.yml
...application/layout_analysis/picodet_lcnet_x1_0_layout.yml
+4
-0
未找到文件。
configs/picodet/legacy_model/application/layout_analysis/README.md
浏览文件 @
fd949c73
...
...
@@ -11,33 +11,38 @@
### 1.1 数据集
训练版面分析模型时主要用到了以下几个数据集。
| dataset | 简介 |
| ------------------------------------------------------------ | ------------------------------------------------------------ |
|
[
cTDaR2019_cTDaR
](
https://cndplab-founder.github.io/cTDaR2019/
)
| 用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头,如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头,cTDaR_t10482.jpg)。 |
|
[
IIIT-AR-13K
](
http://cvit.iiit.ac.in/usodi/iiitar13k.php
)
| 手动注释公开的年度报告中的图形或页面而构建的数据集,包含5类:table, figure, natural image, logo, and signature |
|
[
CDLA
](
https://github.com/buptlihang/CDLA
)
| 中文文档版面分析数据集,面向中文文献类(论文)场景,包含10类:Table、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation |
|
[
TableBank
](
https://github.com/doc-analysis/TableBank
)
| 用于表格检测和识别大型数据集,包含Word和Latex2种文档格式 |
|
[
DocBank
](
https://github.com/doc-analysis/DocBank
)
| 使用弱监督方法构建的大规模数据集(500K文档页面),用于文档布局分析,包含12类:Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title |
使用
[
PubLayNet
](
https://github.com/ibm-aur-nlp/PubLayNet
)
训练英文文档版面分析模型,该数据面向英文文献类(论文)场景,分别训练集(333,703张标注图片)、验证集(11,245张标注图片)和测试集(11,405张图片),包含5类:Table、Figure、Title、Text、List,更多
[
版面分析数据集
](
https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/ppstructure/layout/README.md#32
)
### 1.2 模型库
使用PicoDet模型在PubLayNet数据集进行训练,同时采用FGD蒸馏,预训练模型如下:
| 模型 | 图像输入尺寸 | mAP
<sup>
val
<br/>
0.5 | 下载地址 | 配置文件 |
| :-------- | :--------: | :----------------: | :---------------: | ----------------- |
| PicoDet-LCNet_x1_0 | 800
*
608 | 93.5 |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar
)
|
[
config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 + FGD | 800
*
608 | 94 |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout_infer.tar
)
|
[
teacher config
](
./picodet_lcnet_x2_5_layout.yml
)
|
[
student config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 | 800
*
608 | 93.5% |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout_infer.tar
)
|
[
config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 + FGD | 800
*
608 | 94.0% |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar
)
|
[
teacher config
](
./picodet_lcnet_x2_5_layout.yml
)
|
[
student config
](
./picodet_lcnet_x1_0_layout.yml
)
|
[
FGD蒸馏介绍
](
https://github.com/PaddlePaddle/PaddleDetection/blob/develop/configs/slim/distill/README.md
)
### 1.3 模型推理
下载模型库中的inference_model模型,版面恢复任务进行推理,可以执行如下命令:
了解版面分析整个流程(数据准备、模型训练、评估等),请参考
[
版面分析
](
https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/ppstructure/layout/README.md
)
,这里仅展示模型推理过程。首先下载模型库中的inference_model模型。
```
mkdir inference_model
cd inference_model
# 下载并解压PubLayNet推理模型
wget https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar && tar xf picodet_lcnet_x1_0_fgd_layout_infer.tar
cd ..
```
版面恢复任务进行推理,可以执行如下命令:
```
bash
python3 deploy/python/infer.py
\
--model_dir
=
picodet_lcnet_x1_0_layout
/
\
--image_file
=
docs/images/layout.jpg
\
--device
=
CPU
--model_dir
=
inference_model/picodet_lcnet_x1_0_fgd_layout_infer
/
\
--image_file
=
docs/images/layout.jpg
\
--device
=
CPU
```
可视化版面结果如下图所示:
...
...
@@ -46,3 +51,6 @@ python3 deploy/python/infer.py \
<img
src=
"images/layout_res.jpg"
width=
"800"
>
</div>
## 2 Reference
[1] Zhong X, Tang J, Yepes A J. Publaynet: largest dataset ever for document layout analysis[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1015-1022.
configs/picodet/legacy_model/application/layout_analysis/picodet_lcnet_x1_0_layout.yml
浏览文件 @
fd949c73
...
...
@@ -44,6 +44,10 @@ TestDataset:
worker_num
:
8
eval_height
:
&eval_height
800
eval_width
:
&eval_width
608
eval_size
:
&eval_size
[
*eval_height
,
*eval_width
]
TrainReader
:
sample_transforms
:
-
Decode
:
{}
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录