Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
s920243400
PaddleDetection
提交
fd949c73
P
PaddleDetection
项目概览
s920243400
/
PaddleDetection
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleDetection
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleDetection
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
fd949c73
编写于
8月 23, 2022
作者:
U
user1018
提交者:
GitHub
8月 23, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update layout (#6710)
上级
d446fd2f
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
28 addition
and
16 deletion
+28
-16
configs/picodet/legacy_model/application/layout_analysis/README.md
...icodet/legacy_model/application/layout_analysis/README.md
+24
-16
configs/picodet/legacy_model/application/layout_analysis/picodet_lcnet_x1_0_layout.yml
...application/layout_analysis/picodet_lcnet_x1_0_layout.yml
+4
-0
未找到文件。
configs/picodet/legacy_model/application/layout_analysis/README.md
浏览文件 @
fd949c73
...
...
@@ -11,31 +11,36 @@
### 1.1 数据集
训练版面分析模型时主要用到了以下几个数据集。
| dataset | 简介 |
| ------------------------------------------------------------ | ------------------------------------------------------------ |
|
[
cTDaR2019_cTDaR
](
https://cndplab-founder.github.io/cTDaR2019/
)
| 用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头,如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头,cTDaR_t10482.jpg)。 |
|
[
IIIT-AR-13K
](
http://cvit.iiit.ac.in/usodi/iiitar13k.php
)
| 手动注释公开的年度报告中的图形或页面而构建的数据集,包含5类:table, figure, natural image, logo, and signature |
|
[
CDLA
](
https://github.com/buptlihang/CDLA
)
| 中文文档版面分析数据集,面向中文文献类(论文)场景,包含10类:Table、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation |
|
[
TableBank
](
https://github.com/doc-analysis/TableBank
)
| 用于表格检测和识别大型数据集,包含Word和Latex2种文档格式 |
|
[
DocBank
](
https://github.com/doc-analysis/DocBank
)
| 使用弱监督方法构建的大规模数据集(500K文档页面),用于文档布局分析,包含12类:Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title |
使用
[
PubLayNet
](
https://github.com/ibm-aur-nlp/PubLayNet
)
训练英文文档版面分析模型,该数据面向英文文献类(论文)场景,分别训练集(333,703张标注图片)、验证集(11,245张标注图片)和测试集(11,405张图片),包含5类:Table、Figure、Title、Text、List,更多
[
版面分析数据集
](
https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/ppstructure/layout/README.md#32
)
### 1.2 模型库
使用PicoDet模型在PubLayNet数据集进行训练,同时采用FGD蒸馏,预训练模型如下:
| 模型 | 图像输入尺寸 | mAP
<sup>
val
<br/>
0.5 | 下载地址 | 配置文件 |
| :-------- | :--------: | :----------------: | :---------------: | ----------------- |
| PicoDet-LCNet_x1_0 | 800
*
608 | 93.5 |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar
)
|
[
config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 + FGD | 800
*
608 | 94 |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout_infer.tar
)
|
[
teacher config
](
./picodet_lcnet_x2_5_layout.yml
)
|
[
student config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 | 800
*
608 | 93.5% |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_layout_infer.tar
)
|
[
config
](
./picodet_lcnet_x1_0_layout.yml
)
|
| PicoDet-LCNet_x1_0 + FGD | 800
*
608 | 94.0% |
[
trained model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout.pdparams
)
|
[
inference model
](
https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar
)
|
[
teacher config
](
./picodet_lcnet_x2_5_layout.yml
)
|
[
student config
](
./picodet_lcnet_x1_0_layout.yml
)
|
[
FGD蒸馏介绍
](
https://github.com/PaddlePaddle/PaddleDetection/blob/develop/configs/slim/distill/README.md
)
### 1.3 模型推理
下载模型库中的inference_model模型,版面恢复任务进行推理,可以执行如下命令:
了解版面分析整个流程(数据准备、模型训练、评估等),请参考
[
版面分析
](
https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/ppstructure/layout/README.md
)
,这里仅展示模型推理过程。首先下载模型库中的inference_model模型。
```
mkdir inference_model
cd inference_model
# 下载并解压PubLayNet推理模型
wget https://paddleocr.bj.bcebos.com/ppstructure/models/layout/picodet_lcnet_x1_0_fgd_layout_infer.tar && tar xf picodet_lcnet_x1_0_fgd_layout_infer.tar
cd ..
```
版面恢复任务进行推理,可以执行如下命令:
```
bash
python3 deploy/python/infer.py
\
--model_dir
=
picodet_lcnet_x1_0_layout
/
\
--model_dir
=
inference_model/picodet_lcnet_x1_0_fgd_layout_infer
/
\
--image_file
=
docs/images/layout.jpg
\
--device
=
CPU
```
...
...
@@ -46,3 +51,6 @@ python3 deploy/python/infer.py \
<img
src=
"images/layout_res.jpg"
width=
"800"
>
</div>
## 2 Reference
[1] Zhong X, Tang J, Yepes A J. Publaynet: largest dataset ever for document layout analysis[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1015-1022.
configs/picodet/legacy_model/application/layout_analysis/picodet_lcnet_x1_0_layout.yml
浏览文件 @
fd949c73
...
...
@@ -44,6 +44,10 @@ TestDataset:
worker_num
:
8
eval_height
:
&eval_height
800
eval_width
:
&eval_width
608
eval_size
:
&eval_size
[
*eval_height
,
*eval_width
]
TrainReader
:
sample_transforms
:
-
Decode
:
{}
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录