Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
weixin_41840029
PaddleOCR
提交
de712e27
P
PaddleOCR
项目概览
weixin_41840029
/
PaddleOCR
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleOCR
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleOCR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
de712e27
编写于
8月 10, 2022
作者:
文幕地方
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update ch doc
上级
1e27820f
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
13 addition
and
14 deletion
+13
-14
ppstructure/table/README_ch.md
ppstructure/table/README_ch.md
+13
-14
未找到文件。
ppstructure/table/README_ch.md
浏览文件 @
de712e27
...
...
@@ -40,7 +40,8 @@
|算法|
[
TEDS(Tree-Edit-Distance-based Similarity)
](
https://github.com/ibm-aur-nlp/PubTabNet/tree/master/src
)
|
| --- | --- |
| EDD
<sup>
[2]
</sup>
| 88.3 |
| Ours | 93.32 |
| TableRec-RARE(ours) | 93.32 |
| SLANet(ours) | 94.98 |
<a
name=
"3"
></a>
## 3. 使用
...
...
@@ -63,7 +64,7 @@ cd ..
# 执行预测
python3
table
/
predict_table
.
py
--
det_model_dir
=
inference
/
en_ppocr_mobile_v2
.
0
_table_det_infer
--
rec_model_dir
=
inference
/
en_ppocr_mobile_v2
.
0
_table_rec_infer
--
table_model_dir
=
inference
/
en_ppocr_mobile_v2
.
0
_table_structure_infer
--
image_dir
=
.
/
docs
/
table
/
table
.
jpg
--
rec_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_dict
.
txt
--
table_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_structure_dict
.
txt
--
det_limit_side_len
=
736
--
det_limit_type
=
min
--
output
.
/
output
/
table
```
运行完成后,每张图片的excel表格会保存到output字段指定的目录下
运行完成后,每张图片的excel表格会保存到output字段指定的目录下
,同时在该目录下回生产一个html文件,用于可视化查看单元格坐标和识别的表格。
note: 上述模型是在 PubLayNet 数据集上训练的表格识别模型,仅支持英文扫描场景,如需识别其他场景需要自己训练模型后替换
`det_model_dir`
,
`rec_model_dir`
,
`table_model_dir`
三个字段即可。
...
...
@@ -101,26 +102,24 @@ python3 tools/train.py -c configs/table/table_mv3.yml -o Global.checkpoints=./yo
### 3.3 评估
表格使用
[
TEDS(Tree-Edit-Distance-based Similarity)
](
https://github.com/ibm-aur-nlp/PubTabNet/tree/master/src
)
作为模型的评估指标。在进行模型评估之前,需要将pipeline中的三个模型分别导出为inference模型(我们已经提供好),还需要准备评估的gt, gt示例如下:
```
json
{
"PMC4289340_004_00.png"
:
[
[
"<html>"
,
"<body>"
,
"<table>"
,
"<thead>"
,
"<tr>"
,
"<td>"
,
"</td>"
,
"<td>"
,
"</td>"
,
"<td>"
,
"</td>"
,
"</tr>"
,
"</thead>"
,
"<tbody>"
,
"<tr>"
,
"<td>"
,
"</td>"
,
"<td>"
,
"</td>"
,
"<td>"
,
"</td>"
,
"</tr>"
,
"</tbody>"
,
"</table>"
,
"</body>"
,
"</html>"
],
[[
1
,
4
,
29
,
13
],
[
137
,
4
,
161
,
13
],
[
215
,
4
,
236
,
13
],
[
1
,
17
,
30
,
27
],
[
137
,
17
,
147
,
27
],
[
215
,
17
,
225
,
27
]],
[[
"<b>"
,
"F"
,
"e"
,
"a"
,
"t"
,
"u"
,
"r"
,
"e"
,
"</b>"
],
[
"<b>"
,
"G"
,
"b"
,
"3"
,
" "
,
"+"
,
"</b>"
],
[
"<b>"
,
"G"
,
"b"
,
"3"
,
" "
,
"-"
,
"</b>"
],
[
"<b>"
,
"P"
,
"a"
,
"t"
,
"i"
,
"e"
,
"n"
,
"t"
,
"s"
,
"</b>"
],
[
"6"
,
"2"
],
[
"4"
,
"5"
]]
]}
```
txt
PMC5755158_010_01.png <html><body><table><thead><tr><td></td><td><b>Weaning</b></td><td><b>Week 15</b></td><td><b>Off-test</b></td></tr></thead><tbody><tr><td>Weaning</td><td>–</td><td>–</td><td>–</td></tr><tr><td>Week 15</td><td>–</td><td>0.17 ± 0.08</td><td>0.16 ± 0.03</td></tr><tr><td>Off-test</td><td>–</td><td>0.80 ± 0.24</td><td>0.19 ± 0.09</td></tr></tbody></table></body></html>
```
gt每一行都由文件名和表格的html字符串组成,文件名和表格的html字符串之间使用
`\t`
分隔。
也可使用如下命令,由标注文件生成评估的gt文件:
```
python
python3
ppstructure
/
table
/
convert_label2html
.
py
--
ori_gt_path
/
path
/
to
/
your_label_file
--
save_path
/
path
/
to
/
save_file
```
json 中,key为图片名,value为对应的gt,gt是一个由三个item组成的list,每个item分别为
1.
表格结构的html字符串list
2.
每个cell的坐标 (不包括cell里文字为空的)
3.
每个cell里的文字信息 (不包括cell里文字为空的)
准备完成后使用如下命令进行评估,评估完成后会输出teds指标。
```
python
cd
PaddleOCR
/
ppstructure
python3
table
/
eval_table
.
py
--
det_model_dir
=
path
/
to
/
det_model_dir
--
rec_model_dir
=
path
/
to
/
rec_model_dir
--
table_model_dir
=
path
/
to
/
table_model_dir
--
image_dir
=
..
/
doc
/
table
/
1.
png
--
rec_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_dict
.
txt
--
table_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_structure_dict
.
txt
--
det_limit_side_len
=
736
--
det_limit_type
=
min
--
gt_path
=
path
/
to
/
gt
.
json
python3
table
/
eval_table
.
py
--
det_model_dir
=
path
/
to
/
det_model_dir
--
rec_model_dir
=
path
/
to
/
rec_model_dir
--
table_model_dir
=
path
/
to
/
table_model_dir
--
image_dir
=
..
/
doc
/
table
/
1.
png
--
rec_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_dict
.
txt
--
table_char_dict_path
=
..
/
ppocr
/
utils
/
dict
/
table_structure_dict
.
txt
--
det_limit_side_len
=
736
--
det_limit_type
=
min
--
gt_path
=
path
/
to
/
gt
.
txt
```
如使用PubLatNet评估数据集,将会输出
```
bash
teds: 9
3.32
teds: 9
4.98
```
<a
name=
"34"
></a>
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录