Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleClas
提交
3bc8e79f
P
PaddleClas
项目概览
PaddlePaddle
/
PaddleClas
大约 1 年 前同步成功
通知
115
Star
4999
Fork
1114
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
19
列表
看板
标记
里程碑
合并请求
6
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleClas
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
19
Issue
19
列表
看板
标记
里程碑
合并请求
6
合并请求
6
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
3bc8e79f
编写于
6月 06, 2022
作者:
L
lvjian0706
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add_multilingual_text_image_orientation
上级
ca60b8d6
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
17 addition
and
15 deletion
+17
-15
docs/zh_CN/PULC/PULC_multilingual.md
docs/zh_CN/PULC/PULC_multilingual.md
+9
-8
docs/zh_CN/PULC/PULC_text_image_orientation.md
docs/zh_CN/PULC/PULC_text_image_orientation.md
+8
-7
未找到文件。
docs/zh_CN/PULC/PULC_multilingual.md
浏览文件 @
3bc8e79f
...
...
@@ -38,13 +38,13 @@
下表列出了多语言分类模型的相关指标,前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_large_x1_0 作为 backbone 训练得到的模型的相关指标,第三行至第六行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SSLD 预训练模型 + EDA 策略、使用 SSLD 预训练模型 + EDA 策略 + SKL-UGI 知识蒸馏策略训练得到的模型的相关指标。其中替换 backbone 为 PPLCNet_x1_0时,将数据预处理时的输入尺寸变为[192,48],且网络的下采样stride调整为[2, [2, 1], [2, 1], [2, 1], [2, 1]]。
| 模型 | 精度 | 延时 | 存储 | 策略 |
| --------------------- | --------- | -------- | ------- | ---------------------------------------------- |
| Swin
Transformer Tiny
| 98.12 | 166.64 | 107 | 使用ImageNet预训练模型 |
| MobileNet
v3 large x1
| 98.3 | 4.78 | 17 | 使用ImageNet预训练模型 |
| PPLCNet
x1
| 98.35 | 2.56 | 6.5 | 使用ImageNet预训练模型 |
| PPLCNet
x1
| 98.7 | 2.56 | 6.5 | 使用SSLD预训练模型 |
| PPLCNet
x1
| 99.12 | 2.56 | 6.5 | 使用SSLD预训练模型+EDA策略 |
|
**PPLCNet
x1**
|
**99.26**
|
**2.56**
|
**6.5**
| 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
| ---------------------
-
| --------- | -------- | ------- | ---------------------------------------------- |
| Swin
Tranformer_tiny
| 98.12 | 166.64 | 107 | 使用ImageNet预训练模型 |
| MobileNet
V3_large_x1_0
| 98.3 | 4.78 | 17 | 使用ImageNet预训练模型 |
| PPLCNet
_x1_0
| 98.35 | 2.56 | 6.5 | 使用ImageNet预训练模型 |
| PPLCNet
_x1_0
| 98.7 | 2.56 | 6.5 | 使用SSLD预训练模型 |
| PPLCNet
_x1_0
| 99.12 | 2.56 | 6.5 | 使用SSLD预训练模型+EDA策略 |
|
**PPLCNet
_x1_0**
|
**99.26**
|
**2.56**
|
**6.5**
| 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
从表中可以看出,backbone 为 SwinTranformer_tiny 时精度比较高,但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_large_x1_0 后,精度和速度都有了提升。将 backbone 替换为 PPLCNet_x1_0 且调整预处理输入尺寸和网络的下采样stride时,精度较 MobileNetV3_large_x1_0 高0.05个百分点,同时速度提升 2 倍左右。在此基础上,使用 SSLD 预训练模型后,在不改变推理速度的前提下,精度可以提升 0.35 个百分点,进一步地,当融合EDA策略后,精度可以再提升 0.42 个百分点,最后,在使用 SKL-UGI 知识蒸馏后,精度可以继续提升 0.14 个百分点。此时,PPLCNet_x1_0 超过了 MobileNetV3_large_x1_0 和 SwinTranformer_tiny 模型的精度,并且速度有了明显提升。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
...
...
@@ -175,6 +175,7 @@ python3 tools/infer.py \
-
其中
`-o Global.pretrained_model="output/PPLCNet_x1_0/best_model"`
指定了当前最佳权重所在的路径,如果指定其他权重,只需替换对应的路径即可。
-
默认是对
`deploy/images/PULC/multilingual/word_35404.png`
进行预测,此处也可以通过增加字段
`-o Infer.infer_imgs=xxx`
对其他图片预测。
-
预测输出为top2的预测结果,
`japan`
表示该图中文字语言识别为日语,
`latin`
表示该图中文字语言识别为拉丁语。
<a
name=
"4"
></a>
...
...
docs/zh_CN/PULC/PULC_text_image_orientation.md
浏览文件 @
3bc8e79f
...
...
@@ -38,12 +38,12 @@
下表列出了判断含文字整图方向分类模型的相关指标,前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_large_x1_0 作为 backbone 训练得到的模型的相关指标,第三行至第五行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SHAS 超参数搜索策略训练得到的模型的相关指标。
| 模型 | 精度(%) | 延时(ms) | 存储(M) | 策略 |
| --------------------- | --------- | ---------- | --------- | ------------------------------------- |
| Swin
Transformer Tiny
| 99.12 | 163.92 | 107 | 使用ImageNet预训练模型 |
| MobileNet
v3 large x1
| 99.35 | 4.71 | 17 | 使用ImageNet预训练模型 |
| PPLCNet
x1
| 97.85 | 2.29 | 6.5 | 使用ImageNet预训练模型 |
| PPLCNet
x1
| 98.02 | 2.29 | 6.5 | 使用SSLD预训练模型 |
|
**PPLCNet
x1**
|
**99.06**
|
**2.29**
|
**6.5**
| 使用SSLD预训练模型+SHAS超参数搜索策略 |
| ---------------------
-
| --------- | ---------- | --------- | ------------------------------------- |
| Swin
Tranformer_tiny
| 99.12 | 163.92 | 107 | 使用ImageNet预训练模型 |
| MobileNet
V3_large_x1_0
| 99.35 | 4.71 | 17 | 使用ImageNet预训练模型 |
| PPLCNet
_x1_0
| 97.85 | 2.29 | 6.5 | 使用ImageNet预训练模型 |
| PPLCNet
_x1_0
| 98.02 | 2.29 | 6.5 | 使用SSLD预训练模型 |
|
**PPLCNet
_x1_0**
|
**99.06**
|
**2.29**
|
**6.5**
| 使用SSLD预训练模型+SHAS超参数搜索策略 |
从表中可以看出,backbone 为 SwinTranformer_tiny 时精度比较高,但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_large_x1_0 后,精度和速度都有了提升,但速度还有一定的提升空间。将 backbone 替换为 PPLCNet_x1_0 时,精度较 MobileNetV3_large_x1_0 低1.5个百分点,但是速度提升 2 倍左右。在此基础上,使用 SSLD 预训练模型后,在不改变推理速度的前提下,精度可以提升 0.17 个百分点,进一步地,当使用SHAS超参数搜索策略搜索最优超参数后,精度可以再提升 1.04 个百分点。此时,PPLCNet_x1_0 与 MobileNetV3_large_x1_0 和 SwinTranformer_tiny 的精度差别不大,但是速度明显变快。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
...
...
@@ -197,6 +197,7 @@ python3 tools/infer.py \
-
其中
`-o Global.pretrained_model="output/PPLCNet_x1_0/best_model"`
指定了当前最佳权重所在的路径,如果指定其他权重,只需替换对应的路径即可。
-
默认是对
`deploy/images/PULC/text_image_orientation/img_rot0_demo.jpg`
进行预测,此处也可以通过增加字段
`-o Infer.infer_imgs=xxx`
对其他图片预测。
-
输出为top2的预测结果,
`0`
表示该图文本方向为0度,
`90`
表示该图文本方向为顺时针90度,
`180`
表示该图文本方向为顺时针180度,
`270`
表示该图文本方向为顺时针270度。
<a
name=
"4"
></a>
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录