From 3bc8e79fdd6293058c164d456441d1c305b17922 Mon Sep 17 00:00:00 2001
From: lvjian0706 <657300142@qq.com>
Date: Mon, 6 Jun 2022 16:44:36 +0800
Subject: [PATCH] add_multilingual_text_image_orientation

---
 docs/zh_CN/PULC/PULC_multilingual.md           | 17 +++++++++--------
 docs/zh_CN/PULC/PULC_text_image_orientation.md | 15 ++++++++-------
 2 files changed, 17 insertions(+), 15 deletions(-)

diff --git a/docs/zh_CN/PULC/PULC_multilingual.md b/docs/zh_CN/PULC/PULC_multilingual.md
index 5630e378..2b62ce6e 100644
--- a/docs/zh_CN/PULC/PULC_multilingual.md
+++ b/docs/zh_CN/PULC/PULC_multilingual.md
@@ -37,14 +37,14 @@
 
 下表列出了多语言分类模型的相关指标，前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_large_x1_0 作为 backbone 训练得到的模型的相关指标，第三行至第六行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SSLD 预训练模型 + EDA 策略、使用 SSLD 预训练模型 + EDA 策略 + SKL-UGI 知识蒸馏策略训练得到的模型的相关指标。其中替换 backbone 为 PPLCNet_x1_0时，将数据预处理时的输入尺寸变为[192,48]，且网络的下采样stride调整为[2, [2, 1], [2, 1], [2, 1], [2, 1]]。
 
-| 模型                  | 精度      | 延时     | 存储    | 策略                                           |
-| --------------------- | --------- | -------- | ------- | ---------------------------------------------- |
-| Swin Transformer Tiny | 98.12     | 166.64   | 107     | 使用ImageNet预训练模型                         |
-| MobileNetv3 large x1  | 98.3      | 4.78     | 17      | 使用ImageNet预训练模型                         |
-| PPLCNet x1            | 98.35     | 2.56     | 6.5     | 使用ImageNet预训练模型                         |
-| PPLCNet x1            | 98.7      | 2.56     | 6.5     | 使用SSLD预训练模型                             |
-| PPLCNet x1            | 99.12     | 2.56     | 6.5     | 使用SSLD预训练模型+EDA策略                     |
-| **PPLCNet x1**        | **99.26** | **2.56** | **6.5** | 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
+| 模型                   | 精度      | 延时     | 存储    | 策略                                           |
+| ---------------------- | --------- | -------- | ------- | ---------------------------------------------- |
+| SwinTranformer_tiny    | 98.12     | 166.64   | 107     | 使用ImageNet预训练模型                         |
+| MobileNetV3_large_x1_0 | 98.3      | 4.78     | 17      | 使用ImageNet预训练模型                         |
+| PPLCNet_x1_0           | 98.35     | 2.56     | 6.5     | 使用ImageNet预训练模型                         |
+| PPLCNet_x1_0           | 98.7      | 2.56     | 6.5     | 使用SSLD预训练模型                             |
+| PPLCNet_x1_0           | 99.12     | 2.56     | 6.5     | 使用SSLD预训练模型+EDA策略                     |
+| **PPLCNet_x1_0**       | **99.26** | **2.56** | **6.5** | 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
 
 从表中可以看出，backbone 为 SwinTranformer_tiny 时精度比较高，但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_large_x1_0 后，精度和速度都有了提升。将 backbone 替换为 PPLCNet_x1_0 且调整预处理输入尺寸和网络的下采样stride时，精度较 MobileNetV3_large_x1_0 高0.05个百分点，同时速度提升 2 倍左右。在此基础上，使用 SSLD 预训练模型后，在不改变推理速度的前提下，精度可以提升 0.35 个百分点，进一步地，当融合EDA策略后，精度可以再提升 0.42 个百分点，最后，在使用 SKL-UGI 知识蒸馏后，精度可以继续提升 0.14 个百分点。此时，PPLCNet_x1_0 超过了 MobileNetV3_large_x1_0 和 SwinTranformer_tiny 模型的精度，并且速度有了明显提升。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
 
@@ -175,6 +175,7 @@ python3 tools/infer.py \
 
 - 其中 `-o Global.pretrained_model="output/PPLCNet_x1_0/best_model"` 指定了当前最佳权重所在的路径，如果指定其他权重，只需替换对应的路径即可。
 - 默认是对 `deploy/images/PULC/multilingual/word_35404.png` 进行预测，此处也可以通过增加字段 `-o Infer.infer_imgs=xxx` 对其他图片预测。
+- 预测输出为top2的预测结果，`japan` 表示该图中文字语言识别为日语，`latin` 表示该图中文字语言识别为拉丁语。
 
 <a name="4"></a>
 
diff --git a/docs/zh_CN/PULC/PULC_text_image_orientation.md b/docs/zh_CN/PULC/PULC_text_image_orientation.md
index c028e6b0..ee65bc78 100644
--- a/docs/zh_CN/PULC/PULC_text_image_orientation.md
+++ b/docs/zh_CN/PULC/PULC_text_image_orientation.md
@@ -37,13 +37,13 @@
 
 下表列出了判断含文字整图方向分类模型的相关指标，前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_large_x1_0 作为 backbone 训练得到的模型的相关指标，第三行至第五行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SHAS 超参数搜索策略训练得到的模型的相关指标。
 
-| 模型                  | 精度（%） | 延时（ms） | 存储（M） | 策略                                  |
-| --------------------- | --------- | ---------- | --------- | ------------------------------------- |
-| Swin Transformer Tiny | 99.12     | 163.92     | 107       | 使用ImageNet预训练模型                |
-| MobileNetv3 large x1  | 99.35     | 4.71       | 17        | 使用ImageNet预训练模型                |
-| PPLCNet x1            | 97.85     | 2.29       | 6.5       | 使用ImageNet预训练模型                |
-| PPLCNet x1            | 98.02     | 2.29       | 6.5       | 使用SSLD预训练模型                    |
-| **PPLCNet x1**        | **99.06** | **2.29**   | **6.5**   | 使用SSLD预训练模型+SHAS超参数搜索策略 |
+| 模型                   | 精度（%） | 延时（ms） | 存储（M） | 策略                                  |
+| ---------------------- | --------- | ---------- | --------- | ------------------------------------- |
+| SwinTranformer_tiny    | 99.12     | 163.92     | 107       | 使用ImageNet预训练模型                |
+| MobileNetV3_large_x1_0 | 99.35     | 4.71       | 17        | 使用ImageNet预训练模型                |
+| PPLCNet_x1_0           | 97.85     | 2.29       | 6.5       | 使用ImageNet预训练模型                |
+| PPLCNet_x1_0           | 98.02     | 2.29       | 6.5       | 使用SSLD预训练模型                    |
+| **PPLCNet_x1_0**       | **99.06** | **2.29**   | **6.5**   | 使用SSLD预训练模型+SHAS超参数搜索策略 |
 
 从表中可以看出，backbone 为 SwinTranformer_tiny 时精度比较高，但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_large_x1_0 后，精度和速度都有了提升，但速度还有一定的提升空间。将 backbone 替换为 PPLCNet_x1_0 时，精度较 MobileNetV3_large_x1_0 低1.5个百分点，但是速度提升 2 倍左右。在此基础上，使用 SSLD 预训练模型后，在不改变推理速度的前提下，精度可以提升 0.17 个百分点，进一步地，当使用SHAS超参数搜索策略搜索最优超参数后，精度可以再提升 1.04 个百分点。此时，PPLCNet_x1_0 与 MobileNetV3_large_x1_0 和 SwinTranformer_tiny 的精度差别不大，但是速度明显变快。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
 
@@ -197,6 +197,7 @@ python3 tools/infer.py \
 
 - 其中 `-o Global.pretrained_model="output/PPLCNet_x1_0/best_model"` 指定了当前最佳权重所在的路径，如果指定其他权重，只需替换对应的路径即可。
 - 默认是对 `deploy/images/PULC/text_image_orientation/img_rot0_demo.jpg` 进行预测，此处也可以通过增加字段 `-o Infer.infer_imgs=xxx` 对其他图片预测。
+- 输出为top2的预测结果，`0` 表示该图文本方向为0度，`90` 表示该图文本方向为顺时针90度，`180` 表示该图文本方向为顺时针180度，`270` 表示该图文本方向为顺时针270度。
 
 <a name="4"></a>
 
-- 
GitLab