add_multilingual_text_image_orientation

44a17b05 · lvjian0706 · 1540eb34 · 44a17b05 · 44a17b05
2 changed file
--- a/docs/zh_CN/PULC/PULC_language_classification.md
+++ b/docs/zh_CN/PULC/PULC_language_classification.md
@@ -37,18 +37,18 @@
 该案例提供了用户使用 PaddleClas 的超轻量图像分类方案（PULC，Practical Ultra Lightweight Classification）快速构建轻量级、高精度、可落地的语种分类模型。使用该方法训练得到的模型可以快速判断图片中的文字语种，该模型可以广泛应用于金融、政务等各种涉及多语种OCR处理的场景中。
-下表列出了语种分类模型的相关指标，前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_large_x1_0 作为 backbone 训练得到的模型的相关指标，第三行至第六行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SSLD 预训练模型 + EDA 策略、使用 SSLD 预训练模型 + EDA 策略 + SKL-UGI 知识蒸馏策略训练得到的模型的相关指标。其中替换 backbone 为 PPLCNet_x1_0时，将数据预处理时的输入尺寸变为[192,48]，且网络的下采样stride调整为[2, [2, 1], [2, 1], [2, 1], [2, 1]]。
+下表列出了语种分类模型的相关指标，前两行展现了使用 SwinTranformer_tiny 和 MobileNetV3_small_x0_35 作为 backbone 训练得到的模型的相关指标，第三行至第六行依次展现了替换 backbone 为 PPLCNet_x1_0、使用 SSLD 预训练模型、使用 SSLD 预训练模型 + EDA 策略、使用 SSLD 预训练模型 + EDA 策略 + SKL-UGI 知识蒸馏策略训练得到的模型的相关指标。其中替换 backbone 为 PPLCNet_x1_0时，将数据预处理时的输入尺寸变为[192,48]，且网络的下采样stride调整为[2, [2, 1], [2, 1], [2, 1], [2, 1]]。
-| 模型                   | 精度      | 延时     | 存储    | 策略                                           |
+| 模型                    | 精度      | 延时     | 存储    | 策略                                           |
-| ---------------------- | --------- | -------- | ------- | ---------------------------------------------- |
+| ----------------------- | --------- | -------- | ------- | ---------------------------------------------- |
-| SwinTranformer_tiny    | 98.12     | 89.09    | 107     | 使用ImageNet预训练模型                         |
+| SwinTranformer_tiny     | 98.12     | 89.09    | 107     | 使用ImageNet预训练模型                         |
-| MobileNetV3_large_x1_0 | 98.3      | 4.78     | 17      | 使用ImageNet预训练模型                         |
+| MobileNetV3_small_x0_35 | 95.92     | 2.98     | 17      | 使用ImageNet预训练模型                         |
-| PPLCNet_x1_0           | 98.35     | 2.58     | 6.5     | 使用ImageNet预训练模型                         |
+| PPLCNet_x1_0            | 98.35     | 2.58     | 6.5     | 使用ImageNet预训练模型                         |
-| PPLCNet_x1_0           | 98.7      | 2.58     | 6.5     | 使用SSLD预训练模型                             |
+| PPLCNet_x1_0            | 98.7      | 2.58     | 6.5     | 使用SSLD预训练模型                             |
-| PPLCNet_x1_0           | 99.12     | 2.58     | 6.5     | 使用SSLD预训练模型+EDA策略                     |
+| PPLCNet_x1_0            | 99.12     | 2.58     | 6.5     | 使用SSLD预训练模型+EDA策略                     |
-| **PPLCNet_x1_0**       | **99.26** | **2.58** | **6.5** | 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
+| **PPLCNet_x1_0**        | **99.26** | **2.58** | **6.5** | 使用SSLD预训练模型+EDA策略+SKL-UGI知识蒸馏策略 |
-从表中可以看出，backbone 为 SwinTranformer_tiny 时精度比较高，但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_large_x1_0 后，精度和速度都有了提升。将 backbone 替换为 PPLCNet_x1_0 且调整预处理输入尺寸和网络的下采样stride时，精度较 MobileNetV3_large_x1_0 高0.05个百分点，同时速度提升 2 倍左右。在此基础上，使用 SSLD 预训练模型后，在不改变推理速度的前提下，精度可以提升 0.35 个百分点，进一步地，当融合EDA策略后，精度可以再提升 0.42 个百分点，最后，在使用 SKL-UGI 知识蒸馏后，精度可以继续提升 0.14 个百分点。此时，PPLCNet_x1_0 超过了 MobileNetV3_large_x1_0 和 SwinTranformer_tiny 模型的精度，并且速度有了明显提升。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
+从表中可以看出，backbone 为 SwinTranformer_tiny 时精度比较高，但是推理速度较慢。将 backboone 替换为轻量级模型 MobileNetV3_small_x0_35 后，速度提升明显，但精度有了大幅下降。将 backbone 替换为 PPLCNet_x1_0 且调整预处理输入尺寸和网络的下采样stride时，速度略为提升，同时精度较 MobileNetV3_large_x1_0 高2.43个百分点。在此基础上，使用 SSLD 预训练模型后，在不改变推理速度的前提下，精度可以提升 0.35 个百分点，进一步地，当融合EDA策略后，精度可以再提升 0.42 个百分点，最后，在使用 SKL-UGI 知识蒸馏后，精度可以继续提升 0.14 个百分点。此时，PPLCNet_x1_0 超过了 SwinTranformer_tiny 模型的精度，并且速度有了明显提升。关于 PULC 的训练方法和推理部署方法将在下面详细介绍。
 **备注：**关于PPLCNet的介绍可以参考[PPLCNet介绍](../models/PP-LCNet.md)，相关论文可以查阅[PPLCNet paper](https://arxiv.org/abs/2109.15099)。

--- a/ppcls/configs/PULC/language_classification/MobileNetV3_large_x1_0.yaml
+++ b/ppcls/configs/PULC/language_classification/MobileNetV3_large_x1_0.yaml
@@ -13,10 +13,11 @@ Global:
  # used for static mode and model export
  image_shape: [3, 224, 224]
  save_inference_dir: ./inference
+  start_eval_epoch: 20
 # model architecture
 Arch:
-  name: MobileNetV3_large_x1_0
+  name: MobileNetV3_small_x0_35
  class_num: 10
  pretrained: True
@@ -36,11 +37,11 @@ Optimizer:
  momentum: 0.9
  lr:
    name: Cosine
-    learning_rate: 0.8
+    learning_rate: 1.3
    warmup_epoch: 5
  regularizer:
    name: 'L2'
-    coeff: 0.00002
+    coeff: 0.00001
 # data loader for train and eval
@@ -58,7 +59,6 @@ DataLoader:
            size: 224
        - RandFlipImage:
            flip_code: 1
-        - AutoAugment:
        - NormalizeImage:
            scale: 1.0/255.0
            mean: [0.485, 0.456, 0.406]
@@ -71,7 +71,7 @@ DataLoader:
      drop_last: False
      shuffle: True
    loader:
-      num_workers: 4
+      num_workers: 8
      use_shared_memory: True
  Eval:
@@ -98,11 +98,11 @@ DataLoader:
      drop_last: False
      shuffle: False
    loader:
-      num_workers: 4
+      num_workers: 8
      use_shared_memory: True
 Infer:
-  infer_imgs: deploy/images/PULC/language_classification/word_35404.png
+  infer_imgs: docs/images/inference_deployment/whl_demo.jpg
  batch_size: 10
  transforms:
    - DecodeImage: