diff --git a/doc/doc_ch/PP-OCRv3_introduction.md b/doc/doc_ch/PP-OCRv3_introduction.md
index 164f049de68072fa917b2d32859ebecbdc29daa9..3fc17ebe0c8a2a1fc1e579777c6ad25cdc357202 100644
--- a/doc/doc_ch/PP-OCRv3_introduction.md
+++ b/doc/doc_ch/PP-OCRv3_introduction.md
@@ -8,85 +8,105 @@
- [4. 端到端评估](#4)
-
## 1. 简介
-PP-OCRv3在PP-OCRv2的基础上进一步升级。检测模型仍然基于DB算法,优化策略采用了带残差注意力机制的FPN结构RSEFPN、增大感受野的PAN结构LKPAN、基于DML训练的更优的教师模型;识别模型将base模型从CRNN替换成了IJCAI 2022论文[SVTR](https://arxiv.org/abs/2205.00159),并采用SVTR轻量化、带指导训练CTC、数据增广策略RecConAug、自监督训练的更好的预训练模型、无标签数据的使用进行模型加速和效果提升。更多细节请参考PP-OCRv3[技术报告](./PP-OCRv3_introduction.md)。
-
-PP-OCRv3系统pipeline如下:
+PP-OCRv3在PP-OCRv2的基础上进一步升级。整体的框架图保持了与PP-OCRv2相同的pipeline,针对检测模型和识别模型进行了优化。其中,检测模型仍基于DB模型优化,而识别模型不再采用CRNN,换成了会议IJCAI 2022中的最新方法[SVTR](https://arxiv.org/abs/2205.00159),PP-OCRv3系统框图如下所示(粉色框中为PP-OCRv3新增策略):
@@ -136,28 +157,62 @@ PP-OCRv3 期望在提升模型精度的同时,不带来额外的推理耗时
注: 测试速度时,输入图片尺寸均为(3,32,320); PP-OCRv2-baseline 代表没有借助蒸馏方法训练得到的模型
+**(2)采用Attention指导CTC训练。**
+
为了提升模型精度同时不引入额外推理成本,PP-OCRv3 参考 GTC(Guided Training of CTC) 策略,使用 Attention 监督 CTC 训练,预测时完全去除 Attention 模块,在推理阶段不增加任何耗时, 精度提升3.8%,训练流程如下所示:
+**(3)TextConAug数据增广策略。**
-在蒸馏策略方面:
+在论文[ConCLR](https://www.cse.cuhk.edu.hk/~byu/papers/C139-AAAI2022-ConCLR.pdf)中,作者提出ConAug数据增广,在一个batch内对2张不同的图像进行联结,组成新的图像并进行自监督对比学习。PP-OCRv3将此方法应用到有监督的学习任务中,设计了TextConAug数据增强方法,支持更多图像的联结,从而进一步丰富了图像的上下文信息。最终将识别模型精度进一步提升0.5%。TextConAug示意图如下所示:
-PP-OCRv3参考 [SSL](https://github.com/ku21fan/STR-Fewer-Labels) 设计了文本方向任务,训练了适用于文本识别的预训练模型,加速模型收敛过程,精度提升了0.6%; 使用UDML蒸馏策略,进一步提升精度1.5%,训练流程所示:
-数据增强方面:
+**(4)TextRotNet无监督训练优化预训练模型。**
+
+为了充分利用自然场景中的大量无标注文本数据,PP-OCRv3参考论文[STR-Fewer-Labels](https://github.com/ku21fan/STR-Fewer-Labels),设计TextRotNet自监督任务,对识别图像进行旋转并预测其旋转角度,同时结合中文场景文字识别任务的特点,在训练时适当调整图像的尺寸,添加文本识别数据增广,最终产出针对文本识别任务的PP-LCNet预训练模型,帮助识别模型精度进一步提升0.6%。TextRotNet训练流程如下图所示:
-1. 基于 [ConCLR](https://www.cse.cuhk.edu.hk/~byu/papers/C139-AAAI2022-ConCLR.pdf) 中的ConAug方法,设计了 RecConAug 数据增强方法,增强数据多样性,精度提升0.5%,增强可视化效果如下所示:
-
+
+
+
+
+**(5)UIM(Unlabeled Images Mining)无标签数据挖掘。**
+
+为更直接利用自然场景中包含大量无标注数据,使用PP-OCRv2检测模型以及SVTR_tiny识别模型对百度开源的40W [LSVT弱标注数据集](https://ai.baidu.com/broad/introduction?dataset=lsvt)进行检测与识别,并筛选出识别得分大于0.95的文本,共81W文本行数据,将其补充到训练数据中,最终进一步提升模型精度1.0%。
+
+
+
-2. 使用训练好的 SVTR_large 预测 120W 的 lsvt 无标注数据,取出其中得分大于0.95的数据,共得到81W识别数据加入到PP-OCRv3的训练数据中,精度提升1%。
## 4. 端到端评估
+
+经过以上优化,最终PP-OCRv3在速度可比情况下,中文场景端到端Hmean指标相比于PP-OCRv2提升5%,效果大幅提升。具体指标如下表所示:
+
+| Model | Hmean | Model Size (M) | Time Cost (CPU, ms) | Time Cost (T4 GPU, ms) |
+|-----|-----|--------|----| --- |
+| PP-OCR mobile | 50.3% | 8.1 | 356 | 116 |
+| PP-OCR server | 57.0% | 155.1 | 1056 | 200 |
+| PP-OCRv2 | 57.6% | 11.6 | 330 | 111 |
+| PP-OCRv3 | 62.9% | 15.6 | 331 | 86.64 |
+
+除了更新中文模型,本次升级也同步优化了英文数字模型,端到端效果提升11%,如下表所示:
+
+| Model | Recall | Precision | Hmean |
+|-----|-----|--------|----|
+| PP-OCR_en | 38.99% | 45.91% | 42.17% |
+| PP-OCRv3_en | 50.95% | 55.53% | 53.14% |
+
+同时,也对已支持的80余种语言识别模型进行了升级更新,在有评估集的四种语系识别准确率平均提升5%以上,如下表所示:
+
+| Model | 拉丁语系 | 阿拉伯语系 | 日语 | 韩语 |
+|-----|-----|--------|----| --- |
+| PP-OCR_mul | 69.6% | 40.5% | 38.5% | 55.4% |
+| PP-OCRv3_mul | 75.2%| 45.37% | 45.8% | 60.1% |
diff --git a/doc/ppocr_v3/UIM.png b/doc/ppocr_v3/UIM.png
new file mode 100644
index 0000000000000000000000000000000000000000..7479bdf4a9174be6b431aaee29093df92e008684
Binary files /dev/null and b/doc/ppocr_v3/UIM.png differ
diff --git a/doc/ppocrv3_framework.png b/doc/ppocrv3_framework.png
index c05398248fa7273382e9691a26d932bddc3cf84f..e05279f7f57301c480c0cc11d940af0b5bf69668 100644
Binary files a/doc/ppocrv3_framework.png and b/doc/ppocrv3_framework.png differ