From 29ec70994cda1926157c1ca9038527f6eecbc565 Mon Sep 17 00:00:00 2001 From: Double_V Date: Thu, 5 May 2022 21:00:35 +0800 Subject: [PATCH] Update ppocr_introduction.md --- doc/doc_ch/ppocr_introduction.md | 34 -------------------------------- 1 file changed, 34 deletions(-) diff --git a/doc/doc_ch/ppocr_introduction.md b/doc/doc_ch/ppocr_introduction.md index e4d46160..6527c580 100644 --- a/doc/doc_ch/ppocr_introduction.md +++ b/doc/doc_ch/ppocr_introduction.md @@ -38,42 +38,8 @@ PP-OCRv2在PP-OCR的基础上,进一步在5个方面重点优化,检测模 #### PP-OCRv3 - PP-OCRv3在PP-OCRv2的基础上进一步升级。检测模型仍然基于DB算法,优化策略采用了带残差注意力机制的FPN结构RSEFPN、增大感受野的PAN结构LKPAN、基于DML训练的更优的教师模型;识别模型将base模型从CRNN替换成了IJCAI 2022论文[SVTR](https://arxiv.org/abs/2205.00159),并采用SVTR轻量化、带指导训练CTC、数据增广策略RecConAug、自监督训练的更好的预训练模型、无标签数据的使用进行模型加速和效果提升。更多细节请参考PP-OCRv3[技术报告](./PP-OCRv3_introduction.md)。 -PP-OCRv3文本检测从网络结构、蒸馏训练策略两个方向做了进一步优化: -- 网络结构改进:提出两种改进后的FPN网络结构,RSEFPN,LKPAN,分别从channel attention、更大感受野的角度优化FPN中的特征,优化FPN提取的特征。 -- 蒸馏训练策略:首先,以resnet50作为backbone,改进后的LKPAN网络结构作为FPN,使用DML自蒸馏策略得到精度更高的teacher模型;然后,student模型FPN部分采用RSEFPN,采用PPOCRV2提出的CML蒸馏方法蒸馏,在训练过程中,动态调整CML蒸馏teacher loss的占比。 - -|序号|策略|模型大小|hmean|Intel Gold 6148CPU+mkldnn预测耗时| -|-|-|-|-|-| -|0|ppocr_mobile|3M|81.3|117ms| -|1|PPOCRV2|3M|83.3|117ms| -|2|teacher DML + LKPAN|124M|86.0|396ms| -|3|1 + 2 + RESFPN|3.6M|85.4|124ms| -|4|1 + 2 + LKPAN|4.6M|86.0|156ms| - - -PP-OCRv3识别从网络结构、训练策略、数据增强三个方向做了进一步优化: -- 网络结构上:使用[SVTR](todo:add_link)中的 Transformer block 替换LSTM,提升模型精度和预测速度; -- 训练策略上:参考 [GTC](https://arxiv.org/pdf/2002.01276.pdf) 策略,使用注意力机制模块指导CTC训练,定位和识别字符,提升不规则文本的识别精度;设计方向分类前序任务,获取更优预训练模型,加速模型收敛过程,提升精度。 -- 数据增强上:使用[RecConAug](todo:add_link)数据增广方法,随机结合图片,提升训练数据的上下文信息丰富度,增强模型鲁棒性。 - -基于上述策略,PP-OCRv3识别模型相比上一版本,速度加速30%,精度进一步提升4.5%。 具体消融实验: - -| id | 策略 | 模型大小 | 精度 | CPU+mkldnn 预测耗时 | -|-----|-----|--------|----|------------| -| 01 | PP-OCRv2 | 8M | 69.3% | 26ms | -| 02 | SVTR_tiny | 19M | 80.1% | - | -| 03 | LCNet_SVTR_G6 | 8.2M | 76% | - | -| 04 | LCNet_SVTR_G1 | - | - | - | -| 05 | PP-OCRv3 | 12M | 71.9% | 19ms | -| 06 | + GTC | 12M | 75.8% | 19ms | -| 07 | + RecConAug | 12M | 76.3% | 19ms | -| 08 | + SSL pretrain | 12M | 76.9% | 19ms | -| 09 | + UDML | 12M | 78.4% | 19ms | -| 10 | + unlabeled data | 12M | 79.4% | 19ms | - PP-OCRv3系统pipeline如下: -- GitLab