提交 1c5e7f25 编写于 作者: T Topdu

aug p infe

上级 773b687f
...@@ -2,7 +2,7 @@ ...@@ -2,7 +2,7 @@
## 1. 简介 ## 1. 简介
PP-OCRv3是百度开源的超轻量级场景文本检测识别模型库,其中超轻量的场景中文识别模型SVTR_LCNet使用了SVTR算法结构。为了保证速度,SVTR_LCNet将SVTR模型的Local Blocks替换为LCNet,使用两层Global Blocks。在中文场景中,经过多次优化,SVTR_LCNet的最终精度为79.4%。具体的 PP-OCRv3是百度开源的超轻量级场景文本检测识别模型库,其中超轻量的场景中文识别模型SVTR_LCNet使用了SVTR算法结构。为了保证速度,SVTR_LCNet将SVTR模型的Local Blocks替换为LCNet,使用两层Global Blocks。在中文场景中,PP-OCRv3识别主要使用如下优化策略
- GTC:Attention指导CTC训练策略; - GTC:Attention指导CTC训练策略;
- TextConAug:挖掘文字上下文信息的数据增广策略; - TextConAug:挖掘文字上下文信息的数据增广策略;
- TextRotNet:自监督的预训练模型; - TextRotNet:自监督的预训练模型;
...@@ -11,10 +11,11 @@ PP-OCRv3是百度开源的超轻量级场景文本检测识别模型库,其中 ...@@ -11,10 +11,11 @@ PP-OCRv3是百度开源的超轻量级场景文本检测识别模型库,其中
其中 *UIM:无标注数据挖掘方案* 使用了高精度的SVTR中文模型进行无标注文件的刷库,该模型在PP-OCRv3识别的数据集上训练,精度对比如下表。 其中 *UIM:无标注数据挖掘方案* 使用了高精度的SVTR中文模型进行无标注文件的刷库,该模型在PP-OCRv3识别的数据集上训练,精度对比如下表。
|中文识别算法|模型|精度| |中文识别算法|模型|UIM|精度|
| --- | --- | --- | | --- | --- | --- |--- |
|PP-OCRv3|SVTR_LCNet|79.4%| |PP-OCRv3|SVTR_LCNet| w/o |78.4%|
|SVTR|SVTR-Tiny|82.5%| |PP-OCRv3|SVTR_LCNet| w |79.4%|
|SVTR|SVTR-Tiny|-|82.5%|
aistudio项目链接: [高精度中文场景文本识别模型SVTR](https://aistudio.baidu.com/aistudio/projectdetail/4263032) aistudio项目链接: [高精度中文场景文本识别模型SVTR](https://aistudio.baidu.com/aistudio/projectdetail/4263032)
......
...@@ -92,9 +92,9 @@ Metric: ...@@ -92,9 +92,9 @@ Metric:
Train: Train:
dataset: dataset:
name: SimpleDataSet name: SimpleDataSet
data_dir: ./train_data
label_file_list: label_file_list:
- /paddle/data/ocr_all/train_all_list.txt - ./train_data/train_list.txt
data_dir: /paddle/data/ocr_all
ext_op_transform_idx: 1 ext_op_transform_idx: 1
transforms: transforms:
- DecodeImage: - DecodeImage:
...@@ -130,9 +130,9 @@ Train: ...@@ -130,9 +130,9 @@ Train:
Eval: Eval:
dataset: dataset:
name: SimpleDataSet name: SimpleDataSet
data_dir: /paddle/data/ocr_all data_dir: ./train_data
label_file_list: label_file_list:
- /paddle/data/ocr_all/val_list.txt - ./train_data/val_list.txt
transforms: transforms:
- DecodeImage: - DecodeImage:
img_mode: BGR img_mode: BGR
......
...@@ -97,7 +97,11 @@ class BaseDataAugmentation(object): ...@@ -97,7 +97,11 @@ class BaseDataAugmentation(object):
class ABINetRecAug(object): class ABINetRecAug(object):
def __init__(self, **kwargs): def __init__(self,
geometry_p=0.5,
deterioration_p=0.25,
colorjitter_p=0.25,
**kwargs):
self.transforms = Compose([ self.transforms = Compose([
CVGeometry( CVGeometry(
degrees=45, degrees=45,
...@@ -105,13 +109,14 @@ class ABINetRecAug(object): ...@@ -105,13 +109,14 @@ class ABINetRecAug(object):
scale=(0.5, 2.), scale=(0.5, 2.),
shear=(45, 15), shear=(45, 15),
distortion=0.5, distortion=0.5,
p=0.5), CVDeterioration( p=geometry_p), CVDeterioration(
var=20, degrees=6, factor=4, p=0.25), CVColorJitter( var=20, degrees=6, factor=4, p=deterioration_p),
brightness=0.5, CVColorJitter(
contrast=0.5, brightness=0.5,
saturation=0.5, contrast=0.5,
hue=0.1, saturation=0.5,
p=0.25) hue=0.1,
p=colorjitter_p)
]) ])
def __call__(self, data): def __call__(self, data):
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册