diff --git a/StyleTextRec/README_ch.md b/StyleTextRec/README_ch.md index 052811a0b2a2a140cbe8161256b163a55c9caee0..60edf343d753e6baf141798a4e88ca60bf4be132 100644 --- a/StyleTextRec/README_ch.md +++ b/StyleTextRec/README_ch.md @@ -66,7 +66,7 @@ python3 -m tools.synth_image -c configs/config.yml python3 -m tools.synth_image -c configs/config.yml --style_image examples/style_images/2.jpg --text_corpus PaddleOCR --language en ``` * 注意:语言选项和语料相对应,目前我们支持英文、简体中文和韩语。 - + 3. 在`tools/synth_image.py`中,我们还提供了一个`batch_synth_images`方法,可以两两组合语料和图片,批量生成一批数据。 ### 高级使用 @@ -81,12 +81,15 @@ python3 -m tools.synth_image -c configs/config.yml --style_image examples/style_ * `image_home`:风格图片目录; * `label_file`:风格图片路径列表文件,如果所用数据集有label,则label_file为label文件路径; * `with_label`:标志`label_file`是否为label文件。 - 我们提供了一批[样例图](https://paddleocr.bj.bcebos.com/dygraph_v2.0/style_text/chkoen_5w.tar)供您试用。 * `CorpusGenerator`: * `method`:语料生成方法,目前有`FileCorpus`和`EnNumCorpus`可选。如果使用`EnNumCorpus`,则不需要填写其他配置,否则需要修改`corpus_file`和`language`; * `language`:语料的语种; * `corpus_file`: 语料文件路径。 - + + 我们提供了一批[样例图](https://paddleocr.bj.bcebos.com/dygraph_v2.0/style_text/chkoen_5w.tar)供您试用,下面给出了一些示例: +
+ +
2. 运行`tools/synth_dataset`合成数据: ``` bash @@ -104,8 +107,17 @@ python3 -m tools.synth_image -c configs/config.yml --style_image examples/style_ ### 应用示例 在完成上述操作后,即可得到用于OCR识别的合成数据集,下面给出了一些数据集生成的示例: +
+ +
+请您参考[OCR识别文档](https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ch/recognition.md#%E5%90%AF%E5%8A%A8%E8%AE%AD%E7%BB%83),完成训练。 + +下面展示了一些使用合成数据训练的效果: -接下来请参考[OCR识别文档](https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ch/recognition.md#%E5%90%AF%E5%8A%A8%E8%AE%AD%E7%BB%83),完成训练。 +| 场景 | 字符 | 原始数据 | 测试数据 | 只使用原始数据的识别准确率 | 新增合成数据 | 使用合成数据识别准确率 | 指标提升 | +| -------- | ---------- | -------- | -------- | -------------------------- | ------------ | ---------------------- | -------- | +| 金属表面 | 英文和数字 | 2203 | 650 | 0.5938 | 20000 | 0.7546 | 16% | +| 随机背景 | 韩语 | 5631 | 1230 | 0.3012 | 100000 | 0.5057 | 20% | ### 项目结构 ``` diff --git a/StyleTextRec/doc/images/6.png b/StyleTextRec/doc/images/6.png new file mode 100644 index 0000000000000000000000000000000000000000..75af7275a009ec01c4bc0903a57d559daf93101b Binary files /dev/null and b/StyleTextRec/doc/images/6.png differ