diff --git a/doc/doc_ch/config.md b/doc/doc_ch/config.md index 6ef69d9cb0cc7ab4ed6d072185d734b12af1e30a..6a57b5154cc70507f7791e5262fa3b28976a12a7 100644 --- a/doc/doc_ch/config.md +++ b/doc/doc_ch/config.md @@ -31,7 +31,7 @@ | character_dict_path | 设置字典路径 | ./ppocr/utils/ic15_dict.txt | \ | | loss_type | 设置 loss 类型 | ctc | 支持两种loss: ctc / attention | | distort | 设置是否使用数据增强 | false | 设置为true时,将在训练时随机进行扰动,支持的扰动操作可阅读[img_tools.py](https://github.com/PaddlePaddle/PaddleOCR/blob/develop/ppocr/data/rec/img_tools.py) | -| use_space_char | 设置是否识别空格 | false | 仅在"ch"模式下支持空格 | +| use_space_char | 设置是否识别空格 | false | 仅在 character_type=ch 时支持空格 | | reader_yml | 设置reader配置文件 | ./configs/rec/rec_icdar15_reader.yml | \ | | pretrain_weights | 加载预训练模型路径 | ./pretrain_models/CRNN/best_accuracy | \ | | checkpoints | 加载模型参数路径 | None | 用于中断后加载参数继续训练 | diff --git a/doc/doc_ch/recognition.md b/doc/doc_ch/recognition.md index d95760242fbea3b04719d5e115f273aba3d6834f..8fe28fedfe4809cf811297ea1aed3d8688bdb6d9 100644 --- a/doc/doc_ch/recognition.md +++ b/doc/doc_ch/recognition.md @@ -96,6 +96,9 @@ word_dict.txt 每行有一个单字,将字符与数字索引映射在一起, 如需自定义dic文件,请在 `configs/rec/rec_icdar15_train.yml` 中添加 `character_dict_path` 字段, 并将 `character_type` 设置为 `ch`。 +*如果希望支持识别"空格"类别, 请将yml文件中的 `use_space_char` 字段设置为 `true`。`use_space_char` 仅在 `character_type=ch` 时生效* + + ### 启动训练 PaddleOCR提供了训练脚本、评估脚本和预测脚本,本节将以 CRNN 识别模型为例: @@ -124,6 +127,18 @@ export CUDA_VISIBLE_DEVICES=0,1,2,3 python3 tools/train.py -c configs/rec/rec_icdar15_train.yml ``` +- 数据增强 + +PaddleOCR提供了多种数据增强方式,如果您希望在训练时加入扰动,请在配置文件中设置 `distort: true`。 + +默认的扰动方式有:颜色空间转换(cvtColor)、模糊(blur)、抖动(jitter)、噪声(Gasuss noise)、随机切割(random crop)、透视(perspective)、颜色反转(reverse)。 + +训练过程中每种扰动方式以50%的概率被选择,具体代码实现请参考:[img_tools.py](https://github.com/PaddlePaddle/PaddleOCR/blob/develop/ppocr/data/rec/img_tools.py) + +*由于OpenCV的兼容性问题,扰动操作暂时只支持GPU* + +- 训练 + PaddleOCR支持训练和评估交替进行, 可以在 `configs/rec/rec_icdar15_train.yml` 中修改 `eval_batch_step` 设置评估频率,默认每500个iter评估一次。评估过程中默认将最佳acc模型,保存为 `output/rec_CRNN/best_accuracy` 。 如果验证集很大,测试将会比较耗时,建议减少评估次数,或训练完再进行评估。 diff --git a/doc/doc_en/config_en.md b/doc/doc_en/config_en.md index 827d8b23b6f2855bf379058f117cfdb3a26885e6..4ff968e0e2fe3b52eb9bd347564e51e590be86cf 100644 --- a/doc/doc_en/config_en.md +++ b/doc/doc_en/config_en.md @@ -31,7 +31,7 @@ Take `rec_chinese_lite_train.yml` as an example | character_dict_path | Set dictionary path | ./ppocr/utils/ic15_dict.txt | \ | | loss_type | Set loss type | ctc | Supports two types of loss: ctc / attention | | distort | Set use distort | false | Support distort type ,read [img_tools.py](https://github.com/PaddlePaddle/PaddleOCR/blob/develop/ppocr/data/rec/img_tools.py) | -| use_space_char | Wether to recognize space | false | Only support in "ch" mode | +| use_space_char | Wether to recognize space | false | Only support in character_type=ch mode | | reader_yml | Set the reader configuration file | ./configs/rec/rec_icdar15_reader.yml | \ | | pretrain_weights | Load pre-trained model path | ./pretrain_models/CRNN/best_accuracy | \ | | checkpoints | Load saved model path | None | Used to load saved parameters to continue training after interruption |