未验证 提交 dc7bd04e 编写于 作者: D dyning 提交者: GitHub

Merge pull request #147 from MissPenguin/develop

add datasets & FAQ doc
...@@ -2,11 +2,11 @@ ...@@ -2,11 +2,11 @@
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。 PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。
**近期更新** **近期更新**
- 2020.6.8 添加[数据集](./doc/datasets.md),并保持持续更新
- 2020.6.5 支持 `attetnion` 模型导出 `inference_model` - 2020.6.5 支持 `attetnion` 模型导出 `inference_model`
- 2020.6.5 支持单独预测识别时,输出结果得分 - 2020.6.5 支持单独预测识别时,输出结果得分
- 2020.5.30 提供超轻量级中文OCR在线体验 - 2020.5.30 提供超轻量级中文OCR在线体验
- 2020.5.30 模型预测、训练支持Windows系统 - 2020.5.30 模型预测、训练支持Windows系统
- 2020.5.30 开源通用中文OCR模型
- [more](./doc/update.md) - [more](./doc/update.md)
## 特性 ## 特性
......
...@@ -21,7 +21,8 @@ PaddleOCR已完成Windows和Mac系统适配,运行时注意两点:1、在[ ...@@ -21,7 +21,8 @@ PaddleOCR已完成Windows和Mac系统适配,运行时注意两点:1、在[
7. **超轻量模型和通用OCR模型的区别** 7. **超轻量模型和通用OCR模型的区别**
目前PaddleOCR开源了2个中文模型,分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下: 目前PaddleOCR开源了2个中文模型,分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下:
- 相同点:两者使用相同的**算法****训练数据** - 相同点:两者使用相同的**算法****训练数据**
- 不同点:不同之处在于**骨干网络****通道参数**,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件。 - 不同点:不同之处在于**骨干网络****通道参数**,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件.
|模型|骨干网络|检测训练配置|识别训练配置| |模型|骨干网络|检测训练配置|识别训练配置|
|-|-|-|-| |-|-|-|-|
|8.6M超轻量中文OCR模型|MobileNetV3+MobileNetV3|det_mv3_db.yml|rec_chinese_lite_train.yml| |8.6M超轻量中文OCR模型|MobileNetV3+MobileNetV3|det_mv3_db.yml|rec_chinese_lite_train.yml|
......
...@@ -29,26 +29,25 @@ ...@@ -29,26 +29,25 @@
#### 3、中文街景文字识别 #### 3、中文街景文字识别
- **数据来源**:https://aistudio.baidu.com/aistudio/competition/detail/8 - **数据来源**:https://aistudio.baidu.com/aistudio/competition/detail/8
- **数据简介**:共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片,如图所示: - **数据简介**:共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片,如图所示:
![](datasets/ch_street_rec_1.png) ![](datasets/ch_street_rec_1.png)
(a) 标注:魅派集成吊顶 (a) 标注:魅派集成吊顶
![](datasets/ch_street_rec_2.png) ![](datasets/ch_street_rec_2.png)
(b) 标注:母婴用品连锁 (b) 标注:母婴用品连锁
- **下载地址** - **下载地址**
https://aistudio.baidu.com/aistudio/datasetdetail/8429 https://aistudio.baidu.com/aistudio/datasetdetail/8429
<a name="中文文档文字识别"></a> <a name="中文文档文字识别"></a>
#### 4、中文文档文字识别 #### 4、中文文档文字识别
- **数据来源**:https://github.com/YCG09/chinese_ocr - **数据来源**:https://github.com/YCG09/chinese_ocr
- **数据简介** - **数据简介**
- 共约364万张图片,按照99:1划分成训练集和验证集。 - 共约364万张图片,按照99:1划分成训练集和验证集。
- 数据利用中文语料库(新闻 + 文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成 - 数据利用中文语料库(新闻 + 文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成
- 包含汉字、英文字母、数字和标点共5990个字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt ) - 包含汉字、英文字母、数字和标点共5990个字符(字符集合:https://github.com/YCG09/chinese_ocr/blob/master/train/char_std_5990.txt )
- 每个样本固定10个字符,字符随机截取自语料库中的句子 - 每个样本固定10个字符,字符随机截取自语料库中的句子
- 图片分辨率统一为280x32 - 图片分辨率统一为280x32
![](datasets/ch_doc1.jpg)
![](datasets/ch_doc1.jpg) ![](datasets/ch_doc2.jpg)
![](datasets/ch_doc2.jpg) ![](datasets/ch_doc3.jpg)
![](datasets/ch_doc3.jpg)
- **下载地址**:https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw (密码:lu7m) - **下载地址**:https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw (密码:lu7m)
<a name="ICDAR2019-ArT"></a> <a name="ICDAR2019-ArT"></a>
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册