文件 · github/fork/BeyondYourself/BeyondYourself-patch-1 · PaddlePaddle / PaddleOCR · GitCode


English | 简体中文

简介
PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力使用者训练出更好的模型，并应用落地。
近期更新

2020.8.26 更新OCR相关的84个常见问题及解答，具体参考FAQ

2020.8.24 支持通过whl包安装使用PaddleOCR，具体参考Paddleocr Package使用说明

2020.8.21 更新8月18日B站直播课回放和PPT，课节2，易学易用的OCR工具大礼包，获取地址

2020.8.16 开源文本检测算法SAST和文本识别算法SRN

2020.7.23 发布7月21日B站直播课回放和PPT，课节1，PaddleOCR开源大礼包全面解读，获取地址

2020.7.15 添加基于EasyEdge和Paddle-Lite的移动端DEMO，支持iOS和Android系统
more


特性

超轻量级中文OCR模型，总模型仅8.6M

单模型支持中英文数字组合识别、竖排文本识别、长文本识别
检测模型DB（4.1M）+识别模型CRNN（4.5M）


实用通用中文OCR模型
多种预测推理部署方案，包括服务部署和端侧部署
多种文本检测训练算法，EAST、DB、SAST
多种文本识别训练算法，Rosetta、CRNN、STAR-Net、RARE、SRN
可运行于Linux、Windows、MacOS等多种系统


快速体验

    
上图是超轻量级中文OCR模型效果展示，更多效果图请见效果展示页面。


超轻量级中文OCR在线体验地址：https://www.paddlepaddle.org.cn/hub/scene/ocr


移动端DEMO体验(基于EasyEdge和Paddle-Lite, 支持iOS和Android系统)：安装包二维码获取地址
Android手机也可以扫描下面二维码安装体验。


中文OCR模型列表


模型名称
模型简介
检测模型地址
识别模型地址
支持空格的识别模型地址


chinese_db_crnn_mobile
超轻量级中文OCR模型

inference模型 / 预训练模型


inference模型 / 预训练模型


inference模型 / 预训练模型


chinese_db_crnn_server
通用中文OCR模型

inference模型 / 预训练模型


inference模型 / 预训练模型


inference模型 / 预训练模型


文档教程

快速安装
中文OCR模型快速使用
算法介绍

文本检测
文本识别


模型训练/评估

文本检测
文本识别
yml参数配置文件介绍
中文OCR训练预测技巧


预测部署

基于Python预测引擎推理
基于C++预测引擎推理
服务化部署
端侧部署
模型量化压缩（coming soon）
Benchmark


数据集

通用中英文OCR数据集
手写中文OCR数据集
垂类多语言OCR数据集
常用数据标注工具
常用数据合成工具


效果展示

超轻量级中文OCR效果展示
通用中文OCR效果展示
支持空格的中文OCR效果展示


FAQ

【精选】OCR精选10个问题
【理论篇】OCR通用21个问题
【实战篇】PaddleOCR实战53个问题


技术交流群
参考文献
许可证书
贡献代码


算法介绍


1.文本检测算法
PaddleOCR开源的文本检测算法列表：


  EAST(paper)

  DB(paper)

  SAST(paper)(百度自研)

在ICDAR2015文本检测公开数据集上，算法效果如下：


模型
骨干网络
precision
recall
Hmean
下载链接


EAST
ResNet50_vd
88.18%
85.51%
86.82%
下载链接


EAST
MobileNetV3
81.67%
79.83%
80.74%
下载链接


DB
ResNet50_vd
83.79%
80.65%
82.19%
下载链接


DB
MobileNetV3
75.92%
73.18%
74.53%
下载链接


SAST
ResNet50_vd
92.18%
82.96%
87.33%
下载链接


在Total-text文本检测公开数据集上，算法效果如下：


模型
骨干网络
precision
recall
Hmean
下载链接


SAST
ResNet50_vd
88.74%
79.80%
84.03%
下载链接


说明： SAST模型训练额外加入了icdar2013、icdar2017、COCO-Text、ArT等公开数据集进行调优。PaddleOCR用到的经过整理格式的英文公开数据集下载：百度云地址 (提取码: 2bpi)
使用LSVT街景数据集共3w张数据，训练中文检测模型的相关配置和预训练文件如下：


模型
骨干网络
配置文件
预训练模型


超轻量中文模型
MobileNetV3
det_mv3_db.yml
下载链接


通用中文OCR模型
ResNet50_vd
det_r50_vd_db.yml
下载链接


注： 上述DB模型的训练和评估，需设置后处理参数box_thresh=0.6，unclip_ratio=1.5，使用不同数据集、不同模型训练，可调整这两个参数进行优化

PaddleOCR文本检测算法的训练和使用请参考文档教程中模型训练/评估中的文本检测部分。


2.文本识别算法
PaddleOCR开源的文本识别算法列表：


  CRNN(paper)

  Rosetta(paper)

  STAR-Net(paper)

  RARE(paper)

  SRN(paper)(百度自研)

参考DTRB文字识别训练和评估流程，使用MJSynth和SynthText两个文字识别数据集训练，在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估，算法效果如下：


模型
骨干网络
Avg Accuracy
模型存储命名
下载链接


Rosetta
Resnet34_vd
80.24%
rec_r34_vd_none_none_ctc
下载链接


Rosetta
MobileNetV3
78.16%
rec_mv3_none_none_ctc
下载链接


CRNN
Resnet34_vd
82.20%
rec_r34_vd_none_bilstm_ctc
下载链接


CRNN
MobileNetV3
79.37%
rec_mv3_none_bilstm_ctc
下载链接


STAR-Net
Resnet34_vd
83.93%
rec_r34_vd_tps_bilstm_ctc
下载链接


STAR-Net
MobileNetV3
81.56%
rec_mv3_tps_bilstm_ctc
下载链接


RARE
Resnet34_vd
84.90%
rec_r34_vd_tps_bilstm_attn
下载链接


RARE
MobileNetV3
83.32%
rec_mv3_tps_bilstm_attn
下载链接


SRN
Resnet50_vd_fpn
88.33%
rec_r50fpn_vd_none_srn
下载链接


说明： SRN模型使用了数据扰动方法对上述提到对两个训练集进行增广，增广后的数据可以在百度网盘上下载，提取码: y3ry。
原始论文使用两阶段训练平均精度为89.74%，PaddleOCR中使用one-stage训练，平均精度为88.33%。两种预训练权重均在下载链接中。
使用LSVT街景数据集根据真值将图crop出来30w数据，进行位置校准。此外基于LSVT语料生成500w合成数据训练中文模型，相关配置和预训练文件如下：


模型
骨干网络
配置文件
预训练模型


超轻量中文模型
MobileNetV3
rec_chinese_lite_train.yml
下载链接


通用中文OCR模型
Resnet34_vd
rec_chinese_common_train.yml
下载链接


PaddleOCR文本识别算法的训练和使用请参考文档教程中模型训练/评估中的文本识别部分。

效果展示


1.超轻量级中文OCR效果展示  more


2.通用中文OCR效果展示  more


3.支持空格的中文OCR效果展示  more


欢迎加入PaddleOCR技术交流群
请扫描下面二维码，完成问卷填写，获取加群二维码和OCR方向的炼丹秘籍


许可证书
本项目的发布受Apache 2.0 license许可认证。


贡献代码
我们非常欢迎你为PaddleOCR贡献代码，也十分感谢你的反馈。

非常感谢 Khanh Tran 和 Karl Horky 贡献修改英文文档
非常感谢 zhangxin(Blog) 贡献新的可视化方式、添加.gitgnore、处理手动设置PYTHONPATH环境变量的问题
非常感谢 lyl120117 贡献打印网络结构的代码
非常感谢 xiangyubo 贡献手写中文OCR数据集
非常感谢 authorfu 贡献Android和xiadeye 贡献IOS的demo代码
非常感谢 BeyondYourself 给PaddleOCR提了很多非常棒的建议，并简化了PaddleOCR的部分代码风格。
非常感谢 tangmq 给PaddleOCR增加Docker化部署服务，支持快速发布可调用的Restful API服务。