Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleOCR
提交
ccb3373d
P
PaddleOCR
项目概览
PaddlePaddle
/
PaddleOCR
大约 1 年 前同步成功
通知
1528
Star
32962
Fork
6643
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
108
列表
看板
标记
里程碑
合并请求
7
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleOCR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
108
Issue
108
列表
看板
标记
里程碑
合并请求
7
合并请求
7
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
ccb3373d
编写于
4月 12, 2021
作者:
D
Double_V
提交者:
GitHub
4月 12, 2021
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'dygraph' into pgnet-postpro
上级
4b91eb76
2b7b79b6
变更
8
隐藏空白更改
内联
并排
Showing
8 changed file
with
149 addition
and
5 deletion
+149
-5
doc/doc_ch/multi_languages.md
doc/doc_ch/multi_languages.md
+34
-5
doc/doc_en/multi_languages_en.md
doc/doc_en/multi_languages_en.md
+20
-0
doc/imgs_results/multi_lang/en_1.jpg
doc/imgs_results/multi_lang/en_1.jpg
+0
-0
doc/imgs_results/multi_lang/en_2.jpg
doc/imgs_results/multi_lang/en_2.jpg
+0
-0
doc/imgs_results/multi_lang/en_3.jpg
doc/imgs_results/multi_lang/en_3.jpg
+0
-0
doc/imgs_results/multi_lang/french_0.jpg
doc/imgs_results/multi_lang/french_0.jpg
+0
-0
doc/imgs_results/multi_lang/japan_2.jpg
doc/imgs_results/multi_lang/japan_2.jpg
+0
-0
ppocr/utils/en_dict.txt
ppocr/utils/en_dict.txt
+95
-0
未找到文件。
doc/doc_ch/multi_languages.md
浏览文件 @
ccb3373d
...
...
@@ -5,6 +5,25 @@
-
2021.4.9 支持
**80种**
语言的检测和识别
-
2021.4.9 支持
**轻量高精度**
英文模型检测识别
PaddleOCR 旨在打造一套丰富、领先、且实用的OCR工具库,不仅提供了通用场景下的中英文模型,也提供了专门在英文场景下训练的模型,
和覆盖
[
80个语言
](
#语种缩写
)
的小语种模型。
其中英文模型支持,大小写字母和常见标点的检测识别,并优化了空格字符的识别:
<div
align=
"center"
>
<img
src=
"../imgs_results/multi_lang/en_1.jpg"
width=
"400"
height=
"600"
>
</div>
小语种模型覆盖了拉丁语系、阿拉伯语系、中文繁体、韩语、日语等等:
<div
align=
"center"
>
<img
src=
"../imgs_results/multi_lang/japan_2.jpg"
width=
"600"
height=
"300"
>
<img
src=
"../imgs_results/multi_lang/french_0.jpg"
width=
"300"
height=
"300"
>
</div>
本文档将简要介绍小语种模型的使用方法。
-
[
1 安装
](
#安装
)
-
[
1.1 paddle 安装
](
#paddle安装
)
-
[
1.2 paddleocr package 安装
](
#paddleocr_package_安装
)
...
...
@@ -68,7 +87,11 @@ Paddleocr目前支持80个语种,可以通过修改--lang参数进行切换,
paddleocr
--image_dir
doc/imgs/japan_2.jpg
--lang
=
japan
```
![](
https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.0/doc/imgs/japan_2.jpg
)
<div
align=
"center"
>
<img
src=
"https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.1/doc/imgs/japan_2.jpg"
width=
"800"
>
</div>
结果是一个list,每个item包含了文本框,文字和识别置信度
```
text
...
...
@@ -138,8 +161,10 @@ im_show.save('result.jpg')
```
结果可视化:
![](
https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.0/doc/imgs_results/korean.jpg
)
<div
align=
"center"
>
<img
src=
"https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.1/doc/imgs_results/korean.jpg"
width=
"800"
>
</div>
*
识别预测
...
...
@@ -152,7 +177,8 @@ for line in result:
print(line)
```
![](
https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.0/doc/imgs_words/german/1.jpg
)
![](
../imgs_words/german/1.jpg
)
结果是一个tuple,只包含识别结果和识别置信度
...
...
@@ -187,7 +213,10 @@ im_show.save('result.jpg')
```
结果可视化 :
![](
https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.0/doc/imgs_results/whl/12_det.jpg
)
<div
align=
"center"
>
<img
src=
"https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.1/doc/imgs_results/whl/12_det.jpg"
width=
"800"
>
</div>
ppocr 还支持方向分类, 更多使用方式请参考:
[
whl包使用说明
](
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.0/doc/doc_ch/whl.md
)
。
...
...
@@ -233,7 +262,7 @@ ppocr 支持使用自己的数据进行自定义训练或finetune, 其中识别
|卡纳达文|Kannada |kn|
|泰米尔文|Tamil |ta|
|南非荷兰文 |Afrikaans |af|
|阿塞拜疆文 |Azerbaijani
|az|
|阿塞拜疆文 |Azerbaijani
|az|
|波斯尼亚文|Bosnian|bs|
|捷克文|Czech|cs|
|威尔士文 |Welsh |cy|
...
...
doc/doc_en/multi_languages_en.md
浏览文件 @
ccb3373d
...
...
@@ -5,6 +5,26 @@
-2021.4.9 supports the detection and recognition of 80 languages
-2021.4.9 supports
**lightweight high-precision**
English model detection and recognition
PaddleOCR aims to create a rich, leading, and practical OCR tool library, which not only provides
Chinese and English models in general scenarios, but also provides models specifically trained
in English scenarios. And multilingual models covering
[
80 languages
](
#language_abbreviations
)
.
Among them, the English model supports the detection and recognition of uppercase and lowercase
letters and common punctuation, and the recognition of space characters is optimized:
<div
align=
"center"
>
<img
src=
"../imgs_results/multi_lang/en_1.jpg"
width=
"400"
height=
"600"
>
</div>
The multilingual models cover Latin, Arabic, Traditional Chinese, Korean, Japanese, etc.:
<div
align=
"center"
>
<img
src=
"../imgs_results/multi_lang/japan_2.jpg"
width=
"600"
height=
"300"
>
<img
src=
"../imgs_results/multi_lang/french_0.jpg"
width=
"300"
height=
"300"
>
</div>
This document will briefly introduce how to use the multilingual model.
-
[
1 Installation
](
#Install
)
-
[
1.1 paddle installation
](
#paddleinstallation
)
-
[
1.2 paddleocr package installation
](
#paddleocr_package_install
)
...
...
doc/imgs_results/multi_lang/en_1.jpg
0 → 100644
浏览文件 @
ccb3373d
533.8 KB
doc/imgs_results/multi_lang/en_2.jpg
0 → 100644
浏览文件 @
ccb3373d
558.2 KB
doc/imgs_results/multi_lang/en_3.jpg
0 → 100644
浏览文件 @
ccb3373d
231.7 KB
doc/imgs_results/multi_lang/french_0.jpg
0 → 100644
浏览文件 @
ccb3373d
249.3 KB
doc/imgs_results/multi_lang/japan_2.jpg
0 → 100644
浏览文件 @
ccb3373d
460.7 KB
ppocr/utils/en_dict.txt
0 → 100644
浏览文件 @
ccb3373d
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?
@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
^
_
`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~
!
"
#
$
%
&
'
(
)
*
+
,
-
.
/
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录