Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleOCR
提交
7043bd95
P
PaddleOCR
项目概览
PaddlePaddle
/
PaddleOCR
接近 2 年 前同步成功
通知
1549
Star
32964
Fork
6643
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
108
列表
看板
标记
里程碑
合并请求
7
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleOCR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
108
Issue
108
列表
看板
标记
里程碑
合并请求
7
合并请求
7
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
7043bd95
编写于
5月 10, 2022
作者:
Jeffrey Chen
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Add source link for hiertext dataset
上级
f4db7383
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
4 addition
and
3 deletion
+4
-3
deploy/paddlecloud/README.md
deploy/paddlecloud/README.md
+4
-3
未找到文件。
deploy/paddlecloud/README.md
浏览文件 @
7043bd95
...
@@ -61,9 +61,10 @@ docker run --name ppocr --runtime=nvidia -v $PWD:/mnt -p 8888:8888 -it --shm-siz
...
@@ -61,9 +61,10 @@ docker run --name ppocr --runtime=nvidia -v $PWD:/mnt -p 8888:8888 -it --shm-siz
### 1.3 准备训练数据
### 1.3 准备训练数据
本教程以HierText数据集为例,HierText是第一个具有自然场景和文档中文本分层注释的数据集。
本教程以
[
HierText
](
https://github.com/google-research-datasets/hiertext
)
数据集为例,HierText是第一个具有自然场景和文档中文本分层注释的数据集。
该数据集包含从 Open Images 数据集中选择的 11639 张图像,提供高质量的单词 (~1.2M)、行和段落级别的注释。
该数据集包含从 Open Images 数据集中选择的 11639 张图像,提供高质量的单词 (~1.2M)、行和段落级别的注释。值得注意的是该数据集的标注格式与ppocrlabel格式不一样,
我们已经将数据集上传到百度云对象存储(BOS),您可以通过运行如下指令,完成数据集的下载和解压操作:
我们需要对其数据标签格式进行相应的转换,您可以从AI Studio中直接下载
[
标签格式转换后的HierText数据集
](
https://aistudio.baidu.com/aistudio/datasetdetail/143700
)
。
同时,我们也将数据集上传到了百度云对象存储(BOS),您可以通过运行如下指令,完成数据集的下载和解压操作:
```
bash
```
bash
# 下载数据集
# 下载数据集
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录