From 856465c11d4333ecc37972672617b03152e32cc5 Mon Sep 17 00:00:00 2001 From: lubin10 Date: Thu, 28 Apr 2022 10:32:08 +0000 Subject: [PATCH] test=document_fix --- doc/doc_ch/dataset/docvqa_datasets.md | 27 +++++++++++++++++++++++++++ doc/doc_ch/docvqa_datasets.md | 27 --------------------------- 2 files changed, 27 insertions(+), 27 deletions(-) delete mode 100644 doc/doc_ch/docvqa_datasets.md diff --git a/doc/doc_ch/dataset/docvqa_datasets.md b/doc/doc_ch/dataset/docvqa_datasets.md index e69de29b..3ec1865e 100644 --- a/doc/doc_ch/dataset/docvqa_datasets.md +++ b/doc/doc_ch/dataset/docvqa_datasets.md @@ -0,0 +1,27 @@ +## DocVQA数据集 +这里整理了常见的DocVQA数据集,持续更新中,欢迎各位小伙伴贡献数据集~ +- [FUNSD数据集](#funsd) +- [XFUND数据集](#xfund) + + +#### 1、FUNSD数据集 +- **数据来源**:https://guillaumejaume.github.io/FUNSD/ +- **数据简介**:FUNSD数据集是一个用于表单理解的数据集,它包含199张真实的、完全标注的扫描版图片,类型包括市场报告、广告以及学术报告等,并分为149张训练集以及50张测试集。FUNSD数据集适用于多种类型的DocVQA任务,如字段级实体分类、字段级实体连接等。部分图像以及标注框可视化如下所示: +
+ + +
+ 图中,橙色区域代表`header`,淡蓝色区域代表`question`, 绿色区域表`answer`,粉红色代区域表`other`。 + +- **下载地址**:https://guillaumejaume.github.io/FUNSD/download/ + + +#### 2、XFUND数据集 +- **数据来源**:https://github.com/doc-analysis/XFUND +- **数据简介**:XFUND是一个多语种表单理解数据集,它包含7种不同语种的表单数据,并且全部用人工进行了键-值对形式的标注。其中每个语种的数据都包含了199张表单数据,并分为149张训练集以及50张测试集。部分图像以及标注框可视化如下所示: +
+ + +
+ +- **下载地址**:https://github.com/doc-analysis/XFUND/releases/tag/v1.0 diff --git a/doc/doc_ch/docvqa_datasets.md b/doc/doc_ch/docvqa_datasets.md deleted file mode 100644 index 8648329c..00000000 --- a/doc/doc_ch/docvqa_datasets.md +++ /dev/null @@ -1,27 +0,0 @@ -## DocVQA数据集 -这里整理了常见的DocVQA数据集,持续更新中,欢迎各位小伙伴贡献数据集~ -- [FUNSD数据集](#funsd) -- [XFUND数据集](#xfund) - - -#### 1、FUNSD数据集 -- **数据来源**:https://guillaumejaume.github.io/FUNSD/ -- **数据简介**:FUNSD数据集是一个用于表单理解的数据集,它包含199张真实的、完全标注的扫描版图片,类型包括市场报告、广告以及学术报告等,并分为149张训练集以及50张测试集。FUNSD数据集适用于多种类型的DocVQA任务,如字段级实体分类、字段级实体连接等。部分图像以及标注框可视化如下所示: -
- - -
- 图中,橙色区域代表`header`,淡蓝色区域代表`question`, 绿色区域表`answer`,粉红色代区域表`other`。 - -- **下载地址**:https://guillaumejaume.github.io/FUNSD/download/ - - -#### 2、XFUND数据集 -- **数据来源**:https://github.com/doc-analysis/XFUND -- **数据简介**:XFUND是一个多语种表单理解数据集,它包含7种不同语种的表单数据,并且全部用人工进行了键-值对形式的标注。其中每个语种的数据都包含了199张表单数据,并分为149张训练集以及50张测试集。部分图像以及标注框可视化如下所示: -
- - -
- -- **下载地址**:https://github.com/doc-analysis/XFUND/releases/tag/v1.0 -- GitLab