Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PALM
提交
168f4306
P
PALM
项目概览
PaddlePaddle
/
PALM
通知
4
Star
3
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
10
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PALM
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
10
Issue
10
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
168f4306
编写于
11月 01, 2019
作者:
X
Xiaoyao Xi
提交者:
GitHub
11月 01, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update README.md
上级
083cdecf
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
51 addition
and
0 deletion
+51
-0
README.md
README.md
+51
-0
未找到文件。
README.md
浏览文件 @
168f4306
...
@@ -350,6 +350,19 @@ label text_a
...
@@ -350,6 +350,19 @@ label text_a
-
n_classes(REQUIRED)
:
int类型。分类任务的类别数。
-
n_classes(REQUIRED)
:
int类型。分类任务的类别数。
```
```
reader的输出(生成器每次yield出的数据)包含以下字段
token_ids: 一个shape为[batch_size, seq_len]的矩阵,每行是一条样本,其中的每个元素为文本中的每个token对应的单词id。
position_ids": 一个shape为[batch_size, seq_len]的矩阵,每行是一条样本,其中的每个元素为文本中的每个token对应的位置id。
segment_ids": 一个shape为[batch_size, seq_len]的全0矩阵,用于支持BERT、ERNIE等模型的输入。
input_mask": 一个shape为[batch_size, seq_len]的矩阵,其中的每个元素为0或1,表示该位置是否是padding词(为1时代表是真实词,为0时代表是填充词)。
label_ids": 一个shape为[batch_size]的矩阵,其中的每个元素为该样本的类别标签。
task_ids": 一个shape为[batch_size, seq_len]的全0矩阵,用于支持ERNIE模型的输入。
当处于
### 文本匹配数据集reader工具:match
### 文本匹配数据集reader工具:match
该reader完成文本匹配数据集的载入与处理,reader接受
[
tsv格式
](
https://en.wikipedia.org/wiki/Tab-separated_values
)
的数据集输入,数据集应该包含三列,一列为样本标签
`label`
,其余两列分别为待匹配的文本
`text_a`
和文本
`text_b`
,形如
该reader完成文本匹配数据集的载入与处理,reader接受
[
tsv格式
](
https://en.wikipedia.org/wiki/Tab-separated_values
)
的数据集输入,数据集应该包含三列,一列为样本标签
`label`
,其余两列分别为待匹配的文本
`text_a`
和文本
`text_b`
,形如
...
@@ -364,8 +377,46 @@ label text_a text_b
...
@@ -364,8 +377,46 @@ label text_a text_b
***注意:数据集的第一列必须为header,即标注每一列的列名**
*
***注意:数据集的第一列必须为header,即标注每一列的列名**
*
reader输出:
### 机器阅读理解数据集reader工具:mrc
### 机器阅读理解数据集reader工具:mrc
该reader支持基于滑动窗口的机器阅读理解数据集载入,可以自动将较长的context按照步长切分成若干子文档,每个子文档与question分别计算答案片段,并在最终阶段合并。该reader接受
[
json格式
](
)的数据集。如下。
```
json
{
"version"
:
"1.0"
,
"data"
:
[
{
"title"
:
"..."
,
"paragraphs"
:
[
{
"context"
:
"..."
,
"qas"
:
[
{
"question"
:
"..."
"id"
:
"..."
"answers"
:
[
{
"text"
:
"..."
,
"answer_start"
:
...
}
{
...
}
...
]
}
{
...
}
...
{
...
},
...
]
}
{
...
}
...
]
}
```
数据集的最外层数据结构为字典,包含数据集版本号
`version`
和数据集
`data`
。在
`data`
字段内为各个样本,每个样本包含文章标题
`title`
和若干段落
`paragraphs`
,在
`paragraphs`
中的每个元素为一个段落
`context`
,基于该段落的内容,可以包含若干个问题和对应的答案
`qas`
,答案均位于该段落内。对于
`qas`
中的每个元素,包含一个问题
`question`
和一个全局唯一的标识
`id`
,以及(若干)答案
`answers`
。答案中的每个元素包含答案本身
`text`
及其在
`context`
中的起始位置
`answer_start`
。注意起始位置为字符级。此外,在测试集中,
`qas`
可以不包含
`answers`
字段。
### 掩码语言模型数据集reader工具:mlm
### 掩码语言模型数据集reader工具:mlm
## 内置主干网络(backbone)
## 内置主干网络(backbone)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录