Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
曾经的那一瞬间
Models
提交
d3a3f143
M
Models
项目概览
曾经的那一瞬间
/
Models
大约 1 年 前同步成功
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
M
Models
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
d3a3f143
编写于
1月 20, 2022
作者:
H
Hongkun Yu
提交者:
A. Unique TensorFlower
1月 20, 2022
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Internal change
PiperOrigin-RevId: 423199224
上级
8b4d4598
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
16 addition
and
4 deletion
+16
-4
official/nlp/data/pretrain_dynamic_dataloader.py
official/nlp/data/pretrain_dynamic_dataloader.py
+16
-4
未找到文件。
official/nlp/data/pretrain_dynamic_dataloader.py
浏览文件 @
d3a3f143
...
...
@@ -79,17 +79,29 @@ class PretrainingDynamicDataLoader(pretrain_dataloader.BertPretrainDataLoader):
def
_decode
(
self
,
record
:
tf
.
Tensor
):
"""Decodes a serialized tf.Example."""
name_to_features
=
{
'input_ids'
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
'input_mask'
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
'segment_ids'
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
'masked_lm_positions'
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
'masked_lm_ids'
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
'masked_lm_weights'
:
tf
.
io
.
VarLenFeature
(
tf
.
float32
),
}
if
self
.
_params
.
use_v2_feature_names
:
input_ids_key
=
'input_word_ids'
segment_key
=
'input_type_ids'
name_to_features
.
update
({
input_ids_key
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
segment_key
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
})
else
:
input_ids_key
=
'input_ids'
segment_key
=
'segment_ids'
name_to_features
.
update
({
input_ids_key
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
segment_key
:
tf
.
io
.
VarLenFeature
(
tf
.
int64
),
})
if
self
.
_use_next_sentence_label
:
name_to_features
[
'next_sentence_labels'
]
=
tf
.
io
.
FixedLenFeature
([
1
],
tf
.
int64
)
dynamic_keys
=
[
'input_ids'
,
'input_mask'
,
'segment_ids'
]
dynamic_keys
=
[
input_ids_key
,
'input_mask'
,
segment_key
]
if
self
.
_use_position_id
:
name_to_features
[
'position_ids'
]
=
tf
.
io
.
VarLenFeature
(
tf
.
int64
)
dynamic_keys
.
append
(
'position_ids'
)
...
...
@@ -102,7 +114,7 @@ class PretrainingDynamicDataLoader(pretrain_dataloader.BertPretrainDataLoader):
# sequence length dimension.
# Pad before the first non pad from the back should not be removed.
mask
=
tf
.
math
.
greater
(
tf
.
math
.
cumsum
(
example
[
'input_ids'
],
reverse
=
True
),
0
)
tf
.
math
.
cumsum
(
example
[
input_ids_key
],
reverse
=
True
),
0
)
for
key
in
dynamic_keys
:
example
[
key
]
=
tf
.
boolean_mask
(
example
[
key
],
mask
)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录