Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
曾经的那一瞬间
Models
提交
8b032e91
M
Models
项目概览
曾经的那一瞬间
/
Models
11 个月 前同步成功
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
M
Models
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
8b032e91
编写于
9月 14, 2021
作者:
H
Hongkun Yu
提交者:
A. Unique TensorFlower
9月 14, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Internal change
PiperOrigin-RevId: 396717391
上级
e453835a
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
7 addition
and
4 deletion
+7
-4
official/nlp/data/pretrain_dynamic_dataloader_test.py
official/nlp/data/pretrain_dynamic_dataloader_test.py
+7
-4
未找到文件。
official/nlp/data/pretrain_dynamic_dataloader_test.py
浏览文件 @
8b032e91
...
...
@@ -43,10 +43,11 @@ def _create_fake_dataset(output_path, seq_length, num_masked_tokens,
f
=
tf
.
train
.
Feature
(
float_list
=
tf
.
train
.
FloatList
(
value
=
list
(
values
)))
return
f
rng
=
np
.
random
.
default_rng
(
37
)
for
_
in
range
(
num_examples
):
features
=
{}
padding
=
np
.
zeros
(
shape
=
(
max_seq_length
-
seq_length
),
dtype
=
np
.
int32
)
input_ids
=
np
.
random
.
randint
(
low
=
1
,
high
=
100
,
size
=
(
seq_length
))
input_ids
=
rng
.
integers
(
low
=
1
,
high
=
100
,
size
=
(
seq_length
))
features
[
'input_ids'
]
=
create_int_feature
(
np
.
concatenate
((
input_ids
,
padding
)))
features
[
'input_mask'
]
=
create_int_feature
(
...
...
@@ -56,9 +57,9 @@ def _create_fake_dataset(output_path, seq_length, num_masked_tokens,
features
[
'position_ids'
]
=
create_int_feature
(
np
.
concatenate
((
np
.
ones_like
(
input_ids
),
padding
)))
features
[
'masked_lm_positions'
]
=
create_int_feature
(
np
.
random
.
randint
(
60
,
size
=
(
num_masked_tokens
),
dtype
=
np
.
int64
))
rng
.
integers
(
60
,
size
=
(
num_masked_tokens
),
dtype
=
np
.
int64
))
features
[
'masked_lm_ids'
]
=
create_int_feature
(
np
.
random
.
randint
(
100
,
size
=
(
num_masked_tokens
),
dtype
=
np
.
int64
))
rng
.
integers
(
100
,
size
=
(
num_masked_tokens
),
dtype
=
np
.
int64
))
features
[
'masked_lm_weights'
]
=
create_float_feature
(
np
.
ones
((
num_masked_tokens
,),
dtype
=
np
.
float32
))
features
[
'next_sentence_labels'
]
=
create_int_feature
(
np
.
array
([
0
]))
...
...
@@ -156,6 +157,7 @@ class PretrainDynamicDataLoaderTest(tf.test.TestCase, parameterized.TestCase):
self
.
assertEqual
(
dynamic_metrics
[
key
],
static_metrics
[
key
])
def
test_load_dataset
(
self
):
tf
.
random
.
set_seed
(
0
)
max_seq_length
=
128
batch_size
=
2
input_path_1
=
os
.
path
.
join
(
self
.
get_temp_dir
(),
'train_1.tf_record'
)
...
...
@@ -178,7 +180,8 @@ class PretrainDynamicDataLoaderTest(tf.test.TestCase, parameterized.TestCase):
input_path
=
input_paths
,
seq_bucket_lengths
=
[
64
,
128
],
use_position_id
=
True
,
global_batch_size
=
batch_size
)
global_batch_size
=
batch_size
,
deterministic
=
True
)
dataset
=
pretrain_dynamic_dataloader
.
PretrainingDynamicDataLoader
(
data_config
).
load
()
dataset_it
=
iter
(
dataset
)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录