Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
PaddleHub
提交
f4560fa8
P
PaddleHub
项目概览
PaddlePaddle
/
PaddleHub
大约 1 年 前同步成功
通知
282
Star
12117
Fork
2091
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
200
列表
看板
标记
里程碑
合并请求
4
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleHub
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
200
Issue
200
列表
看板
标记
里程碑
合并请求
4
合并请求
4
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
f4560fa8
编写于
4月 22, 2019
作者:
Z
Zeyu Chen
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
remove extract embedding reader
上级
4be6ad56
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
2 addition
and
33 deletion
+2
-33
demo/senta/run_finetune.sh
demo/senta/run_finetune.sh
+1
-1
paddlehub/reader/nlp_reader.py
paddlehub/reader/nlp_reader.py
+1
-32
未找到文件。
demo/senta/run_finetune.sh
浏览文件 @
f4560fa8
...
...
@@ -5,6 +5,6 @@ CKPT_DIR="./ckpt_${DATASET}"
python
-u
senta_finetune.py
\
--batch_size
=
24
\
--use_gpu
=
Tru
e
\
--use_gpu
=
Fals
e
\
--checkpoint_dir
=
${
CKPT_DIR
}
\
--num_epoch
=
3
paddlehub/reader/nlp_reader.py
浏览文件 @
f4560fa8
...
...
@@ -36,7 +36,6 @@ class BaseReader(object):
label_map_config
=
None
,
max_seq_len
=
512
,
do_lower_case
=
True
,
in_tokens
=
False
,
random_seed
=
None
):
self
.
max_seq_len
=
max_seq_len
self
.
tokenizer
=
tokenization
.
FullTokenizer
(
...
...
@@ -46,7 +45,7 @@ class BaseReader(object):
self
.
pad_id
=
self
.
vocab
[
"[PAD]"
]
self
.
cls_id
=
self
.
vocab
[
"[CLS]"
]
self
.
sep_id
=
self
.
vocab
[
"[SEP]"
]
self
.
in_tokens
=
in_tokens
self
.
in_tokens
=
False
np
.
random
.
seed
(
random_seed
)
...
...
@@ -352,36 +351,6 @@ class SequenceLabelReader(BaseReader):
return
record
class
ExtractEmbeddingReader
(
BaseReader
):
def
_pad_batch_records
(
self
,
batch_records
):
batch_token_ids
=
[
record
.
token_ids
for
record
in
batch_records
]
batch_text_type_ids
=
[
record
.
text_type_ids
for
record
in
batch_records
]
batch_position_ids
=
[
record
.
position_ids
for
record
in
batch_records
]
# padding
padded_token_ids
,
input_mask
,
seq_lens
=
pad_batch_data
(
batch_token_ids
,
pad_idx
=
self
.
pad_id
,
max_seq_len
=
self
.
max_seq_len
,
return_input_mask
=
True
,
return_seq_lens
=
True
)
padded_text_type_ids
=
pad_batch_data
(
batch_text_type_ids
,
pad_idx
=
self
.
pad_id
,
max_seq_len
=
self
.
max_seq_len
)
padded_position_ids
=
pad_batch_data
(
batch_position_ids
,
pad_idx
=
self
.
pad_id
,
max_seq_len
=
self
.
max_seq_len
)
return_list
=
[
padded_token_ids
,
padded_text_type_ids
,
padded_position_ids
,
input_mask
,
seq_lens
]
return
return_list
class
LACClassifyReader
(
object
):
def
__init__
(
self
,
dataset
,
vocab_path
):
self
.
dataset
=
dataset
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录