关于使用PaddlePaddle使用的咨询
Created by: ARDUJS
问题1 预训练模型的使用
我现在有一个可以生成token_id, segment_id, mask_id, label的generator对象, 我该怎么样喂数据给下面这个预训练模型?
import paddlehub as hub
# Load $ hub install chinese-roberta-wwm-ext-large pretrained model
module = hub.Module(name="chinese-roberta-wwm-ext-large")
inputs, outputs, program = module.context(trainable=True, max_seq_len=128)
问题2
model_name = "chinese-roberta-wwm-ext-large"
module = hub.Module(name=model_name)
inputs, outputs, program = module.context(
trainable=True, max_seq_len=args.max_seq_len)
# 加载数据并通过SequenceLabelReader读取数据
dataset = EEDataset(args.data_dir, schema_labels, model=args.do_model)
reader = hub.reader.SequenceLabelReader(
dataset=dataset,
vocab_path=module.get_vocab_path(),
max_seq_len=args.max_seq_len,
sp_model_path=module.get_spm_path(),
word_dict_path=module.get_word_dict_path())
如何重写hub.reader.SequenceLabelReader?代码中处理text为token_id, segment_id, mask_id的方式,不是我所希望的。
一直找不到相关api。
感谢大佬!