关于使用PaddlePaddle使用的咨询 (#602) · Issue · PaddlePaddle / PaddleHub

关于使用PaddlePaddle使用的咨询

Created by: ARDUJS

问题1 预训练模型的使用

https://www.paddlepaddle.org.cn/hubdetail?name=chinese-roberta-wwm-ext-large&en_category=SemanticModel

我现在有一个可以生成token_id, segment_id, mask_id, label的generator对象, 我该怎么样喂数据给下面这个预训练模型？

import paddlehub as hub

# Load $ hub install chinese-roberta-wwm-ext-large pretrained model
module = hub.Module(name="chinese-roberta-wwm-ext-large")
inputs, outputs, program = module.context(trainable=True, max_seq_len=128)

问题2

    model_name = "chinese-roberta-wwm-ext-large"
    module = hub.Module(name=model_name)
    inputs, outputs, program = module.context(
        trainable=True, max_seq_len=args.max_seq_len)

    # 加载数据并通过SequenceLabelReader读取数据
    dataset = EEDataset(args.data_dir, schema_labels, model=args.do_model)
    reader = hub.reader.SequenceLabelReader(
        dataset=dataset,
        vocab_path=module.get_vocab_path(),
        max_seq_len=args.max_seq_len,
        sp_model_path=module.get_spm_path(),
        word_dict_path=module.get_word_dict_path())

如何重写hub.reader.SequenceLabelReader？代码中处理text为token_id, segment_id, mask_id的方式，不是我所希望的。

一直找不到相关api。

感谢大佬！

PaddlePaddle / PaddleHub 大约 2 年 前同步成功

关于使用PaddlePaddle使用的咨询

问题1 预训练模型的使用

问题2

PaddlePaddle / PaddleHub
大约 2 年前同步成功