ERNIE输入,数据中词、实体等切分问题
Created by: lerry-lee
查阅资料了解到,ERNIE预训练的输入,利用内部词法分析工具对句对数据进行字、词、实体等不同粒度的切分,然后基于 tokenization.py 中的 CharTokenizer 对切分后的数据进行 token 化处理,得到明文的 token 序列及切分边界,然后将明文数据根据词典config/vocab.txt 映射为 id 数据,在训练过程中,根据切分边界对连续的 token 进行随机 mask 操作。 有两个问题。
- 对输入数据进行字、词、实体等不同粒度的切分这一步是可以自定义的吗?也就是说,针对自己的数据切分一些特定的词、实体等;
- 微调时有没有mask机制?比如文本分类任务,是直接将输入数据送入ERNIE得到表示向量然后计算softmax_cross_entropy,还是ERNIE内部也会进行随机mask?