如何扩充词库
Created by: 345657357
我的训练数据中有很多名称会被解析为unk,但我的下游任务必须获得这些名称的embedding,所以所有名称都被解析成相同的UNK向量会极度影响任务结果,我想请教一下大家应该如何扩充词库? 我试过直接在vocab.txt文件后添加词汇、修改ernie_config.json中的vocab_size,然后在word_embedding文件中的矩阵的基础上,增加了相应词汇的词向量,它们的值为float64类型的随机向量。但这样在训练时会报错,提示:
InvalidArgumentError: Tensor holds the wrong type, it holds float, but desires to be double.** [Hint: Expected valid == true, but received valid:0 != true:1.] at (/paddle/paddle/fluid/framework/tensor_impl.h:33) [operator < elementwise_add > error]
所以我应该如何扩充词库?新的词哪怕是随机向量也没关系,只要他们不同即可。