如何扩充词库 (#438) · Issue · PaddlePaddle / ERNIE

如何扩充词库

Created by: 345657357

我的训练数据中有很多名称会被解析为unk，但我的下游任务必须获得这些名称的embedding，所以所有名称都被解析成相同的UNK向量会极度影响任务结果，我想请教一下大家应该如何扩充词库？我试过直接在vocab.txt文件后添加词汇、修改ernie_config.json中的vocab_size，然后在word_embedding文件中的矩阵的基础上，增加了相应词汇的词向量，它们的值为float64类型的随机向量。但这样在训练时会报错，提示：

InvalidArgumentError: Tensor holds the wrong type, it holds float, but desires to be double.** [Hint: Expected valid == true, but received valid:0 != true:1.] at (/paddle/paddle/fluid/framework/tensor_impl.h:33) [operator < elementwise_add > error]

所以我应该如何扩充词库？新的词哪怕是随机向量也没关系，只要他们不同即可。

PaddlePaddle / ERNIE 大约 2 年 前同步成功

如何扩充词库

PaddlePaddle / ERNIE
大约 2 年前同步成功