模型返回的token embedding除了[CLS]还有什么?
Created by: bb9696aa
在使用输入句子经过 ERNIE 编码后的 Embedding 表示 的功能时,在ChnSentiCorp数据集中,我分别打印了test.tsv中每句话的token embedding(即ernie_encoder.py中的unpad_top_layer_emb)的shape,以及使用tokenization.py中FullTokenizer加载./config/vocab.txt后对每句话进行分词的结果,发现模型返回的token embedding的长度全部都比使用FullTokenizer进行分词后的长度多出2个token。
理论上来说,模型返回的token embedding中第一维对应的embedding应该是[CLS]的token embedding,这是每句话相较原句分词结果多出来的其中一个token,那多出来的另一个token是什么?它在模型返回的token embedding中位于哪个位置?
还是说我的分词方法有问题,不该用FullTokenizer加载./config/vocab.txt来分词?(但是数了一下纯中文的句子的字数,确实全都要比模型返回的token embedding少2个token)
希望解答一下我的疑惑,谢谢!