Created by: nizihan
在自己的数据集上finetune时,由于很多中文字不在volab.txt中,导致很多字都被tokenization成UNK。请问是否需要根据自己的数据集来扩充volab.txt?