ERNIE的分词(字)问题
Created by: ZhengQC666666
ERNIE是使用tokenization.py 里的 CharTokenizer() 来分词(字)的吗? 我自己测试的时候,发现tokenization.CharTokenizer()存在这么一个问题: 例如:text = '大家好%werw-', CharTokenizer(text)的结果为['[UNK]'] ==> 这是因为text中的'%'和‘-’不在vocab.txt中
但是,tokenization.FullTokenizer(text)的结果为['大', '家', '好', '[UNK]', 'we', '##r', '##w', '[UNK]']
为什么要设计CharTokenizer()函数呢?当有“非法”出现时,它直接返回['[UNK]'],原本句子的结构都被破坏了。我在训练时,texts中很有可能出现“非法字符”,那这个非法句子就应该作废吗?