ERNIE的分词(字)问题 (#437) · Issue · PaddlePaddle / ERNIE

ERNIE的分词(字)问题

Created by: ZhengQC666666

ERNIE是使用tokenization.py 里的 CharTokenizer() 来分词(字)的吗？我自己测试的时候，发现tokenization.CharTokenizer()存在这么一个问题：例如：text = '大家好%werw-', CharTokenizer(text)的结果为['[UNK]'] ==> 这是因为text中的'%'和‘-’不在vocab.txt中

但是，tokenization.FullTokenizer(text)的结果为['大', '家', '好', '[UNK]', 'we', '##r', '##w', '[UNK]']

为什么要设计CharTokenizer()函数呢?当有“非法”出现时，它直接返回['[UNK]']，原本句子的结构都被破坏了。我在训练时，texts中很有可能出现“非法字符”,那这个非法句子就应该作废吗？

PaddlePaddle / ERNIE 大约 2 年 前同步成功

ERNIE的分词(字)问题

PaddlePaddle / ERNIE
大约 2 年前同步成功