PaddleNLP/lexical_analysis 部分标点符号标识错误
Created by: Yingminzhou
在序列标注测试中, 发现对一些标点符号的标注有问题:
- 错标 & 识别不了符号:
-
/·
/"
等, 例如: 原句: 斯蒂芬-库里自己公布下赛季去向
标注结果:
[CLS]/O 斯/PER-B 蒂/PER-I 芬/PER-I [UNK]/PER-I 库/PER-I 里/PER-I 自/r-B 己/r-I 公/v-B 布/v-I 下/q-B 赛/n-B 季/n-I 去/n-B 向/n-I !/v-B [SEP]/O
查询了下, vocab.txt
中不包含-
/·
/"
等比较常用的字符串, 如果直接在vocab.txt
添加映射则会造成分词结果的不一致, 例子如下:
原句: 【纽约时报】斯蒂芬-库里下赛季去哪儿
原有vocab.txt
的标注结果:
[CLS]/O [UNK]/w-B 纽/nw-B 约/nw-I 时/nw-I 报/nw-I [UNK]/w-B 斯/PER-B 蒂/PER-I 芬/PER-I [UNK]/PER-I 库/PER-I 里/PER-I 下/v-B 赛/n-B 季/n-I 去/v-B 哪/v-I 儿/v-I [SEP]/O
增加-
之后的vocab.txt
- 17963
[UNK] 17964
标注结果如下:
[CLS]/O [UNK]/nt-B 纽/nt-I 约/nt-I 时/nt-I 报/nt-I [UNK]/nt-I 斯/nt-I 蒂/nt-I 芬/nt-I [UNK]/nt-I 库/PER-B 里/PER-I 下/v-B 赛/n-B 季/n-I 去/v-B 哪/v-I 儿/v-I [SEP]/O
想请教下怎么解决这个问题比较好?
(直接将这些字符替换成vocab.txt
中自带的吗? 或者是增加映射的同时, 增加词向量)
多谢!