bert和ernie在msra-ner上的实验
Created by: 1234560o
我做了一些实验,使用Bert Chinese model(base, tensorflow版)和ERNIE1.0(base, paddlepaddle实现)在中文ner数据集msra-ner进行实验,发现bert在该数据集(由paddlehub代码中提供的网址下载下来的)上验证集和测试集的f1-score分别是96.1,94.8,与ERNIE论文中的相差比较大,论文中分别是94.0和92.6,ERNIE的实验差别不大。我的计算f1-score方式是计算LOC、PER、ORG这三类的chunk的macro-f1,是否是paddlepaddle调用的评估方式不一样造成的差别在这个过程中还是有其他什么问题?
数据集 | MSRA-NER |
---|---|
任务描述 | 中文实体识别 |
评估指标 | f1-score |
Bert | dev: 94.0(96.1) test: 92.6(94.8) |
ERNIE | dev: 94.5(+0.5) test: 93.7(+1.1) |