From 565912c95e77e4f7dd01c35f326f305c0861d469 Mon Sep 17 00:00:00 2001 From: tianxin04 Date: Thu, 14 Mar 2019 20:29:41 +0800 Subject: [PATCH] update readme --- ERNIE/README.md | 149 ++++++++++++++++++++++++++---------------------- 1 file changed, 81 insertions(+), 68 deletions(-) diff --git a/ERNIE/README.md b/ERNIE/README.md index 9d48676..04e256d 100644 --- a/ERNIE/README.md +++ b/ERNIE/README.md @@ -10,136 +10,149 @@ 在 *Bert* 模型中,我们通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的任何知识。而 *Ernie* 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。 -此外, *Ernie* 引入了百科、新闻、论坛回帖等多源中文语料进行训练。 +训练数据方面,百科类、资讯类中文语料外,*Ernie* 还引入了论坛对话类数据,利用 **DLM**(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力。 -我们在多个公开的中文数据集合上进行了效果验证,*Ernie* 模型相较 *Bert*, 取得了更好的效果。 +我们在自然语言推断,语义相似度,命名实体识别,情感分析,问答匹配 5 个公开的中文数据集合上进行了效果验证,*Ernie* 模型相较 *Bert* 取得了更好的效果。 - - - -
数据集 + + + + - - - - - - - + + + + + + - - - - - - - - + - - - - - - - - - - - - + - - - - - + + + + - - - - - - - - - + + + + + + + - - - - - - - - - - - - + + + + + + + + + + + +
数据集
xnlilcqmcmsra nerchnsenticorpnlpcc-dbqa
+ XNLILCQMCMSRA-NERChnSentiCorpnlpcc-dbqa

评估

指标

+ acc
+ acc
+ f1-score
+ acc
+ mrr
+ f1-score
+
dev -
-
+
+
test
+ dev
+ test
+ dev
+ test
+ dev
+ test
+ dev
+ test
+ dev
+ test
+
Bert
78.177.288.887.094.0 + 78.177.288.887.094.0
+ 92.694.694.394.794.680.780.8
+ 94.694.394.794.680.780.8
Ernie
79.9 (+1.8)78.4 (+1.2)89.7 (+0.9)87.4 (+0.4)95.0 (+1.0)93.8 (+1.2)95.2 (+0.6)95.4 (+1.1)95.0 (+0.3)95.1 (+0.5)82.3 (+1.6)82.7 (+1.9)
79.9 (+1.8)78.4 (+1.2)89.7 (+0.9)87.4 (+0.4)95.0 (+1.0)93.8 (+1.2)95.2 (+0.6)95.4 (+1.1)95.0 (+0.3)95.1 (+0.5)82.3 (+1.6)82.7 (+1.9)
-#### 数据集介绍 - - **自然语言推断任务** XNLI -XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。[链接](https://github.com/facebookresearch/XNLI) - - **语义匹配任务** LCQMC -LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问答匹配数据集其目,标是判断两个问题的语义是否相同。[链接](http://aclweb.org/anthology/C18-1166) +```text +XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系(矛盾、中立、蕴含)。[链接: https://github.com/facebookresearch/XNLI] +``` + + - **语义相似度** LCQMC + +```text +LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问答匹配数据集其目,标是判断两个问题的语义是否相同。[链接: http://aclweb.org/anthology/C18-1166] +``` - **命名实体识别任务** MSRA-NER -MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。[链接](http://sighan.cs.uchicago.edu/bakeoff2005/) + +```text +MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。[链接: http://sighan.cs.uchicago.edu/bakeoff2005/] +``` - **情感分析任务** ChnSentiCorp + +```text ChnSentiCorp 是中文情感分析数据集,其目标是判断一段话的情感态度。 +``` - **检索式问答任务** nlpcc-dbqa -nlpcc-dbqa是由国际自然语言处理和中文计算会议NLPCC于2016年举办的评测任务,其目标是选择能够回答问题的答案。[链接](http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf) + + ```text +nlpcc-dbqa是由国际自然语言处理和中文计算会议NLPCC于2016年举办的评测任务,其目标是选择能够回答问题的答案。[链接: http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf] +``` -- GitLab