Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
book
提交
45f06897
B
book
项目概览
PaddlePaddle
/
book
通知
16
Star
4
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
40
列表
看板
标记
里程碑
合并请求
37
Wiki
5
Wiki
分析
仓库
DevOps
项目成员
Pages
B
book
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
40
Issue
40
列表
看板
标记
里程碑
合并请求
37
合并请求
37
Pages
分析
分析
仓库分析
DevOps
Wiki
5
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
45f06897
编写于
1月 19, 2017
作者:
C
caoying03
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix typo.
上级
2c091988
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
4 addition
and
4 deletion
+4
-4
label_semantic_roles/README.md
label_semantic_roles/README.md
+4
-4
未找到文件。
label_semantic_roles/README.md
浏览文件 @
45f06897
...
...
@@ -2,17 +2,17 @@
## 背景介绍
自然语言分析技术大致分为三个层面:词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者
agent
、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。
自然语言分析技术大致分为三个层面:词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有:施事者
(Agent)
、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等。
请看下面的例子:
$$
\m
box{[小明]}_{
\m
box{Agent}}
\m
box{[昨天]}_{
\m
box{Time}}
\m
box{[晚上]}_
\m
box{Time}
\m
box{在[公园]}_{
\m
box{Location}}
\m
box{[遇到]}_{
\m
box{Predicate}}
\m
box{了[小红]}_{
\m
box{Patient}}
\m
box{。}$$
在上面的句子中,“遇到” 是谓词(Predicate,通常简写为“Pred”),“小明”是施事者(Agent),“小红”是受事者(Patient),“昨天” 是事件发生的时间(Time),“公园”是
时间
发生的地点(Location)。
在上面的句子中,“遇到” 是谓词(Predicate,通常简写为“Pred”),“小明”是施事者(Agent),“小红”是受事者(Patient),“昨天” 是事件发生的时间(Time),“公园”是
事情
发生的地点(Location)。
语义角色标注(Semantic Role Labeling,SRL)以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即:句子的谓词(Predicate)- 论元(Argument)结构,并用语义角色来描述这些结构关系。在研究中一般都假定谓词是给定的,所要做的就是找出给定谓词的各个论元和它们的语义角色,是许多自然语言理解任务(如:信息抽取,篇章分析,深度问答等)的一个重要中间步骤。
传统的SRL系统大多建立在句法分析基础之上,常包括5个流程:(1)构建一棵句法分析树,例如,图1是对上面例子进行依存句法分析得到的一棵句法树。(2)从句法树上识别出给定谓词的候选论元。(3)候选论元剪除;一个句子中的候选论元可能很多,候选论元剪除就是从大量的候选项中剪除那些最不可能成为论元的候选项。(4)论元识别:这个过程是从上一步剪除之后的候选中判断哪些是真正的论元,通常当做一个二分类问题来解决。(5)对第(4)步的结果,通过多分类得到论元的语义角色标签。可以看到,句法分析是基础,并且后续步骤常常会构造的一些人工特征,这些特征往往也来自句法分析。
传统的SRL系统大多建立在句法分析基础之上,
通
常包括5个流程:(1)构建一棵句法分析树,例如,图1是对上面例子进行依存句法分析得到的一棵句法树。(2)从句法树上识别出给定谓词的候选论元。(3)候选论元剪除;一个句子中的候选论元可能很多,候选论元剪除就是从大量的候选项中剪除那些最不可能成为论元的候选项。(4)论元识别:这个过程是从上一步剪除之后的候选中判断哪些是真正的论元,通常当做一个二分类问题来解决。(5)对第(4)步的结果,通过多分类得到论元的语义角色标签。可以看到,句法分析是基础,并且后续步骤常常会构造的一些人工特征,这些特征往往也来自句法分析。
<div
align=
"center"
>
<img
src=
"image/dependency_parsing.png"
width =
"80%"
height =
"80%"
align=
center
/><br>
...
...
@@ -133,7 +133,7 @@ conll05st-release/
└── words # 输入文本序列
```
原始数据中同时包括了词性标注、命名实体识别、语法解析树等多种信息。
在本教程中,我们使用test.wsj文件夹中的数据进行训练和测试。目标是展示如何利用深度神经网络,只使用文本序列作为输入信息、不依赖任何句法解析树以及人工构造的复杂特征的情况下,构建一个端到端学习的语义角色标注系统。因此,这里
只会用到words文件夹(文本序列)和props文件夹(标注序列)下的数据。
原始数据中同时包括了词性标注、命名实体识别、语法解析树等多种信息。
本教程中,我们使用test.wsj文件夹中的数据进行训练和测试,
只会用到words文件夹(文本序列)和props文件夹(标注序列)下的数据。
标注信息源自Penn TreeBank
\[
[
7
](
#参考文献
)
\]
和PropBank
\[
[
8
](
#参考文献
)
\]
的标注结果。PropBank 使用的标注标记和我们在文章一开始示例中使用的标注标签不同,但原理是相同的,关于标注标签含义的说明,请参考论文
\[
[
9
](
#参考文献
)
\]
。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录