Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
models
提交
2cf35188
M
models
项目概览
PaddlePaddle
/
models
大约 1 年 前同步成功
通知
222
Star
6828
Fork
2962
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
602
列表
看板
标记
里程碑
合并请求
255
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
M
models
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
602
Issue
602
列表
看板
标记
里程碑
合并请求
255
合并请求
255
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
2cf35188
编写于
5月 23, 2017
作者:
L
LiuYongFeng
提交者:
GitHub
5月 23, 2017
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update README.md
上级
e29d68b3
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
9 addition
and
8 deletion
+9
-8
README.md
README.md
+9
-8
未找到文件。
README.md
浏览文件 @
2cf35188
...
...
@@ -10,15 +10,16 @@ PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式
-
**介绍**
[词向量](https://github.com/PaddlePaddle/book/blob/develop/04.word2vec/README.cn.md) 是深度学习应用于自然语言处理领域最成功的概念和成果之一,是一种分散式表示(distributed representation)法。分散式表示法用一个更低维度的实向量表示词语,向量的每个维度在实数域取值,都表示文本的某种潜在
的
语法或语义特征。广义地讲,词向量也可以应用于普通离散特征。词向量的学习通常都是一个无监督的学习过程,因此,可以充分利用海量的无标记数据以捕获特征之间的关系,也可以有效地解决特征稀疏、标签数据缺失、数据噪声等问题。
[词向量](https://github.com/PaddlePaddle/book/blob/develop/04.word2vec/README.cn.md) 是深度学习应用于自然语言处理领域最成功的概念和成果之一,是一种分散式表示(distributed representation)法。分散式表示法用一个更低维度的实向量表示词语,向量的每个维度在实数域取值,都表示文本的某种潜在语法或语义特征。广义地讲,词向量也可以应用于普通离散特征。词向量的学习通常都是一个无监督的学习过程,因此,可以充分利用海量的无标记数据以捕获特征之间的关系,也可以有效地解决特征稀疏、标签数据缺失、数据噪声等问题。
然而,
常见词向量学习模型的最后一层往往都会遇到超大规模分类问题,成为学习的性能瓶颈,在词向量的例子中,我们向大家展示如何使用Hierarchical-s
igmoid 和噪声对比估计(Noise Contrastive Estimation,NCE)来加速词向量的学习。
然而,
在常见词向量学习方法中,模型最后一层往往会遇到一个超大规模的分类问题,是计算性能的瓶颈。在词向量的例子中,我们向大家展示如何使用Hierarchical-S
igmoid 和噪声对比估计(Noise Contrastive Estimation,NCE)来加速词向量的学习。
-
**应用领域**
词向量是深度学习算法引入自然语言处理领域的核心技术之一,在大规模无标记语料上训练的词向量模型也是自然语言处理任务上的通用数据资源,对特定自然语言处理任务的性能提升都有一定的帮助。同时,词嵌入的思想也是深度学习模型处理离散特征的重要方法,有着广泛地借鉴和参考意义。
1. 词向量是深度学习算法引入自然语言处理领域的核心技术之一 --> 词向量是深度学习方法引入自然语言处理领域的核心技术之一 [深度学习算法--> 深度学习方法]
2. 在大规模无标记语料上训练的词向量模型也是自然语言处理任务上的通用数据资源,对特定自然语言处理任务的性能提升都有一定的帮助。 --> 在大规模无标记语料上训练的词向量常作为各种自然语言处理任务的预训练参数,是一种较为通用的资源,对任务性能的进一步提升有一定的帮助。
词向量
在搜索引擎、广告系统、推荐系统等互联网服务背后常见的
基础技术之一。
词向量
是搜索引擎、广告系统、推荐系统等互联网服务背后的常见
基础技术之一。
-
**模型配置说明**
...
...
@@ -53,11 +54,11 @@ PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式
以信息检索任务为例,给定查询以及检索到的候选文档列表,LTR系统需要按照查询与候选文档的相关性,对候选文档进行打分并排序。LTR学习方法可以分为三种:
- Pointwise:
在Pointwise 学习策略中,LTR被转化为一个回归或是分类问题。Pointwise 学习策略可参考PaddleBook的[推荐系统](https://github.com/PaddlePaddle/book/blob/develop/05.recommender_system/README.cn.md)一节
。
- Pair
Wise:排序问题被转化成结果对的回归 、分类或有序分类问题。考虑给定查询下,两个文档之间的相对相关度
。
- Pointwise:
Pointwise 学习方法将LTR被转化为回归或是分类问题。给定查询以及一个候选文档,模型基于序数进行二分类、多分类或者回归拟合,是一种基础的LTR学习策略
。
- Pair
wise:Pairwise学习方法将排序问题归约为对有序对(ordered pair)的分类,比Pointwise方法更近了一步。模型判断一对候选文档中,哪一个与给定查询更相关,学习的目标为是最小化误分类文档对的数量。理想情况下,如果所有文档对都能被正确的分类,那么原始的候选文档也会被正确的排序
。
- Listwise:与Pointwise与Pairwise学习方法相比,Listwise方法将给定查询对应的整个候选文档集合列表(list)作为输入,直接对排序结果列表进行优化。Listwise方法在损失函数中考虑了文档排序的位置因素,是前两种方法所不具备的。
我们提供了基于RankLoss 损失函数的Pairwise 排序模型,以及基于LambdaRank 损失函数的ListWise排序模型。Pointwise 可参考[文本分类](https://github.com/llxxxll/models/tree/b762b41e0330dbbbb73b83ddba0417ac48c73593/text_classification)中的分类模型,以及[Regression](https://github.com/llxxxll/models/tree/b762b41e0330dbbbb73b83ddba0417ac48c73593/text_classification)中的回归模型来实现
。
Pointwise 学习策略可参考PaddleBook的[推荐系统](https://github.com/PaddlePaddle/book/blob/develop/05.recommender_system/README.cn.md)一节。在这里,我们提供了基于RankLoss 损失函数的Pairwise 排序模型,以及基于LambdaRank 损失函数的ListWise排序模型
。
-
**应用领域**
...
...
@@ -66,7 +67,7 @@ PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式
-
**模型配置说明**
[Pointwise 排序模型](https://github.com/PaddlePaddle/book/blob/develop/05.recommender_system/README.cn.md)
|
[
Pairwise 排序模型
](
)
|
[
Listwise 排序模型
](
)
|
[
Pairwise 排序模型
](
https://github.com/PaddlePaddle/models/tree/develop/ltr
)
|
[
Listwise 排序模型
](
https://github.com/PaddlePaddle/models/tree/develop/ltr
)
## 文本分类
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录