Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
FluidDoc
提交
fc4a6a32
F
FluidDoc
项目概览
PaddlePaddle
/
FluidDoc
通知
5
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
23
列表
看板
标记
里程碑
合并请求
111
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
FluidDoc
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
23
Issue
23
列表
看板
标记
里程碑
合并请求
111
合并请求
111
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
未验证
提交
fc4a6a32
编写于
6月 26, 2018
作者:
Y
yuyang18
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Do not use chinese chars in math equations
上级
136b84d7
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
2 addition
and
2 deletion
+2
-2
source/beginners_guide/basics/04.word2vec/README.cn.md
source/beginners_guide/basics/04.word2vec/README.cn.md
+1
-1
source/beginners_guide/quick_start/recognize_digits/README.cn.md
...beginners_guide/quick_start/recognize_digits/README.cn.md
+1
-1
未找到文件。
source/beginners_guide/basics/04.word2vec/README.cn.md
浏览文件 @
fc4a6a32
...
@@ -12,7 +12,7 @@
...
@@ -12,7 +12,7 @@
One-hot vector虽然自然,但是用处有限。比如,在互联网广告系统里,如果用户输入的query是“母亲节”,而有一个广告的关键词是“康乃馨”。虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲一束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是欧氏距离还是余弦相似度(cosine similarity),由于其向量正交,都认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的信息量都太小。所以,仅仅给定两个词,不足以让我们准确判别它们是否相关。要想精确计算相关性,我们还需要更多的信息——从大量数据里通过机器学习方法归纳出来的知识。
One-hot vector虽然自然,但是用处有限。比如,在互联网广告系统里,如果用户输入的query是“母亲节”,而有一个广告的关键词是“康乃馨”。虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲一束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是欧氏距离还是余弦相似度(cosine similarity),由于其向量正交,都认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的信息量都太小。所以,仅仅给定两个词,不足以让我们准确判别它们是否相关。要想精确计算相关性,我们还需要更多的信息——从大量数据里通过机器学习方法归纳出来的知识。
在机器学习领域里,各种“知识”被各种模型表示,词向量模型(word embedding model)就是其中的一类。通过词向量模型可将一个 one-hot vector映射到一个维度更低的实数向量(embedding vector),如
`$embedding(
母亲节) = [0.3, 4.2, -1.5, ...], embedding(康乃馨
) = [0.2, 5.6, -2.3, ...]$`
。在这个映射到的实数向量表示中,希望两个语义(或用法)上相似的词对应的词向量“更像”,这样如“母亲节”和“康乃馨”的对应词向量的余弦相似度就不再为零了。
在机器学习领域里,各种“知识”被各种模型表示,词向量模型(word embedding model)就是其中的一类。通过词向量模型可将一个 one-hot vector映射到一个维度更低的实数向量(embedding vector),如
`$embedding(
Mother's\ Day) = [0.3, 4.2, -1.5, ...], embedding(Carnation
) = [0.2, 5.6, -2.3, ...]$`
。在这个映射到的实数向量表示中,希望两个语义(或用法)上相似的词对应的词向量“更像”,这样如“母亲节”和“康乃馨”的对应词向量的余弦相似度就不再为零了。
词向量模型可以是概率模型、共生矩阵(co-occurrence matrix)模型或神经元网络模型。在用神经网络求词向量之前,传统做法是统计一个词语的共生矩阵
`$X$`
。
`$X$`
是一个
`$|V| \times |V|$`
大小的矩阵,
`$X_{ij}$`
表示在所有语料中,词汇表
`V`
(vocabulary)中第i个词和第j个词同时出现的词数,
`$|V|$`
为词汇表的大小。对
`$X$`
做矩阵分解(如奇异值分解,Singular Value Decomposition
\[
[
5
](
#参考文献
)
\]
),得到的
`$U$`
即视为所有词的词向量:
词向量模型可以是概率模型、共生矩阵(co-occurrence matrix)模型或神经元网络模型。在用神经网络求词向量之前,传统做法是统计一个词语的共生矩阵
`$X$`
。
`$X$`
是一个
`$|V| \times |V|$`
大小的矩阵,
`$X_{ij}$`
表示在所有语料中,词汇表
`V`
(vocabulary)中第i个词和第j个词同时出现的词数,
`$|V|$`
为词汇表的大小。对
`$X$`
做矩阵分解(如奇异值分解,Singular Value Decomposition
\[
[
5
](
#参考文献
)
\]
),得到的
`$U$`
即视为所有词的词向量:
...
...
source/beginners_guide/quick_start/recognize_digits/README.cn.md
浏览文件 @
fc4a6a32
...
@@ -83,7 +83,7 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
...
@@ -83,7 +83,7 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
图5. 卷积层图片
<br/>
图5. 卷积层图片
<br/>
</p>
</p>
图5给出一个卷积计算过程的示例图,输入图像大小为
`$H=5,W=5,D=3$`
,即
`$5 \times 5$`
大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用
`$K$`
表示)组卷积核,即图中滤波器
`$W_0$`
和
`$W_1$`
。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含(
`$D=3
)$`
个
`$3 \times 3$`
(用
`$F \times F$`
表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向(
`$W$`
方向)和垂直方向(
`$H$`
方向)的滑动步长为2(用
`$S$`
表示);对输入图像周围各填充1(用
`$P$`
表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为
`$3 \times 3 \times 2$`
(用
`$H_{o} \times W_{o} \times K$`
表示)大小的特征图,即
`$3 \times 3$`
大小的2通道特征图,其中
`$H_o$`
计算公式为:
`$H_o = (H - F + 2 \times P)/S + 1$`
,
`$W_o$`
同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置
`$b_o$`
,偏置通常对于每个输出特征图是共享的。输出特征图
`$o[:,:,0]$`
中的最后一个
`$-2$`
计算如图5右下角公式所示。
图5给出一个卷积计算过程的示例图,输入图像大小为
`$H=5,W=5,D=3$`
,即
`$5 \times 5$`
大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用
`$K$`
表示)组卷积核,即图中滤波器
`$W_0$`
和
`$W_1$`
。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含(
`$D=3
$`
)
个
`$3 \times 3$`
(用
`$F \times F$`
表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向(
`$W$`
方向)和垂直方向(
`$H$`
方向)的滑动步长为2(用
`$S$`
表示);对输入图像周围各填充1(用
`$P$`
表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为
`$3 \times 3 \times 2$`
(用
`$H_{o} \times W_{o} \times K$`
表示)大小的特征图,即
`$3 \times 3$`
大小的2通道特征图,其中
`$H_o$`
计算公式为:
`$H_o = (H - F + 2 \times P)/S + 1$`
,
`$W_o$`
同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置
`$b_o$`
,偏置通常对于每个输出特征图是共享的。输出特征图
`$o[:,:,0]$`
中的最后一个
`$-2$`
计算如图5右下角公式所示。
在卷积操作中卷积核是可学习的参数,经过上面示例介绍,每层卷积的参数大小为
`$D \times F \times F \times K$`
。在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
在卷积操作中卷积核是可学习的参数,经过上面示例介绍,每层卷积的参数大小为
`$D \times F \times F \times K$`
。在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录